21.在线与离线MC强化学习简介

news/2024/5/19 0:31:58 标签: 算法, 强化学习, 蒙特卡洛

文章目录

1. 什么是在线MC强化学习

在线强化学习(on-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)都是同一个策略,即: π = π s a m p l e \pi=\pi_{sample} π=πsample

简而言之:所谓在线,就是在对一个初始策略评估的同时,利用 ϵ − \epsilon- ϵ贪心算法对它进行及时改进。

2. 什么是离线MC强化学习

所在离线强化学习(off-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)不是同一个策略,即: π ≠ π s a m p l e \pi\ne\pi_{sample} π=πsample

3. 在线MC强化学习有何缺点

  • 所学到的策略可能不适合作为最终的策略使用。
    • 为什么?
      • 因为它引入的 ϵ − \epsilon- ϵ贪心算法虽然确保了完整轨迹覆盖状态的多样性,但却以牺牲较快找到最优策略为代价,它总是小心翼翼,认为最优行为有可能存在于依赖经验确定的最优行为之外;
      • 它没有考虑这一常识:随着轨迹覆盖了更多的状态和行为,随着这些状态行为对出现次数的增多,依赖完全贪心算法所确定的最优行为应该越来越具有获得更高累积回报期望的把握
      • 如果智能体已经有关于如何更快更好地获得完整轨迹采样的先验策略,而这样的策略能够帮助自己更快地优化最终所要采取的策略,就没有必要在策略评估和策略控制中采用同一策略了。

由于以上缺点,人们已经发展出了离线强化学习算法,它可以进一步细分为


http://www.niftyadmin.cn/n/5331617.html

相关文章

Qt之QxOrm

QxORM介绍 QxORM库是一种为了C/Qt开发者服务的关系对象映射型数据库的类库,每个类都有简单的C设置函数,你可以接触到如下特性: 持久性:支持最常见的数据库,如 SQLite、MySQL、PostgreSQL、Oracle、MS SQL Server、Mon…

为 Web3 项目撰写智能合约(Web3项目三实战之二)

时间像是在我们身边悄然而过,而我们的Web3项目实战系列也来到了第三个Web3项目。若正在屏幕前浏览本篇文章的您,或是从Web3项目一开篇之作,一直跟随着我的步伐来到了本文,想必您对于Web3与Web2的区别,有了最为深刻的感触了! 当然咯,前提是您先前或者说是当下是一位Web2开…

几款提高开发效率的Idea 插件

1、ignore 开发代码过程中经常会有一些需要提交到代码仓库的文件,比如java文件生成的.class、.jar 等,如果将编译后的文件都提交到代码库那么代码库会很大,关键是没有必要。 这款插件就可以很方便的解决某类文件或者某个文件夹不需要提交到…

商城小程序(9.登录与支付)

目录 一、点击结算按钮进行条件判断二、登录1、实现登录和用户信息组件的按需展示2、实现登录组件的基本布局3、点击登录获取微信用户的基本信息4、将用户的基本信息存储到vuex5、获取token字符串6、将token存储到vuex 三、用户信息1、实现用户头像昵称区域的基本布局2、渲染用…

JavaSE核心基础-流程语句-笔记

1.键盘录入 import java.util.Scanner; Scanner scanner new Scanner(System.in); scanner.next();// 可以得到输入的字符串内容 scanner.nextInt();// 整型数据 scanner.nextDouble();// 浮点型数据 2.流程控制语句…

【思科】IPsec VPN 实验配置(地址固定)

【思科】IPsec VPN 实验配置(地址固定) 注意实验需求配置思路配置命令拓扑R1基础配置配置第一阶段 IKE SA配置第二阶段 IPsec SA ISP_R2基础配置 R3基础配置配置第一阶段 IKE SA配置第二阶段 IPsec SA PCPC1PC2 检查建立成功查看命令清除IKE / IPsec SA…

explain之key_len

简介 表示索引中使用的字节数,可通过该列计算查询中使用的索引的长度。一般来说,索引长度越长表示精度越高,效率偏低;长度越短,效率高,但精度就偏低。并不是真正使用索引的长度,是个预估值 索引…

openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_keygen.c

文章目录 openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_keygen.c概述笔记END openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_keygen.c 概述 das.h 中有2个公共函数(给pkey目录的所有工程公用): print_bn() 打印大数值 dsa_print_key() 打印key值 打印_evp_pkey_dsa…