学习深度强化学习---第3部分----RL蒙特卡罗相关算法

news/2024/5/19 0:11:17 标签: 强化学习

文章目录

    • 3.1节 蒙特卡罗法简介
    • 3.2节 蒙特卡罗策略评估
    • 3.3节 蒙特卡罗强化学习
    • 3.4节 异策略蒙特卡罗法

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。
如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。
在这里插入图片描述
在这里插入图片描述
无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)
法2:免模型强化学习法(即蒙特卡罗方法)
在这里插入图片描述
一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法


http://www.niftyadmin.cn/n/5262318.html

相关文章

JS基础之变量对象

JS基础之变量对象 变量对象基础变量对象全局上下文函数上下文执行过程进入执行上下文代码执行思考题 变量对象 基础 当JavaScript代码执行一段可执行代码(executable code)时,会创建对应的执行上下文(execution context&#xff…

提升软件安全性 - 运用Inno Setup打包技术实现序列号与机器绑定

背景 随着数字化时代的到来,软件已成为日常生活中不可或缺的一部分。无论是企业级应用还是个人用户,都需要通过软件实现各种功能。然而,在这种情况下,软件的安全性变得越来越重要。为了防止未经授权的复制和传播,许多…

JAVA:注册表窗口的实现

目录 题目要求: 思路大意: 窗体的实现: 窗口A: 窗口B: 窗体之间的构思: 关键代码的实现: 窗口A: 封装列表: 窗口B: 题目要求: 使用…

3DMax物理画笔物体填充放置绘制画笔插件安装使用方法

3DMax物理画笔物体填充放置绘制画笔插件,允许您使用笔刷以非常自然的方式用物品快速填充场景,并使用刚体模拟自动放置它们。 无论你是从事建筑、游戏电影还是商业。。。等等,你经常需要用一些物品为你的场景添加细节。手工放置它们是乏味的&…

csapp 第五章读书笔记 分析程序指标工具

csapp 第五章读书笔记 part2 Program Profiling gprof是一种性能分析工具,用于分析程序的运行时间和函数调用关系。它可以帮助开发人员找出程序中的瓶颈和性能问题,从而进行优化。 gprof的工作原理是通过在程序中插入计时器和计数器来收集数据。它会在…

Python按字母顺序返回字典的键和值

Python每日一练 文章目录 Python每日一练问题:函数输入函数输出 代码实现示例输入:示例输出: 总结 问题: 编写一个程序,分别按字母顺序返回字典的键和值。 定义函数get_sorted_keys_values(),参数为dict_…

linux 内核同步互斥技术之自旋锁

自旋锁 自旋锁用于处理器之间的互斥,适合保护很短的临界区,并且不允许在临界区睡眠。申请自旋锁的时候,如果自旋锁被其他处理器占有,本处理器自旋等待(也称为忙等待)。 进程、软中断和硬中断都可以使用自旋…

树莓派zero w入坑指南

树莓派zero w入坑指南 入坑契机 说起创客不得不提到开源硬件Raspberry Pi(树莓派)。它是一款基于ARM的微型电脑主板,以MicroSD卡为硬盘,提供HDMI和USB等外部接口,可连接显示器和键鼠。以上部件全部整合在一张仅比信用卡稍大的主板上&#x…