深入理解强化学习——马尔可夫决策过程:价值迭代-[确认性价值迭代]

分类目录:《深入理解强化学习》总目录


如果我们知道子问题 V ∗ ( s ′ ) V^*(s') V(s)的最优解,就可以通过价值迭代来得到最优的 V ∗ ( s ) V^*(s) V(s)的解。价值迭代就是把贝尔曼最优方程当成一个更新规则来进行,即:
V ( s ) ← max ⁡ a ∈ A ( R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V ( s ′ ) ) V(s)\leftarrow\max_{a\in A}(R(s, a)+\gamma\sum_{s'\in S}p(s'|s, a)V(s')) V(s)aAmax(R(s,a)+γsSp(ss,a)V(s))

只有当整个马尔可夫决策过程已经达到最佳的状态时,上式才满足。但我们可以把它转换成一个备份的等式。备份的等式就是一个迭代的等式。我们不停地迭代贝尔曼最优方程,价值函数就能逐渐趋向于最佳的价值函数,这是价值迭代算法的精髓。

为了得到最佳的 V ∗ V^* V,对于每个状态的 V V V,我们直接通过贝尔曼最优方程进行迭代,迭代多次之后,价值函数就会收敛。这种价值迭代算法也被称为确认性价值迭代(Deterministic Value Iteration)。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


http://www.niftyadmin.cn/n/5265163.html

相关文章

Crow:黑魔法 添加路由1 get_parameter_tag路由参数的转换

Crow中有不少黑魔法代码,比如最为重要的添加路由: //添加路由 CROW_ROUTE(app, "/path/")([]() {return "Trailing slash test case..";});//定义CROW_ROUTE #define CROW_ROUTE(app, url) app.template route<crow::black_magic::get_parameter_tag…

Shell 脚本 基础 学习 笔记 (超详细,适合新手观看学习)

Shell脚本语言 Shell关键字Shell变量命名规则使用变量赋值变量自定义变量命令行交互read定义变量类型declare预定义变量环境变量 Shell字符串Shell中的集合类型数组&#xff08;array&#xff09;数组定义和赋值数组元素访问获取数组长度 map Shell运算算数运算符关系运算符布尔…

Ubuntu18.04.6下安装opencv库及OpenCV安装libjasper-dev依赖包错误

目录 01 解压安装包 02 安装cmake和依赖库 03 配置编译环境 01 解压安装包 创建一个名为Opencv的文件夹 mkdir opencv 将源码的压缩包复制到opencv目录下 将压缩包解压到opencv文件夹&#xff08;指定一个文件夹&#xff09; unzip opencv-3.4.11.zip -d opencv02 安装cm…

算法通关村第十三关—数论问题(黄金)

数论问题 一、辗转相除法 辗转相除法又叫做欧几里得算法&#xff0c;是公元前300年左右的希腊数学家欧几里得在他的著作《几何原本》提出的。最大公约数(greatest common divisor,简写为gcd),是指几个数的共有的因数之中最大的一个&#xff0c;例如8和12的最大公因数是4&#…

目标检测图片截取目标分类图片

如果要训练一个分类模型却没有特定的分类数据集怎么办呢&#xff1f;可以换一种思路&#xff0c;将带有该目标的图片对所有想要的目标进行画标注框然后进行截图&#xff0c;就能得到特定的分类数据了。这么做的目的是&#xff1a;带有该目标的图片可能不会少&#xff0c;但是带…

中文字符串逆序输出

今天碰到这个题&#xff0c;让我逆序输出中文字符串&#xff0c;可给我烦死了&#xff0c;之前没有遇到过&#xff0c;也是查了资料才知道&#xff0c;让我太汗颜了。 英文字符串逆序输出很容易&#xff0c;开辟一块空间用来存放逆序后的字符串&#xff0c;从后往前遍历原字符串…

Windows10安装Hadoop3.1.3环境

Windows10安装Hadoop3.1.3环境 文章目录 1.安装包下载1.1.hadoop官网下载1.2下载winutils1.3安装文件 2.配置安装2.1安装配置JDK环境2.2解压hadoop压缩包2.3配置hadoop的环境变量2.3.1配置HADOOP_HOME2.3.2配置Path变量 2.4配置hadoop2.4.1 创建data和temp文件夹2.4.2配置hadoo…

leetcode 69. x 的平方根(优质解法)

代码&#xff1a; class Solution {public int mySqrt(int x) {long left0;long rightx;while (left<right){long midleft(right-left1)/2;//注意乘法操作和加法操作都很容易发生溢出if(mid*mid<x){leftmid;}else {rightmid-1;}}return (int)left;} } 题解&#xff1a;…