深入理解强化学习——马尔可夫决策过程:占用度量-[基础知识]

分类目录:《深入理解强化学习》总目录


文章《深入理解强化学习——马尔可夫决策过程:贝尔曼期望方程-[基础知识]》中提到,不同策略的价值函数是不一样的。这是因为对于同一个马尔可夫决策过程,不同策略会访问到的状态的概率分布是不同的。想象一下,在下图的马尔可夫决策过程中现在有一个策略,它的动作执行会使得智能体尽快到达终止状态 s 5 s_5 s5,于是当智能体处于状态 s 3 s_3 s3时,不会采取“前往 s 4 s_4 s4”的动作,而只会以1的概率采取“前往 s 5 s_5 s5”的动作,所以智能体也不会获得在 s 4 s_4 s4状态下采取“前往 s 5 s_5 s5”可以得到的很大的奖励10。可想而知,根据贝尔曼方程,这个策略在状态的概率会比较小,究其原因是因为它没法到达状态。因此我们需要理解不同策略会使智能体访问到不同概率分布的状态这个事实,这会影响到策略的价值函数。
<a class=马尔可夫决策过程的一个简单例子" />

首先我们定义马尔可夫决策过程的初始状态分布为 v 0 ( s ) v_0(s) v0(s),在有些资料中,初始状态分布会被定义进马尔可夫决策过程的组成元素中。我们用 P t π ( s ) P_t^\pi(s) Ptπ(s)表示采取策略 π \pi π使得智能体在时刻 t t t状态为 s s s的概率,所以我们有 P 0 π ( s ) = v 0 ( s ) P_0^\pi(s)=v_0(s) P0π(s)=v0(s),然后就可以定义一个策略的状态访问分布(State Visitation Distribution):
v π ( s ) = ( 1 − γ ) ∑ t = 1 ∞ γ t P t π ( s ) v^\pi(s)=(1-\gamma)\sum_{t=1}^\infty\gamma^tP_t^\pi(s) vπ(s)=(1γ)t=1γtPtπ(s)

其中, 1 − γ 1-\gamma 1γ是用来使得概率加和为1的归一化因子。状态访问概率表示一个策略和马尔可夫决策过程交互会访问到的状态的分布。需要注意的是,理论上在计算该分布时需要交互到无穷步之后,但实际上智能体和马尔可夫决策过程的交互在一个序列中是有限的。不过我们仍然可以用以上公式来表达状态访问概率的思想,状态访问概率有如下性质:
v π ( s ′ ) = ( 1 − γ ) v 0 ( s ′ ) + γ ∫ P ( s ′ ∣ s , a ) π ( a ∣ s ) v π ( s ) d s d a v^\pi(s')=(1-\gamma)v_0(s')+\gamma\int P(s'|s, a)\pi(a|s)v^\pi(s)\text{d}s\text{d}a vπ(s)=(1γ)v0(s)+γP(ss,a)π(as)vπ(s)dsda

此外,我们还可以定义策略的占用度量(Occupancy Measure):
ρ π ( s , a ) = ( 1 − γ ) ∑ t = 1 ∞ γ t P t π ( s ) π ( a ∣ s ) \rho^\pi(s, a)=(1-\gamma)\sum_{t=1}^\infty\gamma^tP_t^\pi(s)\pi(a|s) ρπ(s,a)=(1γ)t=1γtPtπ(s)π(as)

它表示动作状态对 ( s , a ) (s, a) (s,a)被访问到的概率。二者之间存在如下关系:
ρ π ( s , a ) = v π ( s ) π ( a ∣ s ) \rho^\pi(s, a)=v^\pi(s)\pi(a|s) ρπ(s,a)=vπ(s)π(as)

进一步我们可以得出如下两个定理:

  • 定理 1:智能体分别以策略 π 1 \pi_1 π1 π 2 \pi_2 π2和同一个马尔可夫决策过程交互得到的占用度量和满足: ρ π 1 = ρ π 2 ⇔ π 1 = π 2 \rho^{\pi_1}=\rho^{\pi_2}\Leftrightarrow\pi_1=\pi_2 ρπ1=ρπ2π1=π2
  • 定理 2:给定一合法占用度量 ρ \rho ρ,可生成该占用度量的唯一策略是: π ρ = ρ ( s , a ) ∑ a ′ ρ ( s , a ′ ) \pi_\rho=\frac{\rho(s, a)}{\sum_{a'}\rho(s, a')} πρ=aρ(s,a)ρ(s,a)

以上提到的“合法”占用度量是指存在一个策略使智能体与马尔可夫决策过程交互产生的状态动作对被访问到的概率。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


http://www.niftyadmin.cn/n/5240232.html

相关文章

【Midjourney实战】| 新年礼盒元素设计

文章目录 1 初步提示词2 润色提示词3 提示词发散联想 这期实践任务&#xff0c;我们想去做一个新年礼盒的效果&#xff0c;最后我们想把不同元素拼在一起&#xff0c;方便后期进行新年的相关设计 1 初步提示词 提示词初步我们乍一想&#xff0c;肯定要包括主体元素礼盒 新年礼…

01.项目简介

开源数字货币交易所&#xff0c;基于Java开发的货币交易所 | BTC交易所 | ETH交易所 | 数字货币交易所 | 交易平台 | 撮合交易引擎。本项目基于SpringCloudAlibaba微服务开发&#xff0c;可用来搭建和二次开发数字货币交易所。 项目特色&#xff1a; 基于内存撮合引擎&#xf…

FreeRTOS简介

FreeRTOS简介 文章目录 FreeRTOS简介前言一、什么是FreeRTOS&#xff1f;二、FreeRTOS的特点三、FreeRTOS的版本和参考资料1、FreeRTOS版本2、FreeRTOS源码获取3、FreeRTOS参考资料 四、FreeRTOS源码简介 前言 FreeRTOS是一个可以基于ROM运行的、可裁剪的、抢占式、实时多任务…

数据可视化0成本解决方案:你也可以拥有可视化大屏!

数据可视化大屏成为企业展示数据、决策分析的重要工具。然而&#xff0c;许多人认为制作这样的大屏成本高昂&#xff0c;其实根据我作为数据可视化设计师的经验&#xff0c;你可以达到这一目标却不用花一分钱。 首先&#xff0c;你要懂得利用免费工具和资源。在如今丰富的免费工…

K7系列FPGA多重启动(Multiboot)

Xilinx 家的 FPGA 支持多重启动功能&#xff08;Multiboot&#xff09;&#xff0c;即可以从多个 bin 文件中进行选择性加载&#xff0c;从而实现对系统的动态更新&#xff0c;或系统功能的动态调整。 这一过程可以通过嵌入在 bit 文件里的 IPROG 命令实现上电后的自动加载。而…

postgresql-effective_cache_size参数详解

在 PostgreSQL 中&#xff0c;effective_cache_size 是一个配置参数&#xff0c;用于告诉查询规划器关于系统中可用缓存的估计信息。这个参数并不表示实际的内存量&#xff0c;而是用于告诉 PostgreSQL 查询规划器系统中可用的磁盘缓存和操作系统级别的文件系统缓存的大小。它用…

执法记录仪、一体化布控球等目前支持的AI智能算法、视频智能分析算法有哪些

一、前端设备实现AI算法 主要是基于安卓的布控球实现&#xff0c;已有的算法包括&#xff1a; 1&#xff09;人脸&#xff1b;2&#xff09;车牌&#xff1b;3&#xff09;是否佩戴安全帽&#xff1b;4&#xff09;是否穿着工装&#xff1b; 可以支持定制开发 烟雾&#xf…

你好!哈希表【JAVA】

1.初识&#x1f3b6;&#x1f3b6;&#x1f3b6; 它基本上是由一个数组和一个哈希函数组成的。哈希函数将每个键映射到数组的特定索引位置&#xff0c;这个位置被称为哈希码。当我们需要查找一个键时&#xff0c;哈希函数会计算其哈希码并立即返回结果&#xff0c;因此我们可以…