深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[价值函数]

在马尔可夫过程的基础上加入奖励函数和折扣因子，就可以得到马尔可夫奖励过程（Markov Reward Process）。一个马尔可夫奖励过程由 $\gamma)$ 构成，各个组成元素的含义如下所示：

$S$ 是有限状态的集合。
$P$ 是状态转移矩阵。
$r$ 是奖励函数，某个状态 $s$ 的奖励 $r (s)$ 指转移到该状态时可以获得奖励的期望。
$\gamma$ 是折扣因子（Discount Factor）， $\gamma$ 的取值范围为 $[0, 1]$ 。引入折扣因子的理由为远期利益具有一定不确定性，有时我们更希望能够尽快获得一些奖励，所以我们需要对远期利益打一些折扣。接近1的 $\gamma$ 更关注长期的累计奖励，接近0的 $\gamma$ 更考虑短期奖励。

在马尔可夫奖励过程中，一个状态的期望回报（即从这个状态出发的未来累积奖励的期望）被称为这个状态的价值（Value）。所有状态的价值就组成了价值函数（Value Function），价值函数的输入为某个状态，输出为这个状态的价值。我们将价值函数写成 $V(s)=E[G_t|S_t=s]$ ，展开为：
$\begin{aligned} V(s)&=E[G_t|S_t=s] \\ &=E[R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\cdots|S_t=s] \\ &=E[R_t + \gamma G_{t+1}|S_t=s] \\ &=E[R_t + \gamma V(S_{t+1})|S_t=s] \\ \end{aligned}$

其中， $G_t$ 是之前定义的折扣回报（Discounted Return）。我们对 $G_t$ 取了一个期望，期望就是从这个状态开始，我们可能获得多大的价值。所以期望也可以看成未来可能获得奖励的当前价值的表现，就是当我们进入某一个状态后，我们现在有多大的价值。

我们使用折扣因子的原因如下：

有些马尔可夫过程是带环的，它并不会终结，折扣因子可以避免无穷的奖励。
我们并不能建立完美的模拟环境的模型，我们对未来的评估不一定是准确的，我们不一定完全信任模型，因为这种不确定性，所以我们对未来的评估增加一个折扣。我们想把这个不确定性表示出来，希望尽可能快地得到奖励，而不是在未来某一个点得到奖励。
如果奖励是有实际价值的，我们可能更希望立刻就得到奖励，而不是后面再得到奖励（现在的钱比以后的钱更有价值）。
我们也更想得到即时奖励。有些时候可以把折扣因子设为0（ $\gamma=0$ ），我们就只关注当前的奖励。我们也可以把折扣因子设为1（ $\gamma=1$ ），对未来的奖励并没有打折扣，未来获得的奖励与当前获得的奖励是一样的。折扣因子可以作为强化学习智能体的一个超参数（Hyperparameter）来进行调整，通过调整折扣因子，我们可以得到不同动作的智能体。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[价值函数]

相关文章

Ansible 企业实战详解

TSINGSEE视频汇聚管理与AI算法视频质量检测方案

【Java 进阶篇】JQuery 案例：全选全不选，为选择添彩

【多线程 - 07、中断线程 interrupt】

【ATTCK】基于ATTCK识别网络钓鱼攻防战法

HMM与LTP词性标注之马尔科夫模型（HMM代码实现）

Spark DataFrame join后移除重复的列

从0到0.01入门 Webpack| 002.精选 Webpack面试题