深入理解强化学习——强化学习智能体的四要素：价值函数（Value Function）

分类目录：《深入理解强化学习》总目录
相关文章：
· 强化学习智能体的四要素：策略（Policy）
· 强化学习智能体的四要素：收益信号（Revenue Signal）
· 强化学习智能体的四要素：价值函数（Value Function）
· 强化学习智能体的四要素：模型（Model）

对于一个强化学习智能体，它可能有一个或多个如下的组成成分：

策略（Policy）：智能体会用策略来选取下一步的动作
收益信号（Revenue Signal）：在每一步中，环境向强化学习智能体发送一个标量数值，收益信号是改变策略的主要基础
价值函数（Value Function）：我们用价值函数来对当前状态进行评估，价值函数用于评估智能体进入某个状态后，可以对后面的奖励带来多大的影响。价值函数值越大，说明智能体进入这个状态越有利
模型（Model）：模型表示智能体对环境的状态进行理解，它决定了环境中世界的运行方式

本文就将探讨强化学习智能体的四要素中的价值函数。

价值函数的值是对未来奖励的预测，我们用它来评估状态的好坏。价值函数里面有一个折扣因子（Discount Factor），我们希望在尽可能短的时间里面得到尽可能多的奖励。比如现在给我们两个选择：10天后给我们100块钱或者现在给我们100块钱。我们肯定更希望现在就给我们100块钱，因为我们可以把这100块钱存在银行里面，这样就会有一些利息。因此，我们可以把折扣因子放到价值函数的定义里面，价值函数的定义为： $V_\pi(s)\approx E_\pi[G_t|s_t=s]=E_\pi[\sum_{k=0}^\infty\gamma^kr_{t+k+1}|s_t=s]$

其中，对于所有的 $s\in S$ ，期望 $E_\pi$ 的下标是 $\pi$ 函数， $\pi$ 函数的值可反映在我们使用策略 $\pi$ 的时候，到底可以得到多少奖励。

我们还有一种价值函数：Q函数。Q函数里面包含两个变量：状态和动作。其定义为：
$Q_\pi(s, a)\approx E_\pi[G_t|s_t=s, a_t=a]=E_\pi[\sum_{k=0}^\infty\gamma^kr_{t+k+1}|s_t=s, a_t=a]$

所以我们未来可以获得奖励的期望取决于当前的状态和当前的动作。Q函数是强化学习算法里面要学习的一个函数。因为当我们得到Q函数后，进入某个状态要采取的最优动作可以通过Q函数得到。

收益信号表明了在短时间内什么是好的，而价值函数则表示了从长远的角度看什么是好的。简单地说，一个状态的价值是一个智能体从这个状态开始，对将来累积的总收益的期望。尽管收益决定了环境状态直接、即时、内在的吸引力，但价值表示了接下来所有可能状态的长期期望。例如，某状态的即时收益可能很低，但它仍然可能具有很高的价值，因为之后定期会出现高收益的状态，反之亦然。用人打比方，收益就像即时的愉悦（高收益）和痛苦（低收益），而价值则是在当前的环境与特定状态下，对我们未来究竟有多愉悦或多不愉悦的更具有远见的判断。

从某种意义上来说，收益更加重要，而作为收益预测的价值次之。没有收益就没有价值，而评估价值的唯一目的就是获得更多的收益。然而，在制定和评估策略时，我们最关心的是价值。动作选择是基于对价值的判断做出的。我们寻求能带来最高价值而不是最高收益的状态的动作，因为这些动作从长远来看会为我们带来最大的累积收益。不幸的是，确定价值要比确定收益难得多。收益基本上是由环境直接给予的，但是价值必须综合评估，并根据智能体在整个过程中观察到的收益序列重新估计。事实上，价值评估方法才是几乎所有强化学习算法中最重要的组成部分。价值评估的核心作用可以说是我们在过去60年里所学到的关于强化学习的最重要的东西。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022