分类目录:《深入理解强化学习》总目录
在马尔可夫过程的基础上加入奖励函数和折扣因子,就可以得到马尔可夫奖励过程(Markov Reward Process)。一个马尔可夫奖励过程由 ( S , P , r , γ ) (S, P, r, \gamma) (S,P,r,γ)构成,各个组成元素的含义如下所示:
- S S S是有限状态的集合。
- P P P是状态转移矩阵。
- r r r是奖励函数,某个状态 s s s的奖励 r ( s ) r(s) r(s)指转移到该状态时可以获得奖励的期望。
- γ \gamma γ是折扣因子(Discount Factor), γ \gamma γ的取值范围为 [ 0 , 1 ] [0, 1] [0,1]。引入折扣因子的理由为远期利益具有一定不确定性,有时我们更希望能够尽快获得一些奖励,所以我们需要对远期利益打一些折扣。接近1的 γ \gamma γ更关注长期的累计奖励,接近0的 γ \gamma γ更考虑短期奖励。
在马尔可夫奖励过程中,一个状态的期望回报(即从这个状态出发的未来累积奖励的期望)被称为这个状态的价值(Value)。所有状态的价值就组成了价值函数(Value Function),价值函数的输入为某个状态,输出为这个状态的价值。我们将价值函数写成
V
(
s
)
=
E
[
G
t
∣
S
t
=
s
]
V(s)=E[G_t|S_t=s]
V(s)=E[Gt∣St=s],展开为:
V
(
s
)
=
E
[
G
t
∣
S
t
=
s
]
=
E
[
R
t
+
γ
R
t
+
1
+
γ
2
R
t
+
2
+
⋯
∣
S
t
=
s
]
=
E
[
R
t
+
γ
G
t
+
1
∣
S
t
=
s
]
=
E
[
R
t
+
γ
V
(
S
t
+
1
)
∣
S
t
=
s
]
\begin{aligned} V(s)&=E[G_t|S_t=s] \\ &=E[R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\cdots|S_t=s] \\ &=E[R_t + \gamma G_{t+1}|S_t=s] \\ &=E[R_t + \gamma V(S_{t+1})|S_t=s] \\ \end{aligned}
V(s)=E[Gt∣St=s]=E[Rt+γRt+1+γ2Rt+2+⋯∣St=s]=E[Rt+γGt+1∣St=s]=E[Rt+γV(St+1)∣St=s]
其中, G t G_t Gt是之前定义的折扣回报(Discounted Return)。我们对 G t G_t Gt取了一个期望,期望就是从这个状态开始,我们可能获得多大的价值。所以期望也可以看成未来可能获得奖励的当前价值的表现,就是当我们进入某一个状态后,我们现在有多大的价值。
我们使用折扣因子的原因如下:
- 有些马尔可夫过程是带环的,它并不会终结,折扣因子可以避免无穷的奖励。
- 我们并不能建立完美的模拟环境的模型,我们对未来的评估不一定是准确的,我们不一定完全信任模型,因为这种不确定性,所以我们对未来的评估增加一个折扣。我们想把这个不确定性表示出来,希望尽可能快地得到奖励,而不是在未来某一个点得到奖励。
- 如果奖励是有实际价值的,我们可能更希望立刻就得到奖励,而不是后面再得到奖励(现在的钱比以后的钱更有价值)。
- 我们也更想得到即时奖励。有些时候可以把折扣因子设为0( γ = 0 \gamma=0 γ=0),我们就只关注当前的奖励。我们也可以把折扣因子设为1( γ = 1 \gamma=1 γ=1),对未来的奖励并没有打折扣,未来获得的奖励与当前获得的奖励是一样的。折扣因子可以作为强化学习智能体的一个超参数(Hyperparameter)来进行调整,通过调整折扣因子,我们可以得到不同动作的智能体。
参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022