强化学习-PolicyGradient相关推导和记录

首先定义强化学习的目标: $J(\pi_\theta)=E_{\tau \sim \pi_\theta}[R(\tau)]$ 也就是找到一个策略可以最大化累计奖励。其中是 $\pi_\theta$ 用 $\theta$ 参数化的策略。

那么策略梯度的目标就是寻找一个最好的 $\theta$ 去达到目标。其更新方式就是: $\theta_{k+1}=\theta_k+\alpha \nabla J(\pi_\theta)|_{\theta_k}$ 。

那么 $J(\pi_\theta)$ 的导数形式是如何呢？下面就来推导一下
$\nabla J(\pi_\theta)=\nabla E_{\tau \sim \pi_\theta}[R(\tau)] = \int_\tau P(\tau|\theta)R(\tau) \\ = \int_\tau \nabla P(\tau|\theta)R(\tau)$
其中 $P(\tau|\theta)=\rho_0(s_0) \prod_{t=0}^{T}P(r_{t+1},s_{t+1}|s_t,a_t)\pi_\theta(a_t|s_t)$ ，因为里面包含连乘，所以将其转换一下形式，变成如下形式:
$logP(\tau|\theta)=log\rho_0(s_0)+ \sum_{t=0}^{T}[logP(r_{t+1},s_{t+1}|s_t,a_t) + log\pi_\theta(a_t|s_t)]$
那么对 $\theta$ 求导可得如下形式
$\nabla_\theta logP(\tau|\theta)= \sum_{t=0}^{T}\nabla_\theta log\pi_\theta(a_t|s_t)$
然后 $\nabla_\theta P(\tau|\theta)和\nabla_\theta logP(\tau|\theta)$ 可以通过这样一个变化联系起来: $\nabla_\theta P(\tau|\theta)=P(\tau|\theta)\nabla_\theta logP(\tau|\theta)$ 。
所以，将其带回到上面的 $\nabla J(\pi_\theta)$ 中可得:
$\nabla_\theta J(\pi_\theta) = \int_\tau \nabla_\theta P(\tau|\theta)R(\tau) \\ = \int_\tau P(\tau|\theta)\nabla_\theta logP(\tau|\theta)R(\tau) \\ =E_{\tau \sim \theta}[\nabla_\theta logP(\tau|\theta)R(\tau)] \\ =E_{\tau \sim \theta}[\sum_{t=0}^{T}\nabla_\theta log\pi_\theta(a_t|s_t)R(\tau)]$
与是我们就得到了最简单的一个策略梯度的形式。因为这里是期望，所以我们可以通过采样来估计这个期望，假设我们收集到了D组轨迹数据，那么这个 $\nabla_\theta J(\pi_\theta)$ 可以通过如下形式计算：
$\nabla_\theta J(\pi_\theta) = \frac{1}{|D|}\sum_{\tau \sim D}\sum_{t=0}^{T} \nabla_\theta log\pi_\theta(a_t|s_t)R(\tau)$ .

那么这个最简单的策略梯度有什么缺点呢？我们通过公式可以看出，其对于每个动作（不管好坏）更新的幅度（比例）都是一样的，因为后面都是乘以一个 $R(\tau)$ ，而这个值无法分别反映每个动作的价值。
所以，在这里，一个很自然的想法就是对于每个动作，后面都乘以其相应执行后得到的奖励即可。所以上面的形式就转为如下：
$\nabla_\theta J(\pi_\theta) = \frac{1}{|D|}\sum_{\tau \sim D}\sum_{t=0}^{T} \nabla_\theta log\pi_\theta(a_t|s_t) \sum_{t'=t}^{T}R(s_{t'},a_{t'},s_{t'+1})$ .
这种形式也称为Reward-to-go policyGradient。因为每个动作后面乘以的是从当前动作执行后后续的所有奖励累计。

但是,虽然这种形式比最开始的形式估计的要好点，但是还是没有到好的动作更新的多点，差的动作更新的少点。 因为 $\sum_{t'=t}^{T}R(s_{t'},a_{t'},s_{t'+1})$ 是由t时刻开始后面所有动作的奖励组成，所以，如果当前的动作好，但是累计奖励小（后面的动作差），那么这个动作更新的幅度并不会很大，反之，如果当前的动作很差，但是累计奖励大（后面的动作好），那么这个动作更新的幅度反而会大。

那么我们如何再改进这个形式呢？首先，先引出了一个EGLP引理，这个引理说的是导数的期望是0，即： $E_{x \sim P_\theta}[\nabla_\theta logP_\theta(x)] = 0$
下面我们证明一下这个引理：
$\because \int_x P_\theta(x)=1\\ \therefore \nabla_\theta \int_xP_\theta(x) = 0 \\ \therefore 0=\nabla_\theta \int_xP_\theta(x)=\int_x \nabla_\theta P_\theta(x)=\int_x P_\theta(x) \nabla_\theta logP_\theta(x) \\ =E_{x \sim P_\theta}[\nabla_\theta logP_\theta(x)]$
那么根据这个引理，我们可以知道对任意的函数 $f (y)$ ， $E_{x \sim P_\theta}[\nabla_\theta logP_\theta(x) f(y)]=0$ 。
那么，我们就可以在上面的 $\nabla_\theta J(\pi_\theta)$ 中加入可以解决上述问题的一些函数。比如状态价值函数 $V_\pi(s_t)$ 。

这样一个仅与状态有关的函数 $f (x)$ ，我们称它为baseline。
所以上面的形式就转为如下：
$\nabla_\theta J(\pi_\theta) =E_{\tau \sim \theta}[\sum_{t=0}^{T}\nabla_\theta log\pi_\theta(a_t|s_t)(\sum_{t'=t}^{T}R(s_{t'},a_{t'},s_{t'+1})-f(s_t))]$ .
在这里，baseline最常用的是状态价值函数 $V_\pi(s_t)$ 。当baseline为状态价值函数的时候，可以减小策略梯度估计的方差，从而获得更快、更稳定的策略学习。从直觉上来说，这里选择了这个状态价值函数以后，后面的 $\sum_{t'=t}^{T}R(s_{t'},a_{t'},s_{t'+1})-f(x)$ 相当于是这个动作与平均动作的好坏。

所以，策略梯度可以写成下面这样的一般形式：
$\nabla_\theta J(\pi_\theta) =E_{\tau \sim \theta}[\sum_{t=0}^{T}\nabla_\theta log\pi_\theta(a_t|s_t) \Phi_t]$
其中 $\Phi_t$ 可以是 $R(\tau)$ ,或者是 $\sum_{t'=t}^{T}R(s_{t'},a_{t'},s_{t'+1})$ ,或者 $\sum_{t'=t}^{T}R(s_{t'},a_{t'},s_{t'+1})-f(s_t)$ ,或者 $Q_{\pi_\theta}(s_t,a_t)$ 又或者是 $A_{\pi_\theta}(s_t,a_t)=Q_{\pi_\theta}(s_t,a_t)-V_{\pi_\theta}(s_t,a_t)$
虽然每个选择都会具有不同的方差，但是最终的期望值都是一样的。
在这里要说明的是， $A_{\pi_\theta}(s_t,a_t)$ 也称为优势函数，描述的是当前执行的动作相比于其它动作的平均好坏（是对于当前策略而言).

详细信息（推导）可以参考：SpinningUp

强化学习-PolicyGradient相关推导和记录

相关文章

多线程之GCD

【时间序列分析】03. 谱密度

seo工具

python2入门（2）

自由能(Free Energy）（一）

【时间序列分析】04. 自回归模型

如果判断图片是否存在,可以使用javascript,省资源并且方便简单.

Chromium Graphics Update in 2014（滑动）