【强化学习】PPO：近端策略优化算法

近端策略优化算法 《Proximal Policy Optimization Algorithms》

论文地址：https://arxiv.org/pdf/1707.06347.pdf

相关博客
【自然语言处理】【大模型】 ΨPO：一个理解人类偏好学习的统一理论框架
【强化学习】PPO：近端策略优化算法

一、置信域方法(Trust Region Methods)

设 $\pi_{\theta_{old}}$ 是先前参数为 $\theta_{old}$ 的策略网络， $\pi_{\theta}$ 则是当前待优化的策略网络，则TRPO的优化目标是：
$\begin{align} &\mathop{\text{maximize}}_{\theta}\quad\hat{\mathbb{E}}_t\Big[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t \Big] \\ &\mathop{\text{subject}\;\text{to}}\quad\hat{\mathbb{E}}_t[\text{KL}[\pi_{\theta_{old}}(\cdot|s_t),\pi_{\theta}(\cdot|s_t)]]\leq\delta \end{align}$
其中， $\hat{A}_t$ 是 $t$ 时刻的优势函数估计值。 $r_t(\theta)=\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$ 是用来控制新旧策略的差异，若差异到则会增加更新幅度，反之则降低更新幅度。约束条件则是新旧策略函数的KL散度，该约束会控制新旧策略的差距不会太大。但是，求解这个带约束的优化问题实现复杂且计算量大。

理论上证明TRPO在实践中，建议使用惩罚项而不是约束，即转换为无约束优化问题。
$\mathop{\text{maximize}}_{\theta}\quad\hat{\mathbb{E}}_t\Big[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t-\beta\text{KL}[\pi_{\theta_{old}}(\cdot|s_t),\pi_{\theta}(\cdot|s_t)]\Big]$
其中， $\beta$ 是超参数。TRPO使用硬约束而不是惩罚项，是因为很难选择单个 $\beta$ 在所有不同问题上均表现良好。实验也表明，简单选择固定的惩罚系数 $\beta$ 并用SGD优化惩罚目标是不够的，需要额外的修改。

二、Clipped Surrogate Objective

由于 $r_t(\theta)=\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$ ，显然 $r_t(\theta_{old})=1$ 。TRPO最大化”代理“目标函数：
$L^{\text{CPI}}(\theta)=\hat{\mathbb{E}}_t\Big[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t\Big]=\hat{\mathbb{E}}_t[r_t(\theta)\hat{A}_t]$
在没有约束的情况下，最大化 $L^{\text{CPI}}$ 有可能会大幅度更新策略；因此，需要修改目标函数来惩罚 $r_t(\theta)$ 远离1。

因此提出目标函数
$L^{\text{CLIP}}(\theta)=\hat{\mathbb{E}}_t\Big[\min(r_t(\theta)\hat{A}_t,\text{clip}(r_t(\theta),1-\epsilon,1+\epsilon)\hat{A}_t\Big]$
$\epsilon$ 截断超参数，通常设置为0.2。 $\text{clip()}$ 代表截断函数，负责将 $r_t$ 限制在 $[1-\epsilon,1+\epsilon]$ ，以保证收敛性。最后，使用无截断和截断目标函数的最小值，从而形成未截断目标函数的下界。

优势函数A可以分为正负两种情况。若优势函数为正，当 $r_t>1+\epsilon$ 时，将不提供额外的奖励；若优势函数为负，当 $r_t<1-\epsilon$ 时，同样不提供额外的奖励，这样就能限制新旧策略的差异。
在这里插入图片描述

三、自适应KL惩罚系数

另一种代替或者补充clipped surrogate objective的方案是使用KL散度惩罚，并调整惩罚系数，每次策略更新时使得KL散度 $d_{\text{targ}}$ 达到某个目标值。在作者的实验中，KL惩罚的表现要差于clipped surrogate objective，但其可以作为重要的baseline。

在每次策略更新中执行下面的步骤：

利用若干个minibatch SGD的epochs，优化KL惩罚目标
$L^{\text{KLPEN}}(\theta)=\hat{\mathbb{E}}_t\Big[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t-\beta\text{KL}[\pi_{\theta_{old}}(\cdot|s_t),\pi_{\theta}(\cdot|s_t)]\Big]$
计算 $d=\hat{\mathbb{E}}_t[\text{KL}[\pi_{\theta_{old}}(\cdot|s_t),\pi_{\theta}(\cdot|s_t)]]$

若 $d<d_{\text{targ}}/1.5,\beta\leftarrow\beta/2$

若 $d>d_{\text{targ}}\times1.5,\beta\leftarrow\beta\times 2$

更新后的 $\beta$ 用于下一次的策略更新。

四、完整算法

在这里插入图片描述

前面推导的surrogate损失函数能够在典型的策略梯度上简单改动即可实现。大多数的优势函数都使用一个可学习的状态价值函数 $V (s)$ 。若策略网络和价值网络共享神经网络架构，那么需要使用一个结合了策略函数和值函数误差项的损失函数。目标函数可以进一步添加熵正则来确保充分的探索。合并这些项，就能够获得下面的目标函数：
$L^{\text{CLIP+VF+S}}(\theta)=\hat{\mathbb{E}}_t[L_t^{\text{CLIP}}(\theta)-c_1L_t^{\text{VF}}(\theta)+c_2S[\pi_{\theta}](s_t)]$
其中， $c_1$ 和 $c_2$ 是控制各个项比例的超参数， $S$ 是熵正则项， $L^{\text{SF}}_t$ 是均方误差损失 $(V_{\theta}(s_t)-V_t^{\text{targ}})^2$ 。