强化学习算法TRPO的理解

Trust Region Policy Optimization

角度一：off-policy
- 重要性采样 Importance Sampling
- 梯度优化
角度二：数值优化
- 置信域优化
- 蒙特卡洛近似

TRPO算法的全称是 Trust Region Policy Optimization，即信赖域策略优化。

角度一：off-policy

通常在强化学习策略梯度训练中，智能体每跟环境做一次完整的交互得到一条蒙特卡洛采样轨迹，策略网络的参数做一次更新，也就是on-policy方法，其优点是误差较小，但学习效率低，每个样本只能学习一次。为了提高样本学习效率，此时使用参数为 $\theta '$ 的旧网络做采样收集样本来跟新当前网络的参数 $\theta$ ，即off-policy方法。但旧网络收集的样本能直接用于更新当前网络的参数吗？

重要性采样 Importance Sampling

$\begin{split} \mathbb{E} _{x\sim p(x)}\left [ f(x) \right ] &= \int f(x)p(x)dx \\ &= \int f(x)\frac{p(x)}{q(x)} q(x)dx\\ &= \mathbb{E} _{x\sim q(x)}\left [ f(x)\frac{p(x)}{q(x)} \right ] \end{split}$
可以看出，有办法通过从 $q (x)$ 中采样来计算从 $p (x)$ 中采样的关于 $f (x)$ 的期望，尽管二者期望相同，但方差略有不同。
$Var_{x\sim p(x)}\left[f(x) \right] = \mathbb{E} _{x\sim p(x)}\left [ f^2(x) \right ]-\left[ \mathbb{E} _{x\sim p(x)}\left [ f(x) \right ]\right]^2$
$\begin{split} Var_{x\sim p(x)}\left[f(x) \right] &= \mathbb{E} _{x\sim q(x)}\left [ f(x)\frac{p(x)}{q(x)} \right ]^2-\left[ \mathbb{E} _{x\sim q(x)}\left [ f(x)\frac{p(x)}{q(x)} \right ] \right]^2 \\ &=\int f^2(x)\frac{p^2(x)}{q^2(x)}q(x)dx-\left[ \mathbb{E} _{x\sim p(x)}\left [ f(x) \right ] \right]^2\\ &= \mathbb{E} _{x\sim p(x)}\left[f^2(x)\frac{p(x)}{q(x)} \right]-\left[ \mathbb{E} _{x\sim p(x)}\left [ f(x) \right ] \right]^2 \end{split}$
可以看出，二者方差只有在第一项中相差 $\frac{p(x)}{q(x)}$ 倍，因此 $p (x)$ 和 $q (x)$ 的分布不能相差很大。我们再回头看策略梯度方法的优化函数 $J(\theta)$

记一条轨迹序列：
$\tau = \{s_1,a_1,s_2,a_2,...s_T,a_T\}$
其在参数 $\theta$ 下的概率和回报Return为：
$\begin{split} \pi_{\theta}(\tau) &= \pi(s_1)\prod_{t=1}^{T} \pi_{\theta }(a_t\mid s_t)\pi(s_{t+1}\mid s_t,a_t)\\ R(\tau) &= \sum_{t=1}^{T}r_t \end{split}$
注意， $\pi_{\theta}(\tau)$ 中只有一项与参数 $\theta$ 有关。我们要做的事是做大化期望回报，使用梯度上升法需要求导数，即：
$\begin{split} \theta^* &=\underset{\theta}{\argmax } J(\theta)\\ &=\underset{\theta}{\argmax } \sum_{\tau} R(\tau) \pi_{\theta}(\tau)\\ \nabla J(\theta)&= \sum_{\tau} R(\tau) \pi_{\theta}(\tau)\\ &=\sum_{\tau} \left[R(\tau) \pi_{\theta}(\tau)\frac{\nabla \pi_{\theta}(\tau)}{\pi_{\theta}(\tau)} \right]\\ &=\sum_{\tau} \left[R(\tau)\pi_{\theta}(\tau)\nabla \log \pi_{\theta}\left (\tau \right)\right ]\\ &= \mathbb{E} _{\tau \sim \pi_{\theta}(\tau )}\left[R(\tau)\nabla \log \pi_{\theta}\left (\tau \right)\right ] \end{split}$

梯度优化

假设我们有不同参数的策略网络 $\pi_{\theta'}$ 来采样数据，并更新策略网络 $\pi_{\theta}$ 的参数，使用蒙特卡洛近似采用，根据重要性采样公式，有：
$\begin{split} \nabla \log \pi_{\theta}\left (\tau \right)&=\nabla \log \left[ \pi(s_1)\prod_{t=1}^{T} \pi_{\theta }(a_t\mid s_t)\pi(s_{t+1}\mid s_t,a_t) \right]\\ &=\nabla \left[\log \pi(s_1)+\sum_{t=1}^T\log \pi_{\theta }(a_t\mid s_t)+\sum_{t=1}^T \pi(s_{t+1}\mid s_t,a_t) \right]\\ &=\sum_{t=1}^T\nabla\log \pi_{\theta }(a_t\mid s_t) \\ \nabla J_{\theta'}(\theta)&= \mathbb{E} _{(s_t,a_t) \sim \pi_{\theta'}}\left[\frac{\pi_{\theta}(s_t,a_t)}{\pi_{\theta'}(s_t,a_t)}R^{\theta'}(s_t,a_t)\nabla \log \pi_{\theta}\left (a_t|s_t \right)\right ]\\ &=\mathbb{E} _{(s_t,a_t) \sim \pi_{\theta'}}\left[\frac{\pi_{\theta}(a_t|s_t)\pi_{\theta}(s_t)}{\pi_{\theta'}(a_t|s_t)\pi_{\theta'}(s_t)}R^{\theta'}(a_t,s_t)\nabla \log \pi_{\theta}\left (a_t|s_t \right)\right ]\\ &\approx \mathbb{E} _{(s_t,a_t) \sim \pi_{\theta'}}\left[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta'}(a_t|s_t)}R^{\theta'}(s_t,a_t)\nabla \log \pi_{\theta}\left (a_t|s_t \right)\right ]\\ &=\mathbb{E} _{(s_t,a_t) \sim \pi_{\theta'}}\left[\frac{\nabla \pi_{\theta}(a_t|s_t)}{\pi_{\theta'}(a_t|s_t)}R^{\theta'}(s_t,a_t)\right ] \end{split}$
其中 $R^{\theta'}(s_t,a_t)=\sum_{i=t}^{T} \gamma^{i-t} r_{s_i,a_i\sim \pi_\theta}$ ，此时优化函数变为：
$\begin{split} J(\theta)&= \mathbb{E} _{(s_t,a_t) \sim \pi_{\theta'}}\left[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta'}(a_t|s_t)}R^{\theta'}(s_t,a_t)\right ] \end{split}$
注意重要性采样使用的条件是两个分布的差异不能太大，因此TRPO算法通过添加约束使得 $\pi_{\theta}$ 接近 $\pi_{\theta'}$ 。即：
$\begin{split} &J(\theta)= \mathbb{E} _{(s_t,a_t) \sim \pi_{\theta'}}\left[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta'}(a_t|s_t)}R^{\theta'}(s_t,a_t)\right ]\\ & s.t.\quad KL(\pi_{\theta}|\pi_{\theta'})< \delta \end{split}$
意思是设置一个信赖域，使得网络参数的更新不要超出这个范围。相应的PPO算法则是添加一个类似正则项的东西，即：
$J_{ppo}(\theta)= J(\theta)-\beta KL(\pi_{\theta}|\pi_{\theta'})$

角度二：数值优化

策略梯度收敛快但不稳定，且对超参数敏感，但TRPO收敛稳定且对超参数不那么敏感。假设目标是最大化 $J(\theta)$ ，可以使用梯度上升的方式求解，但有些情况下无法得到梯度，例如当目标函数为
$J(\theta)=\mathbb{E} _S\left[V(S;\theta)\right]$
需要通过定积分才能求出期望，从而求出梯度，但定积分不一定存在解析解，因此一般采用随机梯度上升的方式求解。随机梯度上升从S中采样一个样本s，计算其梯度 $g=\frac{\partial V(s;\theta )}{\partial \theta }$ ，然后更新梯度。

置信域优化

定义
$\mathcal{N} (\theta' ) = \left \{ \theta' \mid \left \| \theta' - \theta \right \| \le \delta \right \}$
为参数 $\theta$ 的一个领域，我们定义已知的可微分近似函数 $L(\theta'|\theta)$ ，使得在这个领域内， $L(\theta'|\theta)$ 与 $J(\theta')$ 足够接近，于是在置信域内最大化 $J(\theta')$ 问题转换为最大化 $L(\theta'|\theta)$ 。通常置信域优化分为两个关键步：

置信域内近似： $L(\theta|\theta_{old})\approx J(\theta)$
置信域内最大化近似函数： $\theta_{new}=\underset{\theta\in \mathcal{N}(\theta )}{\argmax} L(\theta|\theta_{old})$

第一步近似可以使用蒙特卡洛近似或者泰勒展开等近似方法，第二部是一个带约束优化问题，求解起来比较复杂。因此置信域算法通过不断重复两个步骤（第二笔求解最优化问题是也需要重复多次），便可以得到 $J(\theta)$ 的局部最优解。

在强化学习中，有
$\begin{split} V_{\pi}(s)&=\mathbb{E}_{A\sim \pi(\cdot|s;\theta)}\left[Q_{\pi}(s,A)\right]\\ &=\sum_a \pi(a|s;\theta)Q_{\pi}(s,a)\\ &=\sum_a \pi(a|s;\theta_{old}) \frac{\pi(a|s;\theta)}{\pi(a|s;\theta_{old})}Q_{\pi}(s,a) \\ &=\mathbb{E}_{A\sim \pi(\cdot|s;\theta_{old})}\left[ \frac{\pi(a|s;\theta)}{\pi(a|s;\theta_{old})}Q_{\pi}(s,a) \right]\\ J(\theta)&=\mathbb{E}_{s}[V_{\pi}(s)]\\ &=\mathbb{E}_{s}\left[\mathbb{E}_{A\sim \pi(\cdot|s;\theta_{old})}\left[ \frac{\pi(a|s;\theta)}{\pi(a|s;\theta_{old})}Q_{\pi}(s,a) \right] \right] \end{split}$

蒙特卡洛近似

我们对目标函数 $J(\theta)$ 做蒙特卡洛近似，假设采样得到一条轨迹
$\tau = \{s_1,a_1,s_2,a_2,...s_T,a_T\}$
则有近似函数
$L(\theta|\theta_{old})=\frac{1}{N}\sum_{i=1}^{N}\left( \frac{\pi(a_i|s_i;\theta)}{\pi(a_i|s_i;\theta_{old})}Q_{\pi}(s_i,a_i) \right)$
由于 $Q_{\pi}(s_i,a_i)$ 无法计算，因此我们使用折扣回报作为动作价值函数的近似，即
$\begin{split} R_i&=\sum_{i=t}^{T} \gamma^{i-t} r_i\\ L(\theta|\theta_{old})&\approx \frac{1}{N}\sum_{i=1}^{N}\left( \frac{\pi(a_i|s_i;\theta)}{\pi(a_i|s_i;\theta_{old})}R_i \right) \end{split}$
此时做梯度上升
$\begin{split} &\theta_{new} =\underset{\theta}{\argmax} L(\theta|\theta_{old})\\ & s.t.\quad \theta\in \mathcal{N}(\theta ) \end{split}$
其中 $\mathcal{N}(\theta )$ 可以为：
$\begin{split} &KL(\pi_{\theta}|\pi_{\theta_{old}})\le \delta\\ 或者 &\left \| \theta- {\theta_{old}} \right \| \le \delta \end{split}$