深度强化学习（王树森）笔记09

深度强化学习（DRL）

本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。

参考链接

Deep Reinforcement Learning官方链接：https://github.com/wangshusen/DRL

源代码链接：https://github.com/DeepRLChinese/DeepRL-Chinese

B站视频：【王树森】深度强化学习(DRL)

豆瓣: 深度强化学习

文章目录

深度强化学习（DRL）
带基线的策略梯度方法
- 策略梯度中的基线
- - 基线 (Baseline)
  - 基线的直观解释
- 带基线的 REINFORCE 算法
- - 策略网络和价值网络
  - 算法的推导
  - 训练流程
- Advantage Actor-Critic (A2C)
- - 算法推导
  - 训练流程
  - 用目标网络改进训练
- 总结
后记

带baseline的策略梯度方法：REINFORCE with baseline和advantage actor-critic (A2C)

带基线的策略梯度方法

上一章推导出策略梯度，并介绍了两种策略梯度方法——REINFORCE 和 actor-critic。
虽然上一章的方法在理论上是正确的，但是在实践中效果并不理想。本章介绍的带基线的策略梯度 (policy gradient with baseline) 可以大幅提升策略梯度方法的表现。使用基线(baseline) 之后，REINFORCE 变成 REINFORCE with baseline, actor-critic 变成 advantage actor-critic (A2C)。

策略梯度中的基线

首先回顾上一章的内容。策略学习通过最大化目标函数 $J(\theta)=\mathbb{E}_S[V_\pi(S)]$ , 训练出策略网络 $\pi(a|s;\theta)$ 。可以用策略梯度 $\nabla_{\theta}J(\theta)$ 来更新参数 $\theta$ :

$\theta_{\mathrm{new}}\:\leftarrow\:\theta_{\mathrm{now}}+\beta\cdot\nabla_{\theta}\:J(\boldsymbol{\theta_{now}}).$

策略梯度定理证明：

$\boxed{\quad\nabla_\theta J(\boldsymbol{\theta})~=~\mathbb{E}_S\biggl[\mathbb{E}_{A\sim\pi(\cdot|S,\boldsymbol{\theta})}\biggl[\:Q_\pi(S,A)~\cdot~\nabla_\theta\:\ln\pi(A\mid S;\boldsymbol{\theta})\biggr]\biggr].} \quad{(8.1)}$
上一章中，我们对策略梯度 $\nabla_{\theta}J(\theta)$ 做近似，推导出 REINFORCE 和 actor-critic; 两种方法区别在于具体如何做近似。

基线 (Baseline)

基于策略梯度公式 (8.1) 得出的 REINFORCE 和 actor-critic 方法效果通常不好。只需对策略梯度公式 (8.1) 做一个微小的改动，就能大幅提升表现：把 $b$ 作为动作价值函数 $Q_{\pi}(S,A)$ 的基线 (baseline), 用 $Q_{\pi}(S,A)-b$ 替换掉 $Q_{\pi}$ 。设 $b$ 是任意的函数，只要不依赖于动作 $A$ 就可以，例如 $b$ 可以是状态价值函数 $V_\pi(S)$ 。

定理 8.1. 带基线的策略梯度定理

设 $b$ 是任意的函数，但是 $b$ 不能依赖于 $A$ 。把 $b$ 作为动作价值函数 $Q_\pi(S,A)$ 的基线，对策略梯度没有影响：
$\nabla_{\theta}\:J(\boldsymbol{\theta})\:=\:\mathbb{E}_{S}\bigg[\mathbb{E}_{A\sim\pi(\cdot|S;\boldsymbol{\theta})}\bigg[\bigg(\:Q_{\pi}(S,A)\:-\:{b}\bigg)\:\cdot\:\nabla_{\boldsymbol{\theta}}\:\ln\pi(A|S;\boldsymbol{\theta})\bigg]\bigg]\bigg.$

在这里插入图片描述

定理 8.1 说明 $b$ 的取值不影响策略梯度的正确性。不论是让 $b = 0$ 还是让 $b=V_\pi(S)$ , 对期望的结果毫无影响，期望的结果都会等于 $\nabla_{\theta}J(\theta)$ 。其原因在于
$\mathbb{E}_{S}\Big[\mathbb{E}_{A\sim\pi(\cdot|S;\boldsymbol{\theta})}\Big[b\:\cdot\:\nabla_{\boldsymbol{\theta}}\:\ln\pi\big(A|S;\:\boldsymbol{\theta}\big)\Big]\Big]\:=\:0.$

定理中的策略梯度表示成了期望的形式，我们对期望做蒙特卡洛近似。从环境中观测到一个状态 $s$ ,然后根据策略网络抽样得到 $a\sim\pi(\cdot|s;\boldsymbol{\theta})$ 。那么策略梯度 $\nabla_\theta J(\theta)$ 可以近似为下面的随机梯度：

$\boxed{\quad\boldsymbol{g}_b(s,a;\boldsymbol{\theta})=\left[Q_\pi(s,a)-b\right]\cdot\nabla_\theta\ln\pi(a|s;\boldsymbol{\theta}).}$

不论 $b$ 的取值是 0 还是 $V_\pi(s)$ , 得到的随机梯度 $g_b(s,a;\boldsymbol{\theta})$ 都是 $\nabla_{\boldsymbol{\theta}}J(\boldsymbol{\theta})$ 的无偏估计：

$\begin{array}{rcl}{\text{Bias}}&{=}&{\mathbb{E}_{S,A}\left[\boldsymbol{g}_{b}(S,A;\boldsymbol{\theta})\right]\:-\:\nabla_{\theta}J(\boldsymbol{\theta})\:=\:\mathbf{0}.}\\\end{array}$

虽然 $b$ 的取值对 $\mathbb{E}_{S,A}[\boldsymbol{g}_b(S,A;\boldsymbol{\theta})]$ 毫无影响，但是 $b$ 对随机梯度 $g_b(s,a;\theta)$ 是有影响的。用不同的 $b$ , 得到的方差

$\text{Var}\:=\:\mathbb{E}_{S,A}\left[\left\|g_{b}(S,A;\:\theta)\:-\:\nabla_{\theta}J(\boldsymbol{\theta})\right\|^{2}\right]$

会有所不同。如果 $b$ 很接近 $Q_\pi(s,a)$ 关于 $a$ 的均值，那么方差会比较小。因此， $b=V_\pi(s)$ 是很好的基线。

基线的直观解释

策略梯度公式 (8.1) 期望中的 $Q_\pi(S,A)\cdot\nabla_\theta\ln\pi(A|S;\boldsymbol{\theta})$ 的意义是什么呢？以图 8.1中的左图为例。

在这里插入图片描述

给定状态 $s_t$ , 动作空间是 $A= \{ 左，右，上\}$ , 动作价值函数给每个动作打分：
$Q_{\pi}(s_{t},\text{左})\:=\:80,\quad Q_{\pi}(s_{t},\text{右})\:=\:-20,\quad Q_{\pi}(s_{t},\text{上})\:=\:180,$

这些分值会乘到梯度 $\nabla_{\boldsymbol{\theta}}\ln\pi(A|S;\boldsymbol{\theta})$ 上。在做完梯度上升之后，新的策略会倾向于分值高的动作。

动作价值 $Q_\pi(s_t,上)=180$ 很大，说明基于状态 $s_t$ 选择动作“上”是很好的决策。让梯度 $\nabla_{\theta}\ln\pi(上|s_t;\theta)$ 乘以大的系数 $Q_{\pi}(s_{t}, 上)=180$ , 那么做梯度上升更新 $\theta$ 之后，会让 $\pi(上|s_t;\theta)$ 变大，在状态 $s_t$ 的情况下更倾向于动作“上”。
相反， $Q_\pi( s_t, 右) = - 20$ 说明基于状态 $s_t$ 选择动作“右”是糟糕的决策。让梯度 $\nabla_{\boldsymbol{\theta}}\ln \pi(右|s_t; \boldsymbol\theta)$ 乘以负的系数 $Q_\pi( s_t, 右) = - 20$ ,那么做梯度上升更新 $\theta$ 之后，会让 $\pi(右|s_t; \boldsymbol\theta)$ 变小，在状态 $s_t$ 的情况下选择动作“右”的概率更小。

根据上述分析，我们在乎的是动作价值 $Q_\pi( s_t, 左)$ 、 $Q_\pi( s_t, 右)$ 、 $Q_\pi(s_t,上)$ 三者的相对大小，而非绝对大小。如果给三者都减去 $b = 60$ ,那么三者的相对大小是不变的；动作“上”仍然是最好的，动作“右”仍然是最差的。见图 8.1 中的右图。因此

$\begin{bmatrix}Q_\pi(s_t,a_t)-b\end{bmatrix}\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(A\:|\:S;\:\boldsymbol{\theta})$

依然能指导 $\theta$ 做调整，使得 $\pi(上|s_t;\theta)$ 变大，而 $\pi(右|s_t;\theta)$ 变小。

带基线的 REINFORCE 算法

上一节推导出了带基线的策略梯度，并且对策略梯度做了蒙特卡洛近似。本节中，我们使用状态价值 $V_{\pi}(s)$ 作基线，得到策略梯度的一个无偏估计：

$\boxed{\boldsymbol{g}(s,a;\boldsymbol{\theta})=\left[Q_{\pi}(s,a)-V_{\pi}(s)\right]\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a|s;\boldsymbol{\theta}).}$

我们在深度强化学习（王树森）笔记03: 主要介绍policy network， policy gradient，REINFORCE 中学过 REINFORCE, 它使用实际观测的回报 $u$ 来代替动作价值 $Q_\pi(s,a)$ 。此处我们同样用 $u$ 代替 $Q_\pi(s,a)$ 。此外，我们还用一个神经网络 $v(s;\boldsymbol{w})$ 近似状态价值函数 $V_{\pi}(s)$ 。这样一来， $g(s,a;\theta)$ 就被近似成了：

$\boxed{\quad\tilde{\boldsymbol{g}}(s,a;\boldsymbol{\theta})=\left[u-v(s;\boldsymbol{w})\right]\cdot\nabla_\theta\ln\pi(a|s;\boldsymbol{\theta}).}$

可以用 $\tilde{g}(s,a;\boldsymbol{\theta})$ 作为策略梯度 $\nabla_{\theta}J(\theta)$ 的近似，更新策略网络参数：

$\theta\:\leftarrow\:\theta\:+\:\beta\cdot\tilde{\boldsymbol{g}}(s,a;\:\boldsymbol{\theta})$

策略网络和价值网络

带基线的 REINFORCE 需要两个神经网络：策略网络 $\pi(a|s;\theta)$ 和价值网络 $v(s;\boldsymbol{w})$ ;
神经网络结构如图 8.2 和 8.3 所示。策略网络与之前章节一样：输入是状态 $s$ , 输出是一个向量，每个元素表示一个动作的概率。

在这里插入图片描述

此处的价值网络 $v(s;\boldsymbol{w})$ 与之前使用的价值网络 $q(s,a;\boldsymbol{w})$ 区别较大。此处的 $v(s;\boldsymbol{w})$ 是对状态价值 $V_\mathrm{\pi}$ 的近似，而非对动作价值 $Q_\mathrm{\pi}$ 的近似。 $v(s;\boldsymbol{w})$ 的输入是状态 $s$ , 输出是一个实数，作为基线。策略网络和价值网络的输入都是状态 $s$ ,因此可以让两个神经网络共享卷积网络的参数，这是编程实现中常用的技巧。

虽然带基线的 REINFOKCE 有一个策略网络和一个价值网络，但是这种方法不是actor-critic。价值网络没有起到“评委”的作用，只是作为基线而已，目的在于降低方差，加速收敛。真正帮助策略网络(演员)改进参数 $\theta$ (演员的演技)的不是价值网络，而是实际观测到的回报 $u$ 。

算法的推导

训练策略网络的方法是近似的策略梯度上升。从 $t$ 时刻开始，智能体完成一局游戏，观测到全部奖励 $r_t,r_{t+1},\cdots,r_n$ ,然后计算回报 $u_t=\sum_{k=t}^n\gamma^{k-t}\cdot r_k$ 。让价值网络做出预测 $\widehat{v}_t=v(s_t;\boldsymbol{w})$ , 作为基线。这样就得到了带基线的策略梯度：
$\tilde{\boldsymbol{g}}\big(s_{t},a_{t};\:\boldsymbol{\theta}\big)\:=\:\big(\:u_{t}-\widehat{v}_{t}\big)\:\cdot\:\nabla_{\boldsymbol{\theta}}\:\ln\pi\big(a_{t}\big|\:s_{t};\:\boldsymbol{\theta}\big).$

它是策略梯度 $\nabla_{\theta}J(\theta)$ 的近似。最后做梯度上升更新 $\theta:$

$\theta\:\leftarrow\:\theta+\beta\cdot\tilde{\boldsymbol{g}}(s_{t},a_{t};\:\theta).$

这样可以让目标函数 $J(\boldsymbol{\theta})$ 逐渐增大。

训练价值网络的方法是回归 (regression)。回忆一下，状态价值是回报的期望：

$V_\pi(s_t)=\mathbb{E}[U_t|S_t=s_t],$

期望消掉了动作 $A_t,A_{t+1},\cdots,A_n$ 和状态 $S_{t+1},\cdots,S_n$ 。训练价值网络的目的是让 $v(s_t;\boldsymbol{w})$ 拟合 $V_\pi(s_t)$ ,即拟合 $u_t$ 的期望。定义损失函数：

$L(\boldsymbol{w})\:=\:\frac{1}{2n}\sum_{t=1}^{n}\big[v(s_{t};\boldsymbol{w})\:-\:u_{t}\big]^{2}.$

设 $\widehat{v}_t=v(s_t;w)$ 。损失函数的梯度是：

$\nabla_{\boldsymbol{w}}L(\boldsymbol{w})\:=\:\frac{1}{n}\sum_{t=1}^{n}\left(\widehat{v}_{t}-u_{t}\right)\:\cdot\:\nabla_{\boldsymbol{w}}v(s_{t};\boldsymbol{w}).$

做一次梯度下降更新 $w$ :

$w\:\leftarrow\:w\:-\:\alpha\cdot\nabla_{\boldsymbol{w}}L(\boldsymbol{w}).$

训练流程

当前策略网络的参数是 $\theta_\mathrm{now}$ ,价值网络的参数是 $w_\mathrm{now}$ 。执行下面的步骤，对参数做一轮更新。

用策略网络 $\theta_\mathrm{now}$ 控制智能体从头开始玩一局游戏，得到一条轨迹 (trajectory):

$s_{1},a_{1},r_{1},\quad s_{2},a_{2},r_{2},\quad\cdots,\quad s_{n},a_{n},r_{n}.$

计算所有的回报：

$u_{t}\:=\:\sum_{k=t}^{n}\gamma^{k-t}\cdot r_{k},\quad\forall\:t=1,\cdots,n.$

让价值网络做预测：
$\widehat v_{t}\:=\:v(s_{t};\boldsymbol{w_{\mathrm{now}}}),\quad\forall\:t=1,\cdots,n.$
计算误差 $\delta_t=\widehat{v_t}-u_t,\:\forall t=1,\cdots,n$ 。
用 ${s_t\}_{t=1}^n$ 作为价值网络输入，做反向传播计算：
$\nabla_{\boldsymbol{w}}\:v\big(s_{t};\:\boldsymbol{w}_{\mathrm{now}}\big),\quad\forall\:t=1,\cdots,n.$
更新价值网络参数：
$w_{\mathrm{new}}\:\leftarrow\:w_{\mathrm{now}}\:-\:\alpha\cdot\sum_{t=1}^{n}\delta_{t}\cdot\nabla_{\boldsymbol{w}}\:v\big(s_{t};\:\boldsymbol{w_{\mathrm{now}}}\big).$
用 ${(s_t,a_t)\}_{t=1}^n$ 作为数据，做反向传播计算：

$\nabla_{\boldsymbol{\theta}}\ln\pi(a_{t}\:|\:s_{t};\:\boldsymbol{\theta}_{\mathrm{now}}),\quad\forall\:t=1,\cdots,n.$
8. 做随机梯度上升更新策略网络参数：

$\theta_{\mathrm{new}}\:\leftarrow\:\theta_{\mathrm{now}}\:-\:\beta\:\cdot\:\sum_{t=1}^{n}\gamma^{t-1}\:\cdot\:\underbrace{\delta_{t}\:\cdot\:\nabla_{\theta}\ln\pi(a_{t}\:\big|\:s_{t};\:\theta_{\mathrm{now}}\big)}_{\text{负的近似梯度 }-\tilde{g}(s_{t},a_{t};\boldsymbol{\theta_{\mathrm{now}}})}\:.$

Advantage Actor-Critic (A2C)

之前我们推导出了带基线的策略梯度，并且对策略梯度做了蒙特卡洛近似，得到策略梯度的一个无偏估计：

$\boldsymbol{g}(s,a;\boldsymbol{\theta})=\left[\underbrace{Q_{\pi}(s,a)-V_{\pi}(s)}_{\text{优势函数}}\right]\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a|s;\boldsymbol{\theta}).\quad{(8.2)}$

公式中的 $Q_\pi-V_\pi$ 被称作优势函数 (advantage function)。因此，基于上面公式得到的actor-critic 方法被称为 advantage actor-critic, 缩写 A2C。

A2C 属于 actor-critic 方法。有一个策略网络 $\pi(a|s;\theta)$ ,相当于演员，用于控制智能体运动。还有一个价值网络 $v (s; w)$ ,相当于评委，他的评分可以帮助策略网络 (演员) 改进技术。两个神经网络的结构与上一节中的完全相同，但是本节和上一节用不同的方法训练两个神经网络。

算法推导

训练价值网络：训练价值网络 $v (s; w)$ 的算法是从贝尔曼公式来的：
$V_{\pi}(s_{t})\:=\:\mathbb{E}_{A_{t}\sim\pi(\cdot|s_{t};\theta)}\Big[\mathbb{E}_{S_{t+1}\sim p(\cdot|s_{t},A_{t})}\Big[R_{t}\:+\:\gamma\cdot V_{\pi}\big(S_{t+1}\big)\Big]\Big].$

我们对贝尔曼方程左右两边做近似：

方程左边的 $V_\pi(s_t)$ 可以近似成 $v(s_t;\boldsymbol{w})$ 。 $v(s_t;\boldsymbol{w})$ 是价值网络在 $t$ 时刻对 $V_\pi(s_t)$ 做出的估计。
方程右边的期望是关于当前时刻动作 $A_t$ 与下一时刻状态 $S_{t+1}$ 求的。给定当前状态 $s_t$ ,智能体执行动作 $a_t$ ,环境会给出奖励 $r_t$ 和新的状态 $s_{t+1}$ 。用观测到的 $r_t$ 、 $s_{t+1}$ 对期望做蒙特卡洛近似，得到：

$r_{t}+\gamma\cdot V_{\pi}(s_{t+1}). \quad(8.3)$

进一步把公式 (8.3) 中的 $V_{\pi}(s_{t+1})$ 近似成 $v(s_{t+1};\boldsymbol{w})$ , 得到

$\boxed{\widehat{y}_{t}\triangleq r_{t}+\gamma\cdot v(s_{t+1};\boldsymbol{w}).}$

把它称作 TD 目标。它是价值网络在 $t + 1$ 时刻对 $V_{\pi}(s_t)$ 做出的估计。

$v(s_t;\boldsymbol{w})$ 和 $\widehat{y}_t$ 都是对动作价值 $V_{\pi}(s_t)$ 的估计。由于 $\widehat{y}_t$ 部分基于真实观测到的奖励 $r_t$ ,我们认为 $\widehat{y}_t$ 比 $v(s_t;w)$ 更可靠。所以把 $\widehat{y}_t$ 固定住，更新 $w$ , 使得 $v(s_t;\boldsymbol{w})$ 更接近 $\widehat{y}_t$ 。

具体这样更新价值网络参数 $w$ 。定义损失函数

$L(\boldsymbol{w})\:\triangleq\:\frac{1}{2}\Big[v(s_{t};\boldsymbol{w})\:-\:\widehat{y}_{t}\Big]^{2}.$

设 $\widehat{v}_t\triangleq v(s_t;w)$ 。损失函数的梯度是：

$\nabla_{\boldsymbol{w}}L\big(\boldsymbol{w}\big)\:=\:\underbrace{\left(\widehat{v}_{t}-\widehat{y}_{t}\right)}_{\mathrm{TD~}\text{误差 }\delta_{t}}\cdot\nabla_{\boldsymbol{w}}\:v\big(s_{t};\boldsymbol{w}\big).$
定义 TD 误差为 $\delta_t\triangleq\widehat{v}_t-\widehat{y}_t$ 。做一轮梯度下降更新 $w :$

$\boxed{\boldsymbol{w}\:\leftarrow\:\boldsymbol{w}\:-\:\alpha\cdot\delta_{t}\:\cdot\:\nabla_{\boldsymbol{w}}\:v(s_{t};\boldsymbol{w}).}$

这样可以让价值网络的预测 $v(s_t;\boldsymbol{w})$ 更接近 $\widehat{y}_t$ 。

训练策略网络：A2C 从公式 (8.2)出发，对 $g(s,a;\theta)$ 做近似，记作 $\tilde{g}$ , 然后用 $\tilde{g}$ 更新策略网络参数 $\theta$ 。下面我们做数学推导。回忆一下贝尔曼公式：
$Q_{\pi}\big(s_{t},a_{t}\big)\:=\:\mathbb{E}_{S_{t+1}\sim p(\cdot|s_{t},a_{t}\big)}\Big[\:R_{t}\:+\:\gamma\cdot V_{\pi}\big(S_{t+1}\big)\:\Big].$
把近似策略梯度 $g(s_t,u_t;\boldsymbol{\theta})$ 中的 $Q_\pi(s_t,a_t)$ 替换成上面的期望，得到：

$\begin{aligned} \boldsymbol{g}(s_{t},a_{t};\boldsymbol{\theta})& =\left[Q_{\pi}\left(s_{t},a_{t}\right)-V_{\pi}\big(s_{t}\big)\right]\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a_{t}|s_{t};\boldsymbol{\theta}) \\ &\begin{array}{rcl}{=}&{{}\left[\mathbb{E}_{S_{t+1}}\right[R_{t}+\gamma\cdot V_{\pi}\big(S_{t+1}\big)]-V_{\pi}\big(s_{t}\big)]\cdot\nabla_{\theta}\ln\pi\big(a_{t}\big|s_{t};\theta\big).}\end{array} \end{aligned}$

当智能体执行动作 $a_t$ 之后，环境给出新的状态 $s_{t+1}$ 和奖励 $r_t$ ; 利用 $s_{t+1}$ 和 $r_t$ 对上面的期望做蒙特卡洛近似，得到：
$\begin{array}{rcl}g(s_t,a_t;\:\theta)&\approx&\Big[\:r_t\:+\:\gamma\cdot V_\pi\big(s_{t+1}\big)\:-\:V_\pi\big(s_t\big)\:\Big]\:\cdot\:\nabla_\theta\:\ln\pi\big(a_t\:\big|\:s_t;\:\theta\big).\end{array}$

进一步把状态价值函数 $V_{\pi}(s)$ 替换成价值网络 $v (s; w)$ , 得到：

$\begin{array}{rcl}\tilde{\boldsymbol{g}}(s_t,a_t;\boldsymbol{\theta})&\triangleq&\Big[\underbrace{r_t\:+\:\gamma\cdot v(s_{t+1};\boldsymbol{w})}_{\text{TD 目标 }\widehat{y}_t}-v(s_t;\boldsymbol{w})\:\Big]\:\cdot\:\nabla_{\boldsymbol{\theta}}\ln\pi(a_t\:|\:s_t;\boldsymbol{\theta}).\end{array}$
前面定义了 TD 目标和 TD 误差：

$\widehat{y}_{t}\:\triangleq\:r_{t}\:+\:\gamma\cdot v(s_{t+1};\:\boldsymbol{w})\quad\text{和}\quad\delta_{t}\:\triangleq\:v(s_{t};\:\boldsymbol{w})\:-\:\widehat{y}_{t}.$
因此，可以把 $\tilde{g}$ 写成：

$\boxed{\tilde{\boldsymbol{g}}(s_t,a_t;\boldsymbol{\theta})\triangleq-\delta_t\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a_t|s_t;\boldsymbol{\theta}).}$

$\tilde{g}$ 是 $g$ 的近似，所以也是策略梯度 $\nabla_{\theta}J(\theta)$ 的近似。用 $\tilde{g}$ 更新策略网络参数 $\theta$ :
$\theta\:\leftarrow\:\theta\:+\:\beta\cdot\tilde{\boldsymbol{g}}\left(s_t,a_t;\:\boldsymbol{\theta}\right).$

这样可以让目标函数 $J(\theta)$ 变大。

策略网络与价值网络的关系 : A2C 中策略网络 (演员) 和价值网络 (评委) 的关系如图 8.4 所示。

在这里插入图片描述

智能体由策略网络 π 控制，与环境交互，并收集状态、动作、奖励。策略网络(演员) 基于状态 $s_t$ 做出动作 $a_t$ 。价值网络 (评委) 基于 $s_t$ 、 $s_{t+1}$ 、 $r_t$ 算出 TD 误差 $\delta_t$ 。策略网络(演员) 依靠 $\delta_t$ 来判断自己动作的好坏，从而改进自己的演技 (即参数 $\theta$ )。

读者可能会有疑问: 价值网络 $v$ 只知道两个状态 $s_t$ 、 $s_{t+1}$ ,而并不知道动作 $a_t$ ,那么价值网络为什么能评价 $a_t$ 的好坏呢？价值网络 $v$ 告诉策略网络 $\pi$ 的唯一信息是 $\delta_{t}$ 。回顾一下 $\delta_t$ 的定义：
$\begin{array}{rcl}-\delta_t&=&\underbrace{r_t\:+\:\gamma\cdot v(s_{t+1};\:\boldsymbol{w})}_{\text{TD 目标}\:\widehat{y}_t}\:-\:\underbrace{v(s_t;\:\boldsymbol{w})}_\text{基线}.\end{array}$

基线 $v(s_t;\boldsymbol{w})$ 是价值网络在 $t$ 时刻对 $\mathbb{E}[U_t]$ 的估计；此时智能体尚未执行动作 $a_t$ 。而 TD 目标 $\widehat{y}_t$ 是价值网络在 $t + 1$ 时刻对 $\mathbb{E}[U_t]$ 的估计；此时智能体已经执行动作 $a_t$ 。

如果 $\widehat{y}_t>v(s_t;\boldsymbol{w})$ ,说明动作 $a_t$ 很好，使得奖励 $r_t$ 超出预期，或者新的状态 $s_{t+1}$ 比预期好；这种情况下应该更新 $\theta$ ,使得 $\pi(a_t|s_t;\theta)$ 变大。
如果 $\widehat{y}_t<v(s_t;\boldsymbol{w})$ ,说明动作 $a_t$ 不好，导致奖励 $r_t$ 不及预期，或者新的状态 $s_{t+1}$ 比预期差；这种情况下应该更新 $\theta$ ,使得 $\pi(a_t|s_t;\theta)$ 减小。

综上所述， $\delta_t$ 中虽然不包含动作 $a_t$ ,但是 $\delta_t$ 可以间接反映出动作 $a_t$ 的好坏，可以帮助策略网络(演员) 改进演技。

训练流程

下面概括 A2C 训练流程。设当前策略网络参数是 $\theta_\mathrm{now}$ ,价值网络参数是 $w_\mathrm{now}$ 。执行下面的步骤，将参数更新成 $\theta_\mathrm{new}$ 和 $w_\mathrm{new}$ :

观测到当前状态 $s_t$ ,根据策略网络做决策 $:a_t\sim\pi(\cdot|s_t;\theta_\mathrm{now})$ ,并让智能体执行动作 $a_t$ 。
从环境中观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
让价值网络打分：

$\widehat{v_{t}}\:=\:v\big(s_{t};\:\boldsymbol{w_{\mathrm{now}}}\big)\quad\text{和}\quad\widehat{v}_{t+1}\:=\:v\big(s_{t+1};\:\boldsymbol{w_{\mathrm{now}}}\big)$

计算 TD 目标和 TD 误差：

$\widehat{y_{t}}\:=\:r_{t}+\gamma\cdot\widehat{v}_{t+1}\quad\text{和}\quad\delta_{t}\:=\:\widehat{v}_{t}-\widehat{y}_{t}.$

更新价值网络：

$w_{\mathrm{new}}\:\leftarrow\:w_{\mathrm{now}}\:-\:\alpha\cdot\delta_{t}\cdot\nabla_{\boldsymbol{w}}v\left(s_{t};\:\boldsymbol{w_{\mathrm{now}}}\right).$

更新策略网络：

$\theta_{\mathrm{new}}\:\leftarrow\:\theta_{\mathrm{now}}\:-\:\beta\cdot\delta_{t}\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a_{t}\:|\:s_{t};\:\boldsymbol{\theta}_{\mathrm{now}}).$

注此处训练策略网络和价值网络的方法属于同策略(on-policy),要求行为策略(behavion policy)与目标策略 (target policy) 相同，都是最新的策略网络 $\pi(a|s;\theta_\mathrm{now})$ 。不能使用经验回放，因为经验回放数组中的数据是用旧的策略网络 $\pi(a|s;\theta_\mathrm{old})$ 获取的，不能在当前重复利用。

用目标网络改进训练

上述训练价值网络的算法存在自举——即用价值网络自己的估值 $\widehat{v}_{t+1}$ 去更新价值网络自己。为了缓解自举造成的偏差，可以使用目标网络(target network) 计算 TD 目标。把目标网络记作 $v(s;w^-)$ , 它的结构与价值网络的结构相同，但是参数不同。使用目标网络计算 TD 目标，那么 A2C 的训练就变成了：

观测到当前状态 $s_t$ ,根据策略网络做决策 $:a_t\sim\pi(\cdot|s_t;\theta_\mathrm{now})$ , 并让智能体执行动作 $a_t$ 。
从环境中观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
让价值网络给 $s_t$ 打分：

$\widehat{v_{t}}\:=\:v\big(s_{t};\:\boldsymbol{w_{\mathrm{now}}}\big).$

让目标网络给 $s_{t+1}$ 打分：

$\widehat v_{t+1}^{-}\:=\:v\big(s_{t+1};\:\boldsymbol{w_{\mathrm{now}}^{-}}\big).$

计算 TD 目标和 TD 误差：

$\widehat{y}_{t}^{-}\:=\:r_{t}+\gamma\cdot\widehat{v}_{t+1}^{-}\quad\text{和}\quad\delta_{t}\:=\:\widehat{v}_{t}-\widehat{y}_{t}^{-}.$

更新价值网络：

$w_{\mathrm{new}}\:\leftarrow\:w_{\mathrm{now}}-\alpha\cdot\delta_{t}\cdot\nabla_{\boldsymbol{w}}v\big(s_{t};\:\boldsymbol{w}_{\mathrm{now}}\big).$

更新策略网络：

$\theta_{\mathrm{new}}\:\leftarrow\:\theta_{\mathrm{now}}\:-\:\beta\cdot\delta_{t}\cdot\nabla_{\boldsymbol{\theta}}\ln\pi(a_{t}\:|\:s_{t};\:\boldsymbol{\theta}_{\mathrm{now}}).$

设 $\tau\in(0,1)$ 是需要手动调的超参数。做加权平均更新目标网络的参数：

$\bar{w_{\mathrm{new}}}\:\leftarrow\:\tau\cdot w_{\mathrm{new}}\:+\:\left(1-\tau\right)\cdot\boldsymbol{w_{\mathrm{now}}^{-}}.$

总结

在策略梯度中加入基线 (baseline) 可以降低方差，显著提升实验效果。实践中常用 $b=V_{\pi}(s)$ 作为基线。
可以用基线来改进 REINFORCE 算法。价值网络 $v(s;\boldsymbol{w})$ 近似状态价值函数 $V_\pi(s)$ ,把 $v(s;\boldsymbol{w})$ 作为基线。用策略梯度上升来更新策略网络 $\pi(a|s;\theta)$ 。用蒙特卡洛(而非自举) 来更新价值网络 $v(s;\boldsymbol{w})$ 。
可以用基线来改进 actor-critic, 得到的方法叫做 advantage actor-critic(A2C),它也有一个策略网络 $\pi(a|s;\boldsymbol{\theta})$ 和一个价值网络 $v(s;\boldsymbol{\theta})$ 。用策略梯度上升来更新策略网络，用 TD 算法来更新价值网络。