【强化学习】PPO:近端策略优化算法

近端策略优化算法
《Proximal Policy Optimization Algorithms》

论文地址:https://arxiv.org/pdf/1707.06347.pdf

相关博客
【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架
强化学习】PPO:近端策略优化算法

一、 置信域方法(Trust Region Methods)

​ 设 π θ o l d \pi_{\theta_{old}} πθold是先前参数为 θ o l d \theta_{old} θold的策略网络, π θ \pi_{\theta} πθ则是当前待优化的策略网络,则TRPO的优化目标是:
maximize θ E ^ t [ π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) A ^ t ] subject    to E ^ t [ KL [ π θ o l d ( ⋅ ∣ s t ) , π θ ( ⋅ ∣ s t ) ] ] ≤ δ \begin{align} &\mathop{\text{maximize}}_{\theta}\quad\hat{\mathbb{E}}_t\Big[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t \Big] \\ &\mathop{\text{subject}\;\text{to}}\quad\hat{\mathbb{E}}_t[\text{KL}[\pi_{\theta_{old}}(\cdot|s_t),\pi_{\theta}(\cdot|s_t)]]\leq\delta \end{align} maximizeθE^t[πθold(atst)πθ(atst)A^t]subjecttoE^t[KL[πθold(st),πθ(st)]]δ
其中, A ^ t \hat{A}_t A^t t t t时刻的优势函数估计值。 r t ( θ ) = π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) r_t(\theta)=\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} rt(θ)=πθold(atst)πθ(atst)是用来控制新旧策略的差异,若差异到则会增加更新幅度,反之则降低更新幅度。约束条件则是新旧策略函数的KL散度,该约束会控制新旧策略的差距不会太大。但是,求解这个带约束的优化问题实现复杂且计算量大。

​ 理论上证明TRPO在实践中,建议使用惩罚项而不是约束,即转换为无约束优化问题。
maximize θ E ^ t [ π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) A ^ t − β KL [ π θ o l d ( ⋅ ∣ s t ) , π θ ( ⋅ ∣ s t ) ] ] \mathop{\text{maximize}}_{\theta}\quad\hat{\mathbb{E}}_t\Big[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t-\beta\text{KL}[\pi_{\theta_{old}}(\cdot|s_t),\pi_{\theta}(\cdot|s_t)]\Big] maximizeθE^t[πθold(atst)πθ(atst)A^tβKL[πθold(st),πθ(st)]]
其中, β \beta β是超参数。TRPO使用硬约束而不是惩罚项,是因为很难选择单个 β \beta β在所有不同问题上均表现良好。实验也表明,简单选择固定的惩罚系数 β \beta β并用SGD优化惩罚目标是不够的,需要额外的修改。

二、Clipped Surrogate Objective

​ 由于 r t ( θ ) = π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) r_t(\theta)=\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} rt(θ)=πθold(atst)πθ(atst),显然 r t ( θ o l d ) = 1 r_t(\theta_{old})=1 rt(θold)=1。TRPO最大化”代理“目标函数:
L CPI ( θ ) = E ^ t [ π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) A ^ t ] = E ^ t [ r t ( θ ) A ^ t ] L^{\text{CPI}}(\theta)=\hat{\mathbb{E}}_t\Big[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t\Big]=\hat{\mathbb{E}}_t[r_t(\theta)\hat{A}_t] LCPI(θ)=E^t[πθold(atst)πθ(atst)A^t]=E^t[rt(θ)A^t]
在没有约束的情况下,最大化 L CPI L^{\text{CPI}} LCPI有可能会大幅度更新策略;因此,需要修改目标函数来惩罚 r t ( θ ) r_t(\theta) rt(θ)远离1。

​ 因此提出目标函数
L CLIP ( θ ) = E ^ t [ min ⁡ ( r t ( θ ) A ^ t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A ^ t ] L^{\text{CLIP}}(\theta)=\hat{\mathbb{E}}_t\Big[\min(r_t(\theta)\hat{A}_t,\text{clip}(r_t(\theta),1-\epsilon,1+\epsilon)\hat{A}_t\Big] LCLIP(θ)=E^t[min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t]
ϵ \epsilon ϵ截断超参数,通常设置为0.2。 clip() \text{clip()} clip()代表截断函数,负责将 r t r_t rt限制在 [ 1 − ϵ , 1 + ϵ ] [1-\epsilon,1+\epsilon] [1ϵ,1+ϵ],以保证收敛性。最后,使用无截断和截断目标函数的最小值,从而形成未截断目标函数的下界。

​ 优势函数A可以分为正负两种情况。若优势函数为正,当 r t > 1 + ϵ r_t>1+\epsilon rt>1+ϵ时,将不提供额外的奖励;若优势函数为负,当 r t < 1 − ϵ r_t<1-\epsilon rt<1ϵ时,同样不提供额外的奖励,这样就能限制新旧策略的差异。
在这里插入图片描述

三、自适应KL惩罚系数

​ 另一种代替或者补充clipped surrogate objective的方案是使用KL散度惩罚,并调整惩罚系数,每次策略更新时使得KL散度 d targ d_{\text{targ}} dtarg达到某个目标值。在作者的实验中,KL惩罚的表现要差于clipped surrogate objective,但其可以作为重要的baseline。

​ 在每次策略更新中执行下面的步骤:

  • 利用若干个minibatch SGD的epochs,优化KL惩罚目标
    L KLPEN ( θ ) = E ^ t [ π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) A ^ t − β KL [ π θ o l d ( ⋅ ∣ s t ) , π θ ( ⋅ ∣ s t ) ] ] L^{\text{KLPEN}}(\theta)=\hat{\mathbb{E}}_t\Big[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t-\beta\text{KL}[\pi_{\theta_{old}}(\cdot|s_t),\pi_{\theta}(\cdot|s_t)]\Big] LKLPEN(θ)=E^t[πθold(atst)πθ(atst)A^tβKL[πθold(st),πθ(st)]]

  • 计算 d = E ^ t [ KL [ π θ o l d ( ⋅ ∣ s t ) , π θ ( ⋅ ∣ s t ) ] ] d=\hat{\mathbb{E}}_t[\text{KL}[\pi_{\theta_{old}}(\cdot|s_t),\pi_{\theta}(\cdot|s_t)]] d=E^t[KL[πθold(st),πθ(st)]]

    d < d targ / 1.5 , β ← β / 2 d<d_{\text{targ}}/1.5,\beta\leftarrow\beta/2 d<dtarg/1.5,ββ/2

    d > d targ × 1.5 , β ← β × 2 d>d_{\text{targ}}\times1.5,\beta\leftarrow\beta\times 2 d>dtarg×1.5,ββ×2

​ 更新后的 β \beta β用于下一次的策略更新。

四、完整算法

在这里插入图片描述

​ 前面推导的surrogate损失函数能够在典型的策略梯度上简单改动即可实现。大多数的优势函数都使用一个可学习的状态价值函数 V ( s ) V(s) V(s)。若策略网络和价值网络共享神经网络架构,那么需要使用一个结合了策略函数和值函数误差项的损失函数。目标函数可以进一步添加熵正则来确保充分的探索。合并这些项,就能够获得下面的目标函数:
L CLIP+VF+S ( θ ) = E ^ t [ L t CLIP ( θ ) − c 1 L t VF ( θ ) + c 2 S [ π θ ] ( s t ) ] L^{\text{CLIP+VF+S}}(\theta)=\hat{\mathbb{E}}_t[L_t^{\text{CLIP}}(\theta)-c_1L_t^{\text{VF}}(\theta)+c_2S[\pi_{\theta}](s_t)] LCLIP+VF+S(θ)=E^t[LtCLIP(θ)c1LtVF(θ)+c2S[πθ](st)]
其中, c 1 c_1 c1 c 2 c_2 c2是控制各个项比例的超参数, S S S是熵正则项, L t SF L^{\text{SF}}_t LtSF是均方误差损失 ( V θ ( s t ) − V t targ ) 2 (V_{\theta}(s_t)-V_t^{\text{targ}})^2 (Vθ(st)Vttarg)2


http://www.niftyadmin.cn/n/5293256.html

相关文章

数组排序方法——sort()

目录 1.数组里面的字符串排序 1.降序 2.升序 1.数组里面的对象排序 1.降序 2.升序 1.数组里面的字符串排序 1.降序 let arr [1,2,3,4,5] arr.sort((a, b) > {return b - a })// 会改变原数组 [5,4,3,2,1] 2.升序 let arr [5, 4, 3, 2, 1] arr.sort((a, b) &…

git回退2个错误的分支

如果需要回退错误的代码提交&#xff0c;可以通过几种不同的 Git 命令来实现&#xff0c;具体取决于您想要的结果。以下是两种常见的方法&#xff1a; 方法 1: 使用 git revert 使用 git revert 命令可以撤销指定提交的更改&#xff0c;并创建一个新的提交来记录这个撤销操作…

常用环境部署(十)——MySQL主从同步数据搭建(一主一从)

一、主从服务器MySQL安装 1、注意事项 主从服务器数据库尽量安装同一版本&#xff0c;避免兼容性造成的一些错误产生 2、Centos安装MySQL 链接&#xff1a;centos7离线安装MySQL-CSDN博客 二、主库MySQL配置 1、修改主库配置 &#xff08;1&#xff09;编辑数据库配置文…

基于EMD的滚动轴承故障诊断算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1EMD的基本原理 固有模态函数&#xff08;IMF&#xff09; 筛分过程 4.2 基于EMD的滚动轴承故障诊断算法 信号预处理 EMD分解 特征提取 故障诊断 5.算法完整程序工程 1.算法运行效…

聚焦企业未来新发展,同花顺对话麒麟信安杨涛董事长

打好经济增长主动仗 聚焦企业未来新发展 同花顺“对话湖南上市公司高管系列活动” 本期走进麒麟信安 对话麒麟信安杨涛董事长 畅谈国产操作系统领军企业的创新发展之路 并就麒麟信安产品应用布局及 未来发展规划等方面进行深入交流 麒麟信安-成片1改20231218

CSS学习之-02

position&#xff1a;该属性指定了元素的定位类型 static&#xff1a;默认值&#xff0c;即没有定位&#xff0c;准寻正常的文档流对象&#xff0c;该定位不会受到top、bottom、left、right影响。 fixed&#xff1a;元素的位置相对于浏览器窗口是固定的&#xff0c;即使窗口滚…

Redis源码精读:哈希表

文章目录 前言代码位置哈希表核心代码rehash最后 前言 哈希表是Redis中非常重要的数据结构&#xff0c;这篇博客我们就一起来探索一下Redis中哈希表的奥秘&#x1f601; 代码位置 src/dict.h src/dict.c 哈希表 原理 哈希表用于键值对的存储和查找&#xff0c;通过哈希函…

Linux工具之make/Makefile

make/Makefile makefile实际上是一个自动化构建项目的工具&#xff0c;他是对大型项目的编译工作的集成化处理&#xff0c;他可以处理文件的编译顺序&#xff0c;是否编译&#xff0c;以及对于代码的更复杂的操作 make是一个命令工具&#xff0c;大多数的ide都有这个命令&…