值迭代和策略迭代【强化学习】

强化学习笔记

主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程，个人觉得赵老师的课件深入浅出，很适合入门.

第一章强化学习基本概念
第二章贝尔曼方程
第三章贝尔曼最优方程
第四章值迭代和策略迭代

文章目录

强化学习笔记
一、Value Iteration
- 1 原理
- 2 实例
二、Policy Iteration
- 1 原理
- 2 实例
- 参考资料

一、Value Iteration

1 原理

上一章讲贝尔曼最优方程(BOE)时，介绍了如何求解贝尔曼最优方程，将压缩映射原理应用到BOE上，我们得到了一个求解BOE的迭代算法，而那个迭代算法就是Value Iteration.回顾一下迭代算法的格式：
$v_{k+1}=f(v_k)=\max_{\pi}(r_\pi+\gamma P_\pi v_k),\quad k=1,2,3\ldots$ 这个迭代可以分解为两个步骤：

步骤1：策略更新
这一步就是根据 $v_k$ ，更新策略
$\begin{aligned}\pi_{k+1}=\arg\max_{\pi}(r_{\pi}+\gamma P_{\pi}v_{k})\end{aligned}$
步骤2：状态值更新
$\begin{aligned}v_{k+1}&=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_k\end{aligned}$

上面都是用向量的形式写的，我们来具体看一下每个状态 $s$ 每一步是怎么做的：

截屏2024-03-20 14.13.00

截屏2024-03-20 14.13.59

2 实例

仍然来看agent-网格例子，下图的 $a_1，a_2，a_3,a_4,a_5$ 分别代表向上、向右、向下、向左、原地不动.

截屏2024-03-20 14.16.48

给定一个初始值 $v_0(s)$ ，可以计算出 $q_0(s,a)$ ，每个状态下选择最大的 $q$ 值对应的动作作为策略.

截屏2024-03-20 14.19.34

第一次迭代我们发现 $s_1$ 的策略不是最优的，继续迭代，我们发现通过两次迭代就能得到最优策略，当然算法停止还得根据停机准则来.

截屏2024-03-20 14.21.53

二、Policy Iteration

1 原理

相较于值迭代算法，策略迭代算法是给定一个初始策略而不是给定一个初始的 $v$ 。下面首先介绍一下Policy Iteration算法框架:

首先给定随机初始策略 $\pi_0$ .
第一步：策略评估(PE)
这一步是计算 $\pi_k$ 的状态值 $v_{\pi_k}$ 是:
$\begin{aligned}v_{\pi_k}&=r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}\end{aligned}$
第二步：策略改进(Pl)
基于上一步算出的 $v_{\pi_k}$ ，更新策略：
$\pi_{k+1}=\arg\max_{\pi}(r_{\pi}+\gamma P_{\pi}v_{\pi_k})$

下面我们具体来看一下每一步是怎么做的，首先来看PE，我们发现给定了策略，我们要求的是 $v_{\pi_k}$ ，这不就是解贝尔曼方程吗！前面介绍过解贝尔曼方程的两种方法，所以这里我们同样可以用迭代法来求解得到一个 $v_{\pi_k}$ 的近似值.

截屏2024-03-20 15.46.15

再来看PI，得到 $v_{\pi_k}$ 之后我们需要更新策略，这里就和Value Iteration一样了，可以采用greedy policy的方式更新策略，根据 $v_{\pi_k}$ 计算 $q (s, a)$ ，选择每个状态最大的 $q$ 对应的动作即可。

截屏2024-03-20 15.48.37

值得注意的是在第二步策略更新中，我们更新的策略一定比原策略好吗？可以证明确实是这样的，详见参考资料对应的章节，只要通过这样的迭代一定会收敛到最优策略。

2 实例

仍然来看agent-网格例子，（a）中是给定的初始策略。

截屏2024-03-20 15.59.21

第一步就是解贝尔曼方程，下面给了两种方法，算法中常用的是迭代法.

截屏2024-03-20 16.00.15

第二步是策略改进，和Value Iteration一样的做法.

截屏2024-03-20 16.00.55

参考资料

Zhao, S… Mathematical Foundations of Reinforcement Learning. Springer Nature Press and Tsinghua University Press.
Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.