Chapter 3 Finite Markov Decision

本章正式介绍有限马尔科夫决策过程(finite Markov decision processes, finite MDP)，它包括第二章介绍的评估性反馈和关联(associative)—在不同情景下选择不同的状态。

MDP是序贯决策问题的经典形式化表达，它的动作不仅影响到即时奖励，还会影响后续情景或状态以及其未来的奖励。所以MDP涉及到延迟奖励，并且需要权衡即时奖励和延迟奖励。

在赌博机问题中，对每个动作 $a$ 估计其价值 $q_*(a)$ ，在MDP中，我们估计每个动作 $a$ 在每一个状态 $s$ 下的价值 $q_*(s, a)$ ，或者估计给定最优动作选择下的每个状态的价值 $v_*(s)$ 。

3.1 The Agent-Environment Interface

MDP 是通过交互式学习来实现目标的理论框架。这个学习或者进行决策的机器被称为智能体agent，agent之外的所有与其交互的事情都被称为环境environment。agent选择动作，环境对动作做出回应并向agent呈现新的状态，这个交互过程持续的进行，环境也会给一个特定的数值类型的奖励，agent尝试通过其动作的选择实现的最大化的奖励。

在这里插入图片描述

设在每个离散时刻 $t=0,1,2,3,\cdots$ ，agent和环境都发生了交互，在每一个时刻 $t$ ， agent收到所在环境的状态的某种表征： $S_t \in \mathcal{S}$ ，并基于该状态选择一个动作： $A_t \in \mathcal{A}(s)$ 。下一个时刻，agent收到了一个数值奖励： $R_{t+1} \in \mathcal{R} \subset \mathbb{R}$ ，并发现自己处于环境中的新状态 $S_{t+1}$ 中， MDP和agent共同给出了类似如下的一个序列或轨迹：
$S_0, A_0, R_1, S_1,A_1,R_2,S_2,A_2,R_3,\cdots \qquad (3.1)$
在有限MDP中，状态、动作、奖励的集合（ $\mathcal{S}$ 、 $\mathcal{A}$ 、 $\mathcal{R}$ ）都只有有限个元素。当随机变量 $R_t$ 和 $S_t$ 都只依赖于前一个状态和动作的概率分布，也就是对于所有的 $s^{\prime},s \in \mathcal{S}, r\in \mathcal{R}, a \in \mathcal{A}(s)$ ，给定前一个状态和动作的值时，这些随机变量的特定值 $s^{\prime} \in \mathcal{S}$ 和 $\in \mathcal{R}$ 在 $t$ 时刻出现的概率是（公式中的原点表示这是一个定义）：
$p(s^{\prime},r \mid s, a)\ \dot{=}\ Pr\{S_t=s^{\prime}, R_t=r \mid S_{t-1}=s, A_{t-1}=a \} \qquad (3.2)$
这里 $S_t$ 和 $R_t$ 的每个可能的值的概率值仅取决于前一个状态 $S_{t-1}$ 和前一个动作 $A_{t-1}$ ，与更早之前的状态和动作完全无关的性质，就是马尔科夫性(Markov property)，马尔科夫性基本贯穿了本书或者强化学习大部分领域。

式3.2中的动态函数 $p:\mathcal{S} \times \mathcal{R} \times \mathcal{S} \times \mathcal{A} \rightarrow[0, 1]$ 是有四个参数的普通的确定性函数， |符号是表示条件概率的，在这也只是提醒我们，函数p为每个s和a的选择都指定了一个概率分布，即：
$\sum_{s^{\prime} \in \mathcal{S}} \sum_{r \in \mathcal{R}} p(s^{\prime}, r \mid s, a) = 1,\ for\ all\ s\in \mathcal{S}, a \in \mathcal{A}(s) \qquad (3.3)$
从四个参数的动态函数 $p$ 中，我们计算出关于环境的任何其他信息：

状态转移概率(state-transition probabilities)：将其表示为一个三个参数的函数 $p:\mathcal{S} \times \mathcal{S} \times \mathcal{A} \rightarrow[0, 1]$ :
$p(s^{\prime} \mid s, a)\ \dot{=}\ Pr\{S_t=s^{\prime} \mid S_{t-1}=s, A_{t-1}=a \} = \sum_{r \in \mathcal{R}} p(s^{\prime}, r \mid s, a) \qquad (3.4)$
"状态-动作"对的期望奖励：将其表示为一个两个参数的函数 $\mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}$ :

$a)\ \dot{=}\ \mathbb{E}[R_t \mid S_{t-1}=s, A_{t-1}=a \} = \sum_{r \in \mathcal{R}} r \sum_{s^{\prime} \in \mathcal{S}} p(s^{\prime}, r \mid s, a) \qquad (3.5)$

“状态-动作-下一个动作” 三元组的期望奖励：将其表示为一个三个参数的函数 $\mathcal{S} \times \mathcal{A} \times \mathcal{S} \rightarrow \mathbb{R}$ :
$s^{\prime})\ \dot{=}\ \mathbb{E}[R_t \mid S_{t-1}=s, A_{t-1}=a, S_t=s^{\prime}\} = \sum_{r \in \mathcal{R}} r \frac {p(s^{\prime}, r \mid s, a)}{p(s^{\prime} \mid s, a)} \qquad (3.6)$

3.2 Goals and Rewards

非正式的说，强化学习的目标是最大化它收到的总奖励，也就是说最大化的不仅仅是即时奖励，而是长期的累积奖励，将这个非正式想法可以表述成下述奖励假设（reward hypothesis):

That all of what we mean by goals and purposes can be well thought of as the maximization of the expected value of the cumulative sum of a received scalar signal (called reward).

因为agent总是学习最大化奖励，所以如果我们想让它为我们做某件事，我们设计的奖励必须使agent最大化奖励的同时实现我们的目标。很重要的一点是，我们设计的奖励的方式要能真正表明我们的目标，比如国际象棋agent只有当最终获胜时才能得到奖励，而不是达到某个子目标，比如吃掉对方的子或者控制中心区域。如果实现这些子目标也能得到收益，那么agent可能会以输掉比赛为代价来吃掉对方的子。所以要记住：奖励信号是你告诉agent你要实现的目标是什么，而不是你要它如何来实现它。

3.3 Returns and Episodes

一般来说，我们寻求的是最大化期望回报（expectied return)，记为 $G_t$ ，它被定义为奖励序列的特定函数，最简单的形式下，回报是奖励的和：

$G_t = {R_{t+1}} + R_{t+2} + R_{t+3}+ \cdots + R_T \qquad (3.7)$

上式中的 $T$ 是最终时刻，当agent与环境的交互被被自然的分成子序列，称为序列(episodes)，比如一局游戏，一次走迷宫的旅程等，每一个episode以一个特殊的被称为最终状态（terminal state)的状态结束，接着又以一个标准开始或起始状态分布中的某个状态开始。这类任务被称为回合任务（episodic tasks），将不包含最终状态的全部状态集记为 $\mathcal{S}$ ，将包含最终状态的全部状态集记为 $\mathcal{S}^+$ ，注意每个episode的 $T$ 可能是不一样。

而在许多场景下agent与环境的交互不会自然分成可辨识的episode，而是没有限制的一直交互下去，比如一个有很长生命周期的机器人，这类任务被称为连续任务（continuing tasks），这时上面3.7式中的最终时间步 $T=\infty$ ，而我们试图最大化的回报将会是无穷大。此时我们将引入折扣(discounting)这个概念，也就是选择动作 $A_t$ 将最大化期望折扣回报(discounted return)：
$G_t = R_{t+1} + \gamma{R_{t+2}} + \gamma^{2}R_{t+3} + \cdots = \sum_{k=0}^{\infty}\gamma^k R_{t+k+1} \qquad (3.8)$

上式中的 $\gamma$ 被称为折扣率(discount rate)，它 $\le \gamma \le 1$ , 决定了未来奖励在当下的价值：在未来k步收到的奖励相比于立马收到只值 $\gamma^{k-1}$ 。

回报的相邻时间步互相关联的性质对强化学习很重要:
$\begin{aligned} G_t & =R_{t+1} + \gamma{R_{t+2}} + \gamma^{2}R_{t+3} + \gamma^{3}R_{t+4} + \cdots \\ & =R_{t+1} + \gamma\left(R_{t+2}+\gamma R_{t+3} + \gamma^{2}R_{t+4} + \ldots \right) \\ & =R_{t+1} + \gamma G_{t+1} \qquad (3.9) \end{aligned}$
对于式3.8，如果奖励是不为0的常数，并且 $\gamma <1$ ，那么回报是有限的，比如当奖励始终为1时，回报为：
$G_t = \sum_{k=0}^{\infty}\gamma^{k} = \frac {1} {1-\gamma} \qquad (3.10)$

3.4 Unified Notation for Episodic and Continuing Tasks

在3.3 节提到了2类任务： episodic tasks 和 continuing tasks，将其统一表示成下式，包括 $T=\infty$ 或 $\gamma=1$ （但不是全部）的可能性。
$G_t\ \dot {=} \sum_{k=t+1}^{T} \gamma ^{k-t-1} R_k \qquad (3.11)$

3.5 Policies and Value Functions

价值函数（value function)：是状态（或状态-动作对）的函数，它是估计agent在给定状态下能有多大期望回报（how good）（或者在给定状态下的给定动作的期望回报）。

策略（policy）是从状态到每个可能动作的选择概率之间的映射。如果agent在时刻t使用策略 $\pi$ ，那么 $\pi(a \mid s)$ 就是当 $S_t=s$ 时 $A_t=a$ 的概率，它为每个 $\in \mathcal{S}$ 定义了一个在 $\in \mathcal{A}(s)$ 上的概率分布。

将策略 $\pi$ 下状态 $s$ 的价值函数（value function）记为 $v_{\pi}(s)$ ，我们将函数 $v_{\pi}$ 称为策略 $\pi$ 的状态价值函数（state-value function for policy $\pi$ ）。它是从状态 $s$ 开始，agent按照策略 $\pi$ 决策的期望回报。对于MDP，可以正式的将 $v_{\pi}$ 定义为：

$v_{\pi}(s)\ \dot{=} \ \mathbb{E}_{\pi}[G_t \mid S_t=s]\ = \ \mathbb{E}_{\pi} \left[\sum^{\infty}_{k=0} \gamma^k R_{t+k+1} \mid S_t=s \right],\ for\ all\ s\ \in \mathcal{S} \qquad (3.12)$

上式中的 $\mathcal{E}_{\pi}[.]$ 表示agent按照策略 $\pi$ 决策时对一个随机变量的期望，t可以是任意时刻。需要注意在终止状态的价值始终为0。

将策略 $\pi$ 下在状态 $s$ 时采取动作 $a$ 的价值记为 $q_{\pi}(s, a)$ ，我们函数 $q_{\pi}$ 称为策略 $\pi$ 的动作价值函数（action-value function for policy $\pi$ ）。它是从状态 $s$ 开始，agent按照策略 $\pi$ 决策，选择动作 $a$ 的期望回报:
$q_{\pi}(s, a)\ \dot{=} \ \mathbb{E}_{\pi}[G_t \mid S_t=s,A_t=a]\ = \ \mathbb{E}_{\pi} \left[\sum^{\infty}_{k=0} \gamma^k R_{t+k+1} \mid S_t=s, A_t=a \right] \qquad (3.13)$
价值函数也有与式3.9类似的递归关系，对于任何策略 $\pi$ 和任何状态 $s$ ， $s$ 的价值与其可能的后继状态的价值之间存在以下关系：
$\begin{aligned} V_{\pi}(s) & \dot{=}\mathbb{E}_{\pi}\left[G_t \mid S_t=s\right] \\ & =\mathbb{E}_{\pi}\left[R_{t+1}+\gamma G_{t+1} \mid S_t=s\right] \qquad (by(3.9)) \\ &= \sum _{a } \pi(a | s) \sum_{s^{\prime}} \sum_{r} p(s^{\prime}, r | s, a) \left[ r + \gamma \mathbb{E}_{\pi}[G_{t+1}|S_{t+1}=s^{\prime}] \right] \\ &= \sum _{a } \pi(a | s) \sum_{s^{\prime},r} p(s^{\prime}, r | s, a) \left[ r + \gamma v_{\pi}(s^{\prime}) \right] ,\ for \ all \ s\in \mathcal{S} \qquad (3.14) \end{aligned}$
式3.14被称作 $v_{\pi}$ 的贝尔曼方程(Bellman equation)，他表达状态价值和后继状态价值之间的关系
回溯图（backup diagrams），下图为 $v_{\pi}$ 的一个回溯图示意，图中的关系是回溯运算的基础。这里的回溯操作是将后继状态（或状态-动作对）的价值信息回传(back to) 当前时刻的状态（或状态-动作对）。图中的空心圆表示一个状态，而实心圆表示一个“状态-动作”对。从根节点的状态s出发，agent可以基于它的策略 $\pi$ ，采取动作集合中的任一动作（图中是3个动作）。对于每一个动作，环境会根据其动态特性函数p,以一个后继状态 $s^{\prime}$ 及其收益r作为响应。公式3.14对所有可能性根据其出现概率进行了加权平均，表明了起始状态的价值一定等于后继状态的（折扣）期望值加上对应的奖励期望值。

3.6 Optimal Policies and Optimal Value Functions

最优策略(optimal policy)：若对于所有的 $\in \mathcal{S}$ ， $\pi \ge \pi^{\prime}$ ，那么有 $v_{\pi}(s) \ge v_{\pi}^{\prime}(s)$ ，这个不劣于其他所有策略的策略就是最优策略。尽管最优策略可能不止一个，还是用 $\pi_{*}$ 来表示所有这些最优策略。它们共享相同的状态价值函数，称之为最优状态价值函数(optimal state-value function)，记作 $v_{*}$ ：
$v_{*}(s) \ \dot{=} \ max_{\pi} v_{\pi} (s) \qquad (3.15)$
最优的策略也共享相同的最优动作价值函数，记为 $q_{*}$ ，其定义为，对于任意 $\in \mathcal{S}$ ， $\in \mathcal{A}$ ，
$q_{*}(s, a)\ \dot{=} \ max_{\pi}(s, a) \qquad (3.16)$
对于转态-动作对 $(s, a)$ ， $q_{*}(s, a)$ 给出在状态s下，采取动作a, 之后按照最优策略去决策的期望回报，因此，我们可以用 $v_{*}$ 来表示 $q_{*}$ ，如下所示：
$q_{*}(s, a)\ = \ \mathbb{E}_{\pi}[R_{t+1} + \gamma v_{*}(S_{t+1}) \mid S_t=s,A_t=a]\ \qquad (3.17)$

$v_{*}$ 是策略的价值函数，那它一定满足式3.14的贝尔曼方程中状态和价值的一致性条件，当然因为它是最优价值函数，所以 $v_{*}$ 的一致性条件可以用一种特殊的形式表示，而不拘泥于任何特定的策略，这就是贝尔曼最优方程（Bellman optimality equation)，直观上看，贝尔曼方程表达了一个事实：在最优策略下的状态的价值一定等于这个状态下最优动作的期望回报：
$\begin{aligned} v_{*}(s) & \ = max_{a \in \mathcal{A}(s)} v_{\pi} (s) \\ & \ = max_a \ \mathbb{E}_{\pi_*}[G_t \mid S_t=t, A_t=a ] \\ & \ = max_a \ \mathbb{E}_{\pi_*}[R_{t+1} + \gamma G_{t+1} \mid S_t=t, A_t=a ] \qquad (by(3.9)) \\ & \ = max_a \ \mathbb{E}[R_{t+1} + \gamma v_*(S_{t+1}) \mid S_t=t, A_t=a ] \qquad (3.18) \\ & \ = max_a \sum_{s^{\prime}, r} p(s^{\prime}, r| s, a)[r + \gamma v_*(s^{\prime})] \qquad (3.19) \end{aligned}$
最后的两个方程(3.18)和(3.19)是 $v_*$ 的两个形式， $q_*$ 的贝尔曼最优方程是：
$\begin{aligned} q_{*}(s, a) & \ = \mathbb{E}[R_{t+1} + \gamma max_{a^{\prime}} q_*(S_{t+1}, a^{\prime}) \mid S_t=t, A_t=a ] \\ & \ = \sum_{s^{\prime}, r} p(s^{\prime}, r| s, a)[r + \gamma max_{a^{\prime}}q_*(s^{\prime}, a^{\prime})] \qquad (3.20) \end{aligned}$
下图的左边是式(3.19)， $v_*$ 的回溯图，下图的右边是式(3.20)， $q_*$ 的回溯图。与前面的表示除了图上的弧形外，其他是一样的，弧形表示agent的选择是最优的。

在这里插入图片描述

对于有限MDP来说， $v_{\pi}$ 的贝尔曼方程（式3.19）和 $q_{\pi}$ 的贝尔曼方程（式3.20）有独立于策略的唯一解。而对于最优价值函数 $v_*$ 来说，任何贪心策略都是最优策略。而给定 $q_*$ ,对于任意状态s， agent只要找到使得 $q_*(s, a)$ 最大化的动作a就可以了。

3.7 Optimality and Approximation

计算资源和内存是限制了直接生成最优策略，实际上agent只能在不同程度上近似。

强化学习的在线性质使得可以通过在学习中做出更多努力来为经常遇到的状态做出好的决策来做出最优策略，而这是以对不常遇到的状态做很少努力为代价的。该性质是强化学习不同于其他近似求解MDP方法的关键性质。

3.8 Summary

来总结一下本章学到的强化学习的要素：

强化学习是从交互中学习如何采取行动来达到一个目标。
强化学习的agent和它的环境在一系列离散的时间步长上进行交互。
agent做出动作的选择；状态是做出选择的基础；奖励是评估这些选择的基础。
agent内部的一切是可知和可控的。它的环境，是完全不可控的，可能或不可能完全可知。
策略是一个随机规则，它是状态的函数。agent通过该规则选择动作。
agent的目标是在累积时间内最大化收到的奖励。

当强化学习用完备定义的转移概率描述后，就构成了马尔科夫决策过程（Markov decision process(MDP)）。一个有限MDP是包含有限的状态、动作、奖励集的MDP。

回报是agent要最大化的未来奖励的函数。它根据不同的任务类型和是否希望对延迟的奖励打折扣，有不同的定义，本书也试图用一组方程适用下面两种不同的任务。

非折扣形式适用于回合式任务（episodic tasks），这类任务中agent和环境的交互可以自然分解成episodes。
折扣形式适用于连续性任务（continuing tasks），这类任务中agent和环境的交互不能被分解成episodes而是一直无限制的持续下去。

关于价值函数：

给定 agent 使用的策略，则策略的值函数可以对每个状态或状态-动作对给出对应的期望回报。
最优价值函数对每个状态或状态-动作对给出了所有策略中最大的期望回报值。
一个价值函数最优的策略叫最优策略。
对于给定的 MDP，状态和状态-动作对对应的最优价值函数是唯一的，但是可以有许多最优策略。
在最优价值函数的基础上，通过贪心算法得到的策略一定是最优策略。
Bellman 最优方程是最优价值函数必须满足的特殊一致性条件，原则上最优价值函数是可以通过这个条件相对容易求解得到的。

计算能力和存储资源是一个约束，在大多数实际问题中，环境状态远远不是一个表格能装下的，我们需要近似方法来解决强化学习问题。

参考资料

《Reinforcement Learning: An Introduction》Sutton, Richard S. and Andrew G. Barto. 第2版，书籍网站，笔记中的全部图片都来源于书籍。
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
https://github.com/YunlianMoon/reinforcement-learning-an-introduction-2nd-edition/tree/master