强化学习笔记-06 Temporal-Difference TD时分学习

本文是博主对《Reinforcement Learning- An introduction》的阅读笔记，不涉及内容的翻译，主要为个人的理解和思考。

TD学习是现代强化学习方法的核心，其是蒙特卡罗法和动态规划法的结合，一方面，其同蒙特卡罗法一样，不需要对于环境完全了解，而是通过从环境交互中学习，另一方面，其类似于动态规划法，根据前一轮的估计中去更新新一轮的估计，而不需要像蒙特卡罗法通过最终的reward来估计更新。可以看出TD学习仍然是类似于generalized policy iteration (GPI) 过程，相比于蒙特卡罗法和动态规划法，其核心不同点在于价值函数的估计。

1. TD学习的预估

首先我们考虑上一节所讨论的蒙特卡罗法的价值估计函数，将其改下为如下迭代更新过程，即新一轮的估计通过前一轮的估计去更新。此时如果更新因子 $\alpha$ 设置为固定时，称为固定步长的MC方法。

$\\ Q_n(s,a)=\frac{\sum_{k=0}^n \rho_k(s,a)G_k(s,a) }{\sum_{k=0}^n \rho_k(s,a)} \\ =\frac{\sum_{k=0}^{n-1} \rho_k(s,a)G_k(s,a) + \rho_n(s,a)G_n(s,a)}{\sum_{k=0}^{n-1} \rho_k(s,a)}\frac{\sum_{k=0}^{n-1} \rho_k(s,a) }{\sum_{k=0}^{n} \rho_k(s,a)} \\ =(Q_{n-1}(s,a)+\frac{\rho_n(s,a)G_n(s,a)}{\sum_{k=0}^{n-1} \rho_k(s,a)})(1-\frac{\rho_n(s,a)}{\sum_{k=0}^{n} \rho_k(s,a)})\\ =Q_{n-1}(s,a) + \frac{\rho_n(s,a)}{\sum_{k=0}^{n} \rho_k(s,a)}(G_n(s,a)-Q_{n-1}(s,a))\\ =Q_{n-1}(s,a) + \alpha (G_n(s,a)-Q_{n-1}(s,a))$

此时再考虑动态规划中求解累积收益G的公式，此时 $s',a'$ 表示下一状态和动作， $R$ 表示reward

$G_n(s,a)=R + \gamma Q_\pi (s', a')$

此时迭代更新的公式可以改写为

$\\ Q_{n}(s,a)=Q_{n-1}(s,a) + \alpha (G_n(s,a)-Q_{n-1}(s,a))\\ =Q_{n-1}(s,a) + \alpha (R+\gamma Q_\pi (s',a')-Q_{n-1}(s,a))$

其中 $Q_\pi (s',a')$ 表示最优决策 $\pi$ 下，这个是不可知的，因此我们只能用当前已知的 $Q_{n-1} (s',a')$ 来求解。因此这个之间会存在一定偏差。但是我们可以推出当 $\gamma <1$ 时，这个偏差是可以收敛的。假设 $\delta_t = R_{t+1}+\gamma Q(S_{t+1},A_{t+1})-Q(S_{t},A_{t})$ ，此时偏差可以写为：

$G(S_t,A_t)-Q(S_t,A_t)=R_{t+1} +\gamma G(S_{t+1},A_{t+1})-Q(S_t,A_t) + \gamma Q(S_{t+1},A_{t+1})-\gamma Q(S_{t+1},A_{t+1})\\ =R_{t+1} +\gamma Q(S_{t+1},A_{t+1})-Q(S_t,A_t) + \gamma (G(S_{t+1},A_{t+1})- Q(S_{t+1},A_{t+1}))\\ =\sum_{k=t}^{T-1} \gamma^{k-1}\delta$