深入理解强化学习——多臂赌博机：动作一价值方法

本文我们来详细分析估计动作的价值的算法。我们使用这些价值的估计来进行动作的选择，这一类方法被统称为“动作一价值方法"。如前文所述，动作的价值的真实值是选择这个动作时的期望收益。因此，一种自然的方式就是通过计算实际收益的平均值来估计动作的价值：
$Q_t(a)=\frac{t\text{时刻前通过执行动作}a\text{得到的收益总和}}{\text{t\text{时刻前通过执行动作}a\text{的总次数}}}=\frac{\sum_{i=1}^{t-1}R_i\mathbb{I}(A_i=a)}{\sum_{i=1}^{t-1}\mathbb{I}(A_i=a)}$

其中， $\mathbb{I}$ 表示随机变量，当预测为真时其值为1，反之为0。当分母为0时，我们将 $Q_t(a)$ 定义为某个默认值，比如 $Q_t(a)=0$ 。当分母趋向无穷大时，根据大数定律， $Q_t(a)$ 会收敛到 $q_*(a)$ 。我们将这种估计动作价值的方法称为采样平均方法，因为每一次估计都是对相关收益样本的平均。当然，这只是估计动作价值的一种方法，而且不一定是最好的方法。我们继续使用这个简单的估计方法，讨论如何使用估计值来选择动作。

最简单的动作选择规则是选择具有最高估计值的动作，即前一节所定义的贪心动作。如果有多个贪心动作，那就任意选择一个，比如随机挑选。我们将这种贪心动作的选择方法记作：
$A_t=\arg\max_a Q_t(a)$

其中， $arg\max_a$ 是使得 $Q_t(a)$ 值最大的动作 $a$ 。选择的贪心动作总是利用当前的知识最大化眼前的收益。这种方法根本不花时间去尝试明显的劣质动作，看看它们是否真的会更好。贪心策略的一个简单替代策略是大部分时间都表现得贪心，但偶尔（比如以一个很小的概率 $\epsilon$ ）以独立于动作一价值估计值的方式从所有动作中等概率随机地做出选择。我们将使用这种近乎贪心的选择规则的方法称为 $\epsilon-$ 贪心方法。这类方法的一个优点是，如果时刻可以无限长，则每一个动作都会被无限次采样，从而确保所有的 $Q_t(a)$ 收敛到 $q_*(a)$ 。这当然也意味着选择最优动作的概率会收敛到大于 $1-\epsilon$ ，即接近确定性选择。然而，这只是渐近性的保证，并且鲜有人提到这类方法的实际效果。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022