深入理解强化学习——强化学习的历史：试错学习

让我们现在回到另一条通向现代强化学习领域的主线上，它的核心则是试错学习思想。我们在这里只对要点做概述，《深入理解强化学习》系列后面的文章会更详细地讨论这个主题。根据美国心理学家R.S.woodworth的说法，试错学习思想可以追溯到19世纪50年代Alexander Bain对“摸索和实验”学习方法的讨论，可以更具体地追溯到1894年英国动物行为学家和心理学家Conway Lloyd Morgan使用这个术语来描述他对动物行为的观察实验。而也许第一个简洁明确地表达出试错学习的本质是学习原则的则是Edward Thorndike：

面对同样的情境时，动物可能产生不同的反应。在其他条件相同的情况下，如果某些反应伴随着或紧随其后能够引起动物自身的满意感，则这些反应将与情境联系得更加紧密。因此，当这种情境再次发生时，这些反应也更有可能再出现。而在其他条件相同的情况下，如果某些反应给动物带来了不适感，则这些反应与情境的联系将被减弱，所以当这种情境再次发生时，这些反应便越来越不容易再现。更大的满意度或更大的不适感，决定了更强化的或更弱化的联系。

Thorndike称之为“效应定律（Law of Effect）”，因为它描述了强化事件对选择行为倾向性的影响。后来，Thorndike修改了定律，更好地解释了动物学习的数据（比如奖励和惩罚之间的区别），但各种形式的定律在学习理论专家中也产生了大量争议。尽管如此，各种形式的效应定律被普遍认为是许多行为背后的基本原则。这是Clark HuII影响深远的学习理论的基础，也是B.F.Skinner实验方法的基础。

在动物学习领域，“强化”一词从Thorndike提出效应定律之后开始使用，最早出现在巴甫洛夫的条件反射著作的1927年英文译本中。巴甫洛夫认为“强化"就是动物行为模式的增强，它来源于动物受到增强剂的刺激后与另一刺激或反应形成的短暂关系。后来，一些心理学家扩展了“强化"一词的意义，也包括了弱化过程，同时它还适用于对刺激事件的忽略或终止。强化对行为的改变会在增强剂被撤回时仍有所保留，因此只吸引动物注意或激发其行为，而不产生持久变化的刺激物不被认为是一种增强剂。

试错学习思想在计算机中的应用最早出现于关于人工智能可能性的思考中。在1948年的报告中，图灵描述了一种“快乐一痛苦系统"的设计，它是根据效应定律运作的：

当达到没有预设动作的状态时，随机选择一些没有遇到过的数据，记录并试探性地应用这些数据。如果发生了痛苦刺激，停止所有动作试探。如果发生了愉悦刺激，则一直保持动作试探。

许多精巧的电子机械设备被制造出来演示试错学习。最早的应该是1933年由Thomas Ross制造的一台机器，它能够穿越迷宫且通过开关设置记住路线。在1951年，已经因为“机械乌龟"成名的W.Grey Walter又制造了能够简单学习的版本。1952年，Claude Shannon演示了一种名叫Theseus的迷宫老鼠，它利用试错法在迷宫中摸索，迷宫本身通过磁铁和继电器在地板上记录成功的路径。J.A.Deutsch描述了一个以他的类似于基于模型的强化学习的行为理论为基础的解迷宫机器。Marvin Minsky在他的博士论文中讨论了强化学习的计算方法，描述了他组装的一台基于模拟信号的机器，他称其为“随机神经模拟强化计算器"，SNARCs（Stochastic Neural-AnalogReinforcement Calculators）模拟可修改的大脑突触连接。

构建电子机械学习机器的努力逐渐让位于使用数字计算机通过编程来进行各种类型的机器学习，其中一些也实现了试错学习。Farley和Clark描述了一种通过试错学习的神经网络学习机器的数字化仿真程序。但他们的兴趣很快就从试错学习转向推广性和模式识别，即从强化学习转向有监督学习。这时这些学习类型之间的关系开始出现混乱。许多研究人员认为自己在研究强化学习，但其实是在研究有监督学习。例如，像Rosenblatt和Widrow及Hoff这样的神经网络先驱们显然是被强化学习所激励的。虽然他们使用了“收益”和“惩罚"这样的语言，但他们所研究的系统是有监督的学习系统，适用于模式识别和感知学习。即使在今天，一些研究人员和教科书也在最小化或模糊化这些不同类型的学习范式的区别。例如，一些神经网络教科书使用“试错"一词来描述从训练样本中学习的网络。这种混淆可以理解，因为这些网络就是使用误差信息来更新连接的权重的，但是这忽略了在试错学习中的行为选择的基本特征是基于评估性反馈的，而这些反馈不基于正确的行为应该是什么。

这些困惑在一定程度上，使得对真正的试错学习的研究在20世纪60和70年代变得十分罕见，尽管也有一些例外。在20世纪60年代，“强化"和“强化学习"两个术语在工程文献中首次被用于描述试错学习的工程用途。特别有影响力的是Minsky的论文《走向人工智能》，他在论文中讨论了几个关于试错学习的问题，包括预测、期望，以及他所称的“复杂强化学习系统中的基础性的功劳分配问题"：对于一项成功所涉及的许多项决策，你如何为每项决策分配功劳？我们在《深入理解强化学习》系列文章中讨论的所有方法在某种意义上都是为了解决这个问题。NIinsky的论文在今天也是值得一读的。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022