机器学习笔记 - 通过人工干预实现安全强化学习的思路

1、人类干预强化学习

深度强化学习在一些棋类游戏、视频游戏以及现实3D环境中的导航和控制任务方面取得了惊人的进展。这些成就是在模拟环境中实现的。深度强化学习能否将这一成功转化为现实世界的任务？

这里面临两个主要问题。第一个是深度强化学习需要大量的观察（在现实世界的任务中获得这些观察是缓慢且昂贵的）。强化学习在实际应用中的第二个障碍是安全性。无模型强化学习代理只能通过反复试验来学习。为了学会避免灾难，他们首先需要引发灾难。在游戏中，强化学习智能体在训练期间死无数次没什么问题。然而，在现实世界的任务中，一次都嫌多。

自动驾驶汽车撞到了行人、昂贵的机器人损坏了自己的硬件、显示虚假故事或共享用户私人信息的新闻提要算法、聊天机器人对顾客说冒犯的话等等诸如此类。

目前的深度强化学习智能体必须多次采取这些灾难性的行动才能学会避免它们。此外，他们可能会“忘记”这些行为是不好的，只有再次尝试这些行为才能记住，这被称为深度强化学习的西西弗斯诅咒。

人工智能系统如何在现实世界中安全学习？自动驾驶汽车配备了安全驾驶员，他们坐在驾驶座上，持续监控道路，准备在事故即将发生时采取控制措施。强化学习系统也可以通过人类监督者安全地学习吗？其中一项大问题是，学习一款简单的视频游戏可能需要 RL 系统处理上亿帧。如果要一个人看检查每一帧，训练时间就要一年多了。