机器学习笔记 - 通过人工干预实现安全强化学习的思路

1、人类干预强化学习

        深度强化学习在一些棋类游戏、视频游戏以及现实3D环境中的导航和控制任务方面取得了惊人的进展。这些成就是在模拟环境中实现的。深度强化学习能否将这一成功转化为现实世界的任务?

        这里面临两个主要问题。第一个是深度强化学习需要大量的观察(在现实世界的任务中获得这些观察是缓慢且昂贵的)。强化学习在实际应用中的第二个障碍是安全性。无模型强化学习代理只能通过反复试验来学习。为了学会避免灾难,他们首先需要引发灾难。在游戏中,强化学习智能体在训练期间死无数次没什么问题。然而,在现实世界的任务中,一次都嫌多。

        自动驾驶汽车撞到了行人、昂贵的机器人损坏了自己的硬件、显示虚假故事或共享用户私人信息的新闻提要算法、聊天机器人对顾客说冒犯的话等等诸如此类。

        目前的深度强化学习智能体必须多次采取这些灾难性的行动才能学会避免它们。此外,他们可能会“忘记”这些行为是不好的,只有再次尝试这些行为才能记住,这被称为深度强化学习的西西弗斯诅咒。

        人工智能系统如何在现实世界中安全学习?自动驾驶汽车配备了安全驾驶员,他们坐在驾驶座上,持续监控道路,准备在事故即将发生时采取控制措施。强化学习系统也可以通过人类监督者安全地学习吗?其中一项大问题是,学习一款简单的视频游戏可能需要 RL 系统处理上亿帧。如果要一个人看检查每一帧,训练时间就要一年多了。

2、安全强化学习方案

        HIRL(人类干预强化学习)将人类监督应用于强化学习代理以实现安全学习。在训练开始时,代理由防止灾难的人员监督。然后训练受监督的学习


http://www.niftyadmin.cn/n/5047745.html

相关文章

Vue路由与nodejs下载安装及环境变量的配置

目录 前言 一、Vue路由 1.路由简介 是什么 作用 应用场景 2.SPA简介 SPA是什么 SPA的优点 注意事项 3.路由实现思路 1.引入路由的js依赖 2.定义组件 3.定义组件与路径的对应关系 4.通过路由关系获取路由对象router 5.将路由对象挂载到实例中 6.触发路由事…

新课程标准培养学生“高考物理关键能力”的实践研究课题文献综述

目录 一、高考物理能力的要求与评估标准 二、高考物理关键能力的定义与内涵

java.lang.ClassNotFoundException: rx.Single(hystrix)

做springcloud整合hystrix时候,接口加上HystrixCommand后报错。 原因是hystrix依赖的第三方Jar----rxjava版本低,把rxjava更新为最新jar即可

打印日志规范

文章目录 一、打日志方式二、throw三、打印日志处四、实践五、实操:5.1 最佳实践5.2 方法出错的时候加入error日志 UtilityClass Slf4j public class GsonUtils {private static final Gson GSON new Gson();public static String toJsonStr(Object object) {retur…

Android Kotlin 协程详解

前言 关于Kotlin基础和高阶函数又不熟悉的可以先参考文章: Android Kotlin 基础详解_袁震的博客-CSDN博客 Android Kotlin 高阶详解_袁震的博客-CSDN博客 什么是协程?要理解协程,就要将它和线程联系起来理解。 线程是什么?我…

Unity之VR如何实现跟随视角的UI

前言 我们在制作VR项目的时候,大部分时候,是把UI固定到一个位置,比如桌子或者空中,这么做固然稳定,但是当我们有以下需求的时候,固定位置的UI可能会不适用: 1.场景较小,操作物体占用了很大体积,没有固定的可以清晰显示完整UI的位置。 2.需要频繁的前后左右,更换姿势…

设计模式再探——原型模式

目录 一、背景介绍二、思路&方案三、过程1.原型模式简介2.原型模式的类图3.原型模式代码4.原型模式深度剖析5.原型模式与spring 四、总结五、升华 一、背景介绍 最近在做业务实现的时候,为了通过提升机器来降低开发人员的难度和要求,于是在架构设计…

数据库sql函数归纳

函数: 1、字符串函数: concat(s1、s2、...sn) 字符串拼接、将s1、s2、...sn拼接为一个字符串; SELECT CONCAT(yi, xing); lower(str) 将字符串转为小写 SELECT LOWER(YIXINgui); upper&…