通用人工智能之路:什么是强化学习?如何结合深度学习?

news/2024/5/18 22:27:36 标签: 人工智能, 深度学习, 强化学习, 自动驾驶, AIGC

目录

1 ChatGPT中的强化学习

2015年,OpenAI由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立,公司核心宗旨在于实现安全的通用人工智能(AGI),使其有益于人类。ChatGPTOpenAI推出的一个基于对话的原型 AI 聊天机器人,2022年12 月 1 日,OpenAI的联合创始人山姆·奥特曼在推特上公布ChatGPT并邀请人们免费试用

ChatGPT可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题,其性能大大超乎人们对弱人工智能的想象。ChatGPT魔力的关键因素之一可以追溯到2017年的概念人类反馈强化学习(RLHF)

在这里插入图片描述

RLHF的关键在于在难以明确规定任务的强化学习环境中操作,在这些情景下,人类反馈可能产生巨大的影响。RLHF利用人类评估者的少量反馈来引导智能体对目标及其相应奖励函数的理解。

RLHF的训练过程大致阐述为

智能体从环境中随机采取行动,智能体每隔一段时间向人类评估者展示学习效果。根据效果,评估者会施加引导信息,智能体然后利用这个反馈逐渐建立起一个最能解释人类判断的目标和奖励函数的模型。一旦智能体对目标及其相应奖励函数有了清晰的理解,它就使用传统强化学习方法来学习如何实现该目标。随着行为的改善,智能体会继续请求关于它最不确定哪个更好的轨迹对的人类反馈,进一步完善对目标的理解

在这里插入图片描述

ChatGPT是大型语言模型的缩影,而这个领域已成为应用现代强化学习技术最有趣的领域之一。接下来,我们将介绍深度强化学习的基本概念,以及有效的学习路线

2 环境与智能体的交互

环境(Environment)是机器学习任务所依赖的物理规则与载体,例如

  • 在下棋对弈任务中,环境是棋盘、对手与游戏规则
  • 在机器人控制任务中,环境是机器人硬件、任务场景与物理定律

智能体(Agent)是存在于环境中的实例,智能体必须依赖环境,并与环境产生交互。智能体不能改变环境的物理规则,但可以通过传感器(Sensor)观察来感知环境(感知的结果称为状态),通过决策器(decision maker)来根据状态决定将要采取的行动,最后通过执行器(Actuator)动作来影响环境。

在这里插入图片描述

举例而言

  • 人类Agent有眼睛、耳朵和其他器官等传感器,也有手、腿、声道等作为执行器
  • 硬件Agent可能用摄像头、红外测距仪作为传感器,各种马达作为执行器
  • 软件Agent接受键盘敲击、文件内容和网络数据包作为传感器输入,并以屏幕显示、写文件和发送网络数据包为执行器

Agent的核心是决策器,其内部存在一个从感知到行为的映射,称为Agent函数(或称之为策略)。Agent函数的具体实现过程称为Agent程序,机器学习等人工智能学科就是一系列Agent程序设计的方法论。Agent根据外部环境感知做出相应行为,很自然地需要判断Agent函数的好坏。若这个行为符合期望,则认为智能体是理性的(Rational)

3 强化学习特征四元组

接下来,我们正式给出经典强化学习的定义

强化学习(Reinforcement Learning, RL)在潜在的不确定复杂环境中,训练一个最优决策 π \pi π指导一系列行动实现目标最优化的机器学习方法

强化学习与监督学习的不同之处在于不需要进行样本标注,核心是通过奖励期望行动和惩罚非期望行动的方式在探索(未知领域)和利用(现有知识)之间找到平衡

在这里插入图片描述

在初始情况下,没有训练数据告诉强化学习智能体并不知道在环境中应该针对何种状态采取什么行动,而是通过不断试错得到最终结果,再反馈修正之前采取的策略,因此强化学习某种意义上可以视为具有“延迟标记信息”的监督学习问题。

强化学习的基本过程是:智能体对环境采取某种行动 a a a,观察到环境状态发生转移 s 0 → s s_0\rightarrow s s0s,反馈给智能体转移后的状态 s s s和对这种转移的奖赏 r r r。综上所述,一个强化学习任务可以用四元组 E = < S , A , P , R > E=\left< S,A,P,R \right> E=S,A,P,R表征

  • 状态空间 S S S:每个状态 s ∈ S s \in S sS是智能体对感知环境的描述;
  • 动作空间 A A A:每个动作 a ∈ A a \in A aA是智能体能够采取的行动;
  • 状态转移概率 P P P:某个动作 a ∈ A a \in A aA作用于处在某个状态 s ∈ S s \in S sS的环境中,使环境按某种概率分布 P P P转换到另一个状态;
  • 奖赏函数 R R R:表示智能体对状态 s ∈ S s \in S sS下采取动作 a ∈ A a \in A aA导致状态转移的期望度,通常 r > 0 r>0 r>0为期望行动, r < 0 r<0 r<0为非期望行动。

状态空间有限的基本强化学习可以用马尔科夫决策过程进行抽象建模,可见机器学习强基计划6-1:图文详细总结马尔科夫链及其性质(附例题分析)

4 深度强化学习的引入

传统强化学习大多基于数值离散状态空间的任务,即根据所有数值组合的状态是有限的,但现实中往往面临数值连续的无限状态空间。例如围棋任务的状态空间规模高达 1 0 17 10^{17} 1017自动驾驶任务中状态可能由激光雷达、陀螺仪、里程计的连续数值共同组成。庞大的状态空间导致无法维护内部用以决策的数据结构——例如Q-Learning算法的Q-Table,因此引入深度强化学习(Deep Reinforcement Learning, DRL)

深度强化学习融合了深度学习强化学习框架,其中

  • 深度学习负责感知和拟合非结构化的环境输入信息,而不依赖于对状态空间的人工建模,克服了无限状态空间问题
  • 强化学习负责通过奖励期望行动和惩罚非期望行动的方式在探索(未知领域)和利用(现有知识)之间找到平衡

深度强化学习使智能体具有在未知环境中做出复杂决策的能力,在机器人、游戏、自然语言处理等诸多领域得到广泛应用。如图所示,深度学习强化学习提供了策略评估,而强化学习根据评估值进行策略改进,与环境交互产生训练样本反馈给神经网络,增强其感知能力

在这里插入图片描述

5 教程大纲

本专栏将重点介绍强化学习技术,并且采用Pytorch框架对常见的强化学习算法、案例进行实现,帮助读者理解原理。同时,辅以各种机器学习、数据处理技术,弥补一些人工智能的底层知识

🔥 专栏地址:Pytorch深度强化学习,具体大纲如下


🚀 第一章——经典强化学习理论

🚀 第二章——深度强化学习理论

🚀 第三章——深度强化学习案例

  • Pytorch深度强化学习案例:基于DQN实现Flappy Bird游戏与分析

加入我们

目前博主正在组建深度学习技术交流群,群中成员是有明确共同目标,共同愿景的,这样才能共同成长,所以只要你想学好机器学习、深度学习就请加入我们(下方名片),让我们一起从理论到实践攻克深度学习,为从事相关工作或科研打下基础!

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
当然群里也配套长期更新的网盘资源福利等你领取!

上面给出的是教程的大致大纲,后面可能会有顺序和内容的调整,但可以保证内容量只增不减,更新频率为一周1~2更。所有应用类内容都配有代码,可以放心使用


🔥 更多精彩专栏

  • 《ROS从入门到精通》
  • 《Pytorch深度学习实战》
  • 《机器学习强基计划》
  • 《运动规划实战精讲》

👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇

http://www.niftyadmin.cn/n/1010551.html

相关文章

安装和配置gunicorn

文章目录 安装gunicorn配置flask logger与gunicorn日志整合worker class 安装gunicorn pip install gunicorn// windows平台似乎不支持gunicorn 配置 配置文件要是.py结尾的 比如 gunicorn.conf.py 可以和flask的app.py放在同一目录下 配置参数说明 示例&#xff1a; impo…

奇安信浏览器调用JM9硬件解码操作教程

本文讲述如何通过奇安信浏览器调用景嘉微JM9系列显卡的硬件解码。 判断硬件解码是否打开方法 1.检查奇安信浏览器版本。dpkg -l | grep qaxbrowser&#xff0c;我这里是1.0.45209.2-1版本。要大于等于这个版本的奇安信浏览器才支持硬件解码。 2.打开奇安信浏览器&#xff…

Java设计模式之行为型-观察者模式(UML类图+案例分析)

目录 一、基本概念 二、UML类图 三、角色设计 四、代码实现 案例一 案例二 案例三 五、总结 一、基本概念 观察者先订阅被观察者对象&#xff0c;当被观察者的状态发生变化时&#xff0c;观察者可以及时收到消息&#xff0c;在这种模式当中&#xff0c;被观察者维护了…

Quiz 6: Strings | Python for Everybody 配套练习_解题记录

文章目录 课程简介Quiz 6: Strings 单选题&#xff08;1-10&#xff09;编程题Exercise 5.2 课程简介 Python for Everybody 零基础程序设计&#xff08;Python 入门&#xff09; This course aims to teach everyone the basics of programming computers using Python. 本课…

leetcode-063-不同路径2

题目及测试 package pid063; /*63. 不同路径 II 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff08;在下图中标记为 “Finish”&#xff09;。现…

Elasticsearch 分词器切词器分析器

normalization : 文档规范化 先切词,然后规范化. 规范化要规范哪些内容? 大小写; 标点符号; 时态; 复数; 规范化主要是为了匹配更精准 character filter : 字符过滤器. 标点符号 分词之前的预处理&#xff0c;过滤无用字符 HTML Strip Character Filter &#xff1a;htm…

Kubernetes 1.27 版本基于(haproxy+keepalived)部署高可用集群

Kubernetes 1.27 版本基于&#xff08;haproxykeepalived&#xff09;部署高可用集群 二、系统架构2.1 架构基本需求2.2 架构图 三、环境准备3.1 云服务或虚拟机清单3.2 升级操作系统内核3.3 设置hostname3.4 修改hosts文件映射&#xff08;注意替换你的规划每一台机器的IP&…

基于图层自动识别算法在CAD图纸基础上快速创建Revit BIM模型 - VS2022 + AutoCAD2024 + ObjectARX环境搭建

引言 CAD 技术将建筑师、工程师们从手工绘图推向计算机辅助制图&#xff0c;实现了工程设计领域的第一次信息革命。从 CAD 技术普及以来&#xff0c;设计成果一般都是 CAD 图纸形式表达。但是近些年来&#xff0c;随着建筑的复杂程度日益增加&#xff0c;专业间的配合更加紧密…