深入理解强化学习——强化学习的局限性与适用范围

分类目录:《深入理解强化学习》总目录


强化学习十分依赖“状态”这个概念,它既作为策略和价值函数的输人,又同时作为模型的输人与输出。一般,我们可以把状态看作传递给智能体的一种信号,这种信号告诉智能体“当前环境如何"。我们使用的通过马尔可夫决策过程框架给出的状态的正式定义将在《深入理解强化学习》系列后面的文章中介绍。一般来说,我们鼓励读者顺着非正式的定义思考状态的含义,把它理解为当前智能体可知的环境信息。实际上,我们认为状态产生自一些预处理系统,这些系统从逻辑上说是智能体周边环境的一部分。

《深入理解强化学习》系列很多文章中讨论的大多数强化学习方法建立在对价值函数的估计上。但是这并不是解决强化学习问题的必由之路。举个例子,一些优化方法,如遗传算法、遗传规划、模拟退火算法以及其他一些方法,都可以用来解决强化学习问题,而不用显式地计算价值函数。这些方法采取大量静态策略,每个策略在扩展过的较长时间内与环境的一个独立实例进行交互。这些方法选择获取了最多收益的策略及其变种来产生下一代的策略,然后继续循环更新。我们称其为进化方法,因为这类方法与生物进化的过程十分类似,即使这类方法在单个个体的生命周期中不进行学习。如果策略空间充分小,或者可以很好地结构化以找到好的策略,或者我们有充分的时间来搜索,那么进化方法是有效的。另外,进化方法在那些智能体不能精确感知环境状态的问题上具有优势。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


http://www.niftyadmin.cn/n/5113743.html

相关文章

ubuntu 22.04 minikube 部署 应用测试

准备环境 参考:https://blog.csdn.net/qq_52397471/article/details/133979727?spm1001.2014.3001.5501 编写 Golang 应用 代码 package mainimport ("fmt""log""net/http" )func main() {http.HandleFunc("/", func(…

腾讯云创建了jenkins容器,但无法访问

1、首先,查看本机能不能ping通你的腾讯云服务器 如果ping的通那就下一步 2、查看腾讯云服务器的防火墙关了没,没关关掉、 firewall-cmd --state not running 3、那就在云服务器的控制台开放端口

LeetCode讲解篇之40. 组合总和 II

文章目录 题目描述题解思路题解代码 题目描述 题解思路 按升序排序candidates,然后遍历candidates,目标数减去当前candidates的数,若该结果小于0,因为candidates的元素大于0,所以后续不会再出现让计算结果等于0的情况…

GUI设计——PyQt5快速入门

一、学习目标 了解有关GUI界面设计的基本语法能够编写简单的界面设计程序 二、PyQt5 安装与环境配置 首先,本人通过网上的教程,在Index of / (qt.io)官网上下载好了 Qt Designer 和 Qt Creator 。本人下载的版本为 5.14。随后,通过网络的资源…

顶顶通呼叫中心中间件,支持坐席长签了

介绍 顶顶通呼叫中心中间件,支持长签了,长签就是坐席呼叫一个特别号码,接通后不挂机,一直等待接电话,没电话呼入的时候,听背景音乐。 一般用自动应答来实现呼入免操作直接接通,但是有的客户习惯…

Mqtt是什么

MQTT(Message Queuing Telemetry Transport)是一种轻量级的消息传递协议,使用发布/订阅模式进行通信。它最初是为了在低带宽、高延迟或不稳定网络环境下,方便物联网设备之间进行通信而设计的。 MQTT的工作原理是基于发布和订阅两…

Vector3(即是位置,也是方向)

在三维世界中,最重要的就是确定物体在三维世界中 的位置、大小和缩放等信息。在Unity中,Vector3结构体就是用来表示这些信息的,此外也用Vector2来表示二维世界中的信息。 Vector3结构体由x、y、z这3个数值组成,表示了一个向量&am…

Java EE-使用Servlet搭建一个简单的前后端交互程序

上述前端和后端的代码如下&#xff1a; 前端&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"vie…