深入理解强化学习——多臂赌博机:10臂测试平台

分类目录:《深入理解强化学习》总目录


为了大致评估贪心方法和 ϵ − \epsilon- ϵ贪心方法相对的有效性,我们将它们在一系列测试问题上进行了定量比较。这组问题是2000个随机生成的 k k k臂赌博机问题,且 k = 10 k=10 k=10。在每一个赌博机问题中,如下图显示的那样,动作的真实价值为 q ∗ ( a ) , a = 1 , 2 , ⋯   , 10 q_*(a), a=1, 2, \cdots, 10 q(a),a=1,2,,10,从一个均值为 0 0 0方差为 1 1 1的标准正态(高斯)分布中选择。当对应于该问题的学习方法在 t t t时刻选择 A t A_t At时,实际的收益 R t R_t Rt则由一个均值为 q ∗ ( A t ) q_*(A_t) q(At)方差为 1 1 1的正态分布决定。在下图中,这些分布显示为灰色区域。我们将这一系列测试任务称为10臂测试平台。对于任何学习方法,随着它在与一个赌博机问题的1000时刻交互中经验的积累,我们可以评估它的性能和动作。这构成了一轮试验。用2000个不同的赌博机问题独立重复2000个轮次的试验,我们就得到了对这个学习算法的平均表现的评估。
动作

下图在一个10臂测试平台上比较了上述的贪心方法和两种 ϵ − \epsilon- ϵ贪心方法( ϵ = 0.01 \epsilon=0.01 ϵ=0.01 ϵ = 0.1 \epsilon=0.1 ϵ=0.1)。所有方法都用采样平均策略来形成对动作价值的估计。上部的图显示了期望的收益随着经验的增长而增长。贪心方法在最初增长得略微快一些,但是随后稳定在一个较低的水平。相对于在这个测试平台上最好的可能收益 1.55 1.55 1.55,这个方法每时刻只获得了大约1的收益。从长远来看,贪心的方法表现明显更糟,因为它经常陷入执行次优的动作的怪圈。下部的图显示贪心方法只在大约三分之一的任务中找到最优的动作。在另外三分之二的动作中,最初采样得到的动作非常不好,贪心方法无法跳出来找到最优的动作。 ϵ − \epsilon- ϵ贪心方法最终表现更好,因为它们持续地试探并且提升找到最优动作的机会。 ϵ = 0.1 \epsilon=0.1 ϵ=0.1的方法试探得更多,通常更早发现最优的动作,但是在每时刻选择这个最优动作的概率却永远不会超过91%(因为要在 ϵ = 0.1 \epsilon=0.1 ϵ=0.1的情况下试探)。 ϵ = 0.01 \epsilon=0.01 ϵ=0.01的方法改善得更慢,但是在图中的两种测度下,最终的性能表现都会比 ϵ = 0.1 \epsilon=0.1 ϵ=0.1的方法更好。为了充分利用高和低的 ϵ \epsilon ϵ值的优势,随着时刻的推移来逐步减小 ϵ \epsilon ϵ也是可以的。
不同取值的表现
ϵ − \epsilon- ϵ贫心方法相对于贪心方法的优点依赖于任务。比方说,假设收益的方差更大,不是1而是10,由于收益的噪声更多,所以为了找到最优的动作需要更多次的试探,而 ϵ − \epsilon- ϵ贪心方法会比贪心方法好很多。但是,如果收益的方差是0,那么贪心方法会在尝试一次之后就知道每一个动作的真实价值。在这种情况下,贪心方法实际上可能表现最好,因为它很快就会找到最佳的动作,然后再也不会进行试探。但是,即使在有确定性的情况下,如果我们弱化一些假设,对试探也有很大的好处。例如,假设赌博机任务是非平稳的,也就是说,动作的真实价值会随着时间而变化。在这种情况下,即使在有确定性的情况下,试探也是需要的,这是为了确认某个非贪心的动作不会变得比贪心动作更好。如我们将在接下来的几章中所见,非平稳性是强化学习中最常遇到的情况。即使每一个单独的子任务都是平稳而且确定的,学习者也会面临一系列像赌博机一样的决策任务,每个子任务的决策随着学习的推进会有所变化,这使得智能体的整体策略也会不断变化。强化学习需要在开发和试探中取得平衡。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


http://www.niftyadmin.cn/n/5157571.html

相关文章

笔记50:正则表达式入门宝典

引自:正则表达式是什么? - 知乎 中“龙吟九野”所写的一个回答,个人感觉看完之后如同醍醐灌顶,查了很多资料都没有这篇文章写的基础和通透,感觉是正则表达式扫盲好文,所以搬运一下,侵权删,感谢…

后端工程化 | SpringBoot 知识点

文章目录 [SpringBoot] 后端工程化1 需求2 开发流程3 RequestController 类(操作类)3.1 简单参数(形参名和请求参数名一致)3.2 简单参数(形参名和请求参数名不一致)3.3 复杂实体参数3.4 数组参数3.5 集合参…

ElementUI-tree拖拽功能与节点自定义

前言 在管理端会遇到多分类时,要求有层次展示出来,并且每个分类有额外的操作。例如:添加分类、编辑分类、删除、拖到分类等。 下面将会记录这样的一个需求实习过程。 了解需求 分类展示按层级展示分类根据特定的参数展示可以操作的按钮&a…

5G技术的应用和发展

一、什么是5G技术 5G技术是第五代移动通信技术的缩写,是一项全新的高速无线通信技术,它可以提供更高的带宽和更低的延迟,以实现更快的数据传输和更好的用户体验。5G技术的主要特点包括更高的数据传输速率、更低的延迟、更大的网络容量、更好…

【构建一套Spring Cloud项目的大概步骤】【Springcloud Alibaba微服务分布式架构学习资料】

目录 1、创建一个Maven项目2、搭建Spring Cloud服务3、搭建Spring Cloud Eureka4、搭建Spring Cloud Config5、搭建Spring Cloud Consumer6、搭建Spring Cloud Zuul7、使用Jenkins进行代码自动化部署另附录、Springcloud Alibaba微服务分布式架构 1、创建一个Maven项目 在IDEA…

智能井盖生产商家,万宾科技井盖传感器产品详情

市政府管理水平决定城市人民幸福程度,所以在智慧城市推进过程中,市政府也在加快城市信息基础设施建设,希望提高公共服务水平,以此来满足城市居民的需求,进一步推进城市信息化智能化发展。作为城市生命线的一个组成部分…

软件测试/测试开发丨如何利用ChatGPT自动生成测试用例思维导图

点此获取更多相关资料 简介 思维导图是一种用图形方式表示思维和概念之间关系的工具: 有些公司会使用思维导图编写测试用例,这样做的优点是: 1.可视化和结构化。 2.易于理解,提高效率。 而 ChatGPT 是无法直接生成 xmind 格式…

Linux 如何安装Mysql8.X(详细教程)

目录 1.Mysql官网安装包下载过程2.具体安装1.首先看一下自己有没有安装MySQL的服务:2.创建安装文件夹3.上传mysql安装包4.解压mysql安装包到指定文件夹(mysql8)5.cd到mysql8(便于下面安装) ls或ll查看mysql rpm依赖包6.依次安装rpm包(注意有顺序)1.命令如下:2.依次安装如下:…