深入理解强化学习——多臂赌博机:基础知识

分类目录:《深入理解强化学习》总目录


强化学习与其他机器学习方法最大的不同,就在于前者的训练信号是用来评估给定动作的好坏的,而不是通过给出正确动作范例来进行直接的指导。这使得主动地反复试验以试探出好的动作变得很有必要。单纯的“评估性反馈"只能表明当前采取的动作的好坏程度,但却无法确定当前采取的动作是不是所有可能性中最好的或者最差的。另一方面,单纯的“指导性反馈"表示的是应该选择的正确动作是什么,并且这个正确动作和当前实际采取的动作无关,这是有监督学习的基本方式,其被广泛应用于模式分类、人工神经网络和系统辨识等。上述两种不同的反馈有着很大的不同:评估性反馈依赖于当前采取的动作,即采取不同的动作会得到不同的反馈;而指导性反馈则不依赖于当前采取的动作,即采取不同的动作也会得到相同的反馈。当然,也有将两者结合起来的情况。

多臂赌博机算法将在只有一个状态的简化清况下讨论强化学习中评估与反馈的诸多性质。之前关于评估性反馈的很多研究都是在这种非关联性的简化情况下进行的,避免了完全强化学习问题中的许多复杂情况。通过研究这个问题,我们可以清楚地看到评估性反馈和指导性反馈如何不同,或者两者如何结合。这个特别的非关联性的评估性反馈问题是"多臂赌博机问题”的简化版本。我们使用这个问题介绍一系列基本的学习方法,这些方法将在后面介绍完全的强化学习问题时用到。

考虑如下的一个学习问题:你要重复地在个选项或动作中进行选择。每次做出选择之后,你都会得到一定数值的收益,收益由你选择的动作决定的平稳概率分布产生。你的目标是在某一段时间内最大化总收益的期望,比如000次选择或者1000时刻之后。这是多臂赌博机问题的原始形式。这个名字源于老虎机(或者叫“单臂赌博机"),不同之处是它有多个控制杆而不是一个。每一次动作选择就是拉动老虎机的一个控制杆,而收益就是得到的奖金。通过多次的重复动作选择,你要学会将动作集中到最好的控制杆上,从而最大化你的奖金。另一个类比是医生在一系列针对重病患者的试验性疗法之间进行选择。每次动作选择就是选择一种疗法,每次的收益是患者是否存活或者他因为治疗而得到的愉悦舒适感。现今“赌博机问题"这个术语有时候会作为由上述问题推广而来的大类问题的通称。

在我们的多臂赌博机问题中,多个动作中的每一个在被选择时都有一个期望或者平均收益,我们称此为这个动作的“价值”。我们将在 t t t时刻’时选择的动作记作 A t A_t At,并将对应的收益记作 R t R_t Rt。任一动作 a a a对应的价值记作佑 q ∗ ( a ) q_*(a) q(a),是给定动作 a a a时收益的期望:
q ∗ ( a ) = E [ R t ∣ A t = a ] q_*(a)=E[R_t|A_t=a] q(a)=E[RtAt=a]

如果我们知道每个动作的价值,则解决多臂赌博机问题就很简单:每次都选择价值最高的动作。我们假设我们不能确切地知道动作的价值,但是我们可以进行估计。我们将对动作 a a a t t t时刻时的价值的估计记作 q t ( a ) q_t(a) qt(a),我们希望它接近 q ∗ ( a ) q_*(a) q(a)

如果我们持续对动作的价值进行估计,那么在任一时刻都会至少有一个动作的估计价值是最高的,我们将这些对应最高估计价值的动作称为贪心的动作。当你从这些动作中选择时,我们称此为开发当前你所知道的关于动作的价值的知识。如果不是如此,而是选择非贪心的动作,我们则称此为试探,因为这可以让你改善对非贪心动作的价值的估计。“开发”对于最大化当前这一时刻的期望收益是正确的做法,但是“试探”从长远来看可能会带来总体收益的最大化。比如说,假设一个贪心动作的价值是确切知道的,而另外几个动作的估计价值与之差不多但是有很大的不确定性。这种不确定性足够使得至少一个动作实际上会好于贪心动作,但是你不知道是哪一个。如果你还有很多时刻可以用来做选择,那么对非贪心的动作进行试探并且发现哪一个动作好于贪心动作也许会更好。在试探的过程中短期内收益较低,但是从长远来看收益更高,因为你在发现了更好的动作后,你可以很多次地利用它。值得一提的是,在同一次动作选择中,开发和试探是不可能同时进行的,这种情况就是我们常常提到的开发和试探之间的冲突。

在一个具体案例中,到底选择“试探"还是“开发”一种复杂的方式依赖于我们得到的函数估计、不确定性和剩余时刻的精确数值。在多臂赌博机及其相关的问题中,对于不同的数学建模,有很多复杂方法可以用来平衡开发和试探。然而,这些方法中有很多都对平稳情况和先验知识做出了很强的假设。而在实际应用以及完全的强化学习问题中,这些假设要么难以满足,要么无法被验证。而在理论假设不成立的情况下,这些方法的最优性或有界损失性是缺乏保证的。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


http://www.niftyadmin.cn/n/5146972.html

相关文章

第二证券:机构策略:市场预期改善 把握底部机会

第二证券指出,数据显现,比照前史同期,当时盈利增速水平相对较低,但从年内趋 势来看,本年三季报全A非金融盈利同比较半年报已有所上升。可比口径 下,全A非金融三季报营收同比增加0.9%,净利润同比…

Python二分搜索

python总结: 二分搜索leetcode 二分搜索

配置Raspberry自动连接WIFI,在无法查看路由器的校园网情况下使用自己电脑热点

1、开启电脑热点,并共享电脑WLAN2 打开控制面板->网络和Internet->网络连接 选择自己的校园网,我这里是WLAN2,右键属性,如下操作: 如果没有看到 本地连接*10类似的图标 则按如下操作:winx键&#x…

在紫光同创盘古50K开发板上进行DDR读写测试

本原创文章由深圳市小眼睛科技有限公司创作,版权归本公司所有,如需转载,需授权并注明出处 适用于板卡型号: 紫光同创PGL50H开发平台(盘古50K开发板) 一:软硬件平台 软件平台:PDS_…

[笔记] str、str、*str的指向关系

参考博客:一图搞懂&str、str、*str的指向关系 当你在函数中运行到下面代码时 unsigned char *str; 系统会在栈中创建一个临时的指针变量str,为其分配一个地址&str。 str表示:变量str 指向的地址, *str表示:指向的地址存储…

知识扩展集锦

日志数据于可观测的意义及日志运维场景和工具实践: https://zhuanlan.zhihu.com/p/615512773

iZotope Ozone 11 Advanced for mac(臭氧11)11.0.0激活版

iZotope Ozone 11是一款功能丰富的母带处理工具,也是混音师和母带工程师工作中必备的工具之一。它能够满足母带的全部流程,包括均衡器(EQ)、压缩器(Comp)、限制器(Limiter)、多段宽度…

openwrt编译顺畅教程DJ整理版附带细节

开源官方:https://github.com/openwrt/openwrt 更新: sudo apt update -y sudo apt full-upgrade -y sudo apt install -y ack antlr3 asciidoc autoconf automake autopoint binutils bison build-essential \ bzip2 ccache cmake cpio curl device-tree-compiler fastjar …