深入理解强化学习——多臂赌博机:动作一价值方法

分类目录:《深入理解强化学习》总目录


本文我们来详细分析估计动作的价值的算法。我们使用这些价值的估计来进行动作的选择,这一类方法被统称为“动作一价值方法"。如前文所述,动作的价值的真实值是选择这个动作时的期望收益。因此,一种自然的方式就是通过计算实际收益的平均值来估计动作的价值:
Q t ( a ) = t 时刻前通过执行动作 a 得到的收益总和 t时刻前通过执行动作a的总次数 = ∑ i = 1 t − 1 R i I ( A i = a ) ∑ i = 1 t − 1 I ( A i = a ) Q_t(a)=\frac{t\text{时刻前通过执行动作}a\text{得到的收益总和}}{\text{t\text{时刻前通过执行动作}a\text{的总次数}}}=\frac{\sum_{i=1}^{t-1}R_i\mathbb{I}(A_i=a)}{\sum_{i=1}^{t-1}\mathbb{I}(A_i=a)} Qt(a)=t时刻前通过执行动作a的总次数t时刻前通过执行动作a得到的收益总和=i=1t1I(Ai=a)i=1t1RiI(Ai=a)

其中, I \mathbb{I} I表示随机变量,当预测为真时其值为1,反之为0。当分母为0时,我们将 Q t ( a ) Q_t(a) Qt(a)定义为某个默认值,比如 Q t ( a ) = 0 Q_t(a)=0 Qt(a)=0。当分母趋向无穷大时,根据大数定律, Q t ( a ) Q_t(a) Qt(a)会收敛到 q ∗ ( a ) q_*(a) q(a)。我们将这种估计动作价值的方法称为采样平均方法,因为每一次估计都是对相关收益样本的平均。当然,这只是估计动作价值的一种方法,而且不一定是最好的方法。我们继续使用这个简单的估计方法,讨论如何使用估计值来选择动作。

最简单的动作选择规则是选择具有最高估计值的动作,即前一节所定义的贪心动作。如果有多个贪心动作,那就任意选择一个,比如随机挑选。我们将这种贪心动作的选择方法记作:
A t = arg ⁡ max ⁡ a Q t ( a ) A_t=\arg\max_a Q_t(a) At=argamaxQt(a)

其中, arg ⁡ max ⁡ a \arg\max_a argmaxa是使得 Q t ( a ) Q_t(a) Qt(a)值最大的动作 a a a。选择的贪心动作总是利用当前的知识最大化眼前的收益。这种方法根本不花时间去尝试明显的劣质动作,看看它们是否真的会更好。贪心策略的一个简单替代策略是大部分时间都表现得贪心,但偶尔(比如以一个很小的概率 ϵ \epsilon ϵ)以独立于动作一价值估计值的方式从所有动作中等概率随机地做出选择。我们将使用这种近乎贪心的选择规则的方法称为 ϵ − \epsilon- ϵ贪心方法。这类方法的一个优点是,如果时刻可以无限长,则每一个动作都会被无限次采样,从而确保所有的 Q t ( a ) Q_t(a) Qt(a)收敛到 q ∗ ( a ) q_*(a) q(a)。这当然也意味着选择最优动作的概率会收敛到大于 1 − ϵ 1-\epsilon 1ϵ,即接近确定性选择。然而,这只是渐近性的保证,并且鲜有人提到这类方法的实际效果。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


http://www.niftyadmin.cn/n/5153775.html

相关文章

【软件测试】测试用例写作规范

通用测试用例写作规范 软件测试用例得出软件测试用例的内容,其次,按照软件测试写作方法,落实到文档中,两者是形式和内容的关系,好的测试用例不仅方便自己和别人查看,而且能帮助设计的时候考虑的更周。 一…

[BUUCTF NewStar 2023] week5 Crypto/pwn

最后一周几个有难度的题 Crypto last_signin 也是个板子题,不过有些人存的板子没到,所以感觉有难度,毕竟这板子也不是咱自己能写出来的。 给了部分p, p是1024位给了922-101位差两头。 from Crypto.Util.number import * flag b?e 655…

JavaScript_Date对象_实例方法_set类

设置一年后的今天&#xff1a; <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Document</…

告知粉丝 重要

告知! 亲爱的粉丝朋友们&#xff0c;由于CSDN(博客)平台的限制&#xff0c;被迫转入 公众号!希望粉丝朋友们谅解!我们也是被逼无奈~~ 但我们还是会在CSDN(博客)发文章&#xff0c;但很少。 如果想要接触更好的文章请关注我们公众号&#xff0c;谢谢! 微信公众号:

AI写作神器,轻松搞定职场公文写作!

在当今数字化时代&#xff0c;人工智能技术的快速发展为各行各业带来了许多便利&#xff0c;因为AI写作的普及&#xff0c;使许多职场人士能够更加快速地撰写出高质量的公文&#xff0c;作为一家引领智能AI写作潮流的在线平台&#xff0c;boardmix博思白板以其独特的优势在这个…

立创eda专业版学习笔记(7)(阻焊开窗)

阻焊开窗是什么&#xff1f; 在介绍阻焊开窗之前&#xff0c;我们首先要知道阻焊层是什么。阻焊层是指印刷电路板子上要上油墨的部分&#xff0c;用于覆盖走线和敷铜&#xff0c;以保护PCB上的金属元素和防止短路。阻焊开窗是指在阻焊层上开一个口&#xff0c;以便在开口的位置…

Qt全局定义

一、QtGlobal头文件 头文件中包含了Qt类库的一些全局定义&#xff0c;包括&#xff1a; 基本数据类型全局函数宏定义 二、基本数据类型 三、全局函数 四、宏定义 1.Qt版本相关的宏 1.1 QT_VERSION 这个宏展开为数值形式 0xMMNNPP (MM major, NN minor, PP patch) 表示…

多模态最新经典论文合集,涵盖预训练、表征学习、多模态融合

最近多模态相关的论文好火&#xff0c;原因就不多说了&#xff08;懂得都懂&#xff09;&#xff0c;因为有不少想发paper的同学来问了&#xff0c;我就火速整理了一部分来和你们分享。 这次整理了6篇最新的多模态论文&#xff0c;还有12篇经典的文章&#xff0c;主要涉及预训…