深入理解强化学习——多臂赌博机:上下文相关的赌博机(关联搜索任务)

news/2024/5/18 21:47:30 标签: 人工智能, 强化学习, 深度强化学习

分类目录:《深入理解强化学习》总目录


《深入理解强化学习——多臂赌博机》系列文章到此为止,只考虑了非关联的任务,对它们来说,没有必要将不同的动作与不同的情境联系起来。在这些任务中,当任务是平稳的时候,学习器会试图寻找一个最佳的动作;当任务是非平稳的时候,最佳动作会随着时间的变化而改变,此时它会试着去追踪最佳动作。然而,在一般的强化学习任务中,往往有不止一种情境,它们的目标是学习一种策略:一个从特定情境到最优动作的映射。为了进行一般性问题分析,下面我们简要地探讨从非关联任务推广到关联任务的最简单的方法。

举个例子,假没有一系列不同的臂赌博机任务,每一步你都要随机地面对其中的一个。因此,赌博机任务在每一步都是随机变化的。从观察者的角度来看,这是一个单一的、非平稳的臂赌博机任务,其真正的动作价值是每步随机变化的。我们可以尝试使用本系列文章中描述的处理非平稳情况的方法,但是除非真正的动作价值的改变是非常缓慢的,否则这些方法不会有很好的效果。现在假设,当我们遇到某一个多臂赌博机任务时,我们会得到关于这个任务的编号的明显线索(但不是它的动作价值)。也许我们面对的是一个真正的老虎机,它的外观颜色与它的动作价值集合一一对应,动作价值集合改变的时候,外观颜色也会改变。那么,现在你可以学习一些任务相关的操作策略,例如,用你所看到的颜色作为信号,把每个任务和该任务下最优的动作直接关联起来,比如,如果为红色,则选择1号臂;如果为绿色,则选择2号臂。有了这种任务相关的策略,在知道任务编号信息时,你通常要比不知道任务编号信息时做得更好。
这是一个关联搜索任务的例子,因为它既涉及采用试错学习去搜索最优的动作,又将这些动作与它们表现最优时的情境关联在一起`:关联搜索任务现在通常在文献中被称为上下文相关的赌博机。关联搜索任务介于k臂赌博机问题和完整强化学习问题之间。它与完整强化学习问题的相似点是,它需要学习一种策略。但它又与臂赌博机问题相似,体现在每个动作只影响即时收益。如果允许动作可以影响下一时刻的情境和收益,那么这就是完整的强化学习问题。我们会在下一章中提出这个问题,并在本书的其他章节中研究它。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


http://www.niftyadmin.cn/n/5174099.html

相关文章

Ubuntu 24.04发布日期以定

导读Ubuntu 的下一个长期支持 (LTS) 版本 Ubuntu 24.04 的最终发布日期已确定,计划于 2024 年 4 月 25 日发布。 Ubuntu 的下一个长期支持 (LTS) 版本 Ubuntu 24.04 的最终发布日期已确定,计划于 2024 年 4 月 25 日发布。 除此之外,Ubuntu…

第七章、python的变量、函数及其应用(7.3-7.6)------匿名函数lambda、嵌套函数、闭包、装饰器

目录 7.3 匿名函数lambda 7.4 嵌套函数(Nested Function) 7.5 闭包(Closure) 7.6 装饰器 7.3 匿名函数lambda 关键字lambda可以定义一个匿名函数,匿名函数是关键字def定义的标准函数的简化形式,匿名函数只适合比较简单的函数,对于太复杂的函数只适合def来定义。匿名函数的用…

【Phoenix】目录结构

当我们通过 mix phx.new 命令生成一个新的Phoenix应用时,它会创建以下目录结构: ├── _build ├── assets ├── config ├── deps ├── lib │├── hello │├── hello.ex │├── hello_web │└── hello_web.ex ├── priv └── …

自定义类型:联合和枚举

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 1. 联合体 1.1 联合体类型的声明 1.2 联合体的特点 1.3 相同成员的结构体和联合体对比 1.4 联合体大小的计算 1.5 联合的一个练习 2. 枚举类型 2.1 枚举类型的声明…

mysql8安装和驱动jar包下载

方式一:基于docker安装 下拉镜像 docker pull mysql:8.0.21 启动镜像 docker run -p 3307:3306 --name mysql -e MYSQL_ROOT_PASSWORDhadoop -d mysql:8.0.21 启动成功后,进入容器内部拷贝配置文件,到宿主主机 docker cp mysql:/etc/mysql…

Sprint Boot 学习路线 5

Spring MVC Spring MVC是Spring框架的一部分,是一个Web应用程序框架。它旨在使用Model-View-Controller(MVC)设计模式轻松构建Web应用程序。 在Spring MVC中,应用程序被分为三个主要组件:Model、View和Controller。M…

面向对象特征【继承性】

文章目录 基本概念继承的语法继承性的细节方法的重写方法重写的要求 基本概念 继承性允许子类继承父类的属性和方法。在Java中,使用关键字extends来实现继承。例如: class Animal {void eat() {System.out.println("动物正在吃");} }class D…

操作系统(二)内存管理的基础知识

文章目录 前言内存管理地址空间与地址生成连续内存分配内存碎片连续分配算法碎片整理 非连续内存分配虚拟内存管理虚拟内存地址内存分段内存分页段页式内存管理虚拟内存的覆盖技术虚拟内存的交换技术 缺页异常内存页面置换算法局部页面置换算法Belady现象全局页面置换算法抖动和…