深入理解强化学习——序列决策(Sequential Decision Making)

分类目录:《深入理解联邦学习》总目录


在本文中我们将介绍序列决策(Sequential Decision Making)过程中的各个过程。

智能体与环境

强化学习研究的问题是智能体与环境交互的问题,下图左边的智能体一直在与下图右边的环境进行交互。智能体把它的动作输出给环境,环境取得这个动作后会进行下一步,把下一步的观测与这个动作带来的奖励返还给智能体。这样的交互会产生很多观测,智能体的目的是从这些观测之中学到能最大化奖励的策略。
智能体与环境

奖励

奖励是由环境给的一种标量的反馈信号(Scalar Feedback Signal),这种信号可显示智能体在某一步采取某个策略的表现如何。强化学习的目的就是最大化智能体可以获得的奖励,智能体在环境里面存在的目的就是最大化它的期望的累积奖励(Expected Cumulative Reward)。不同的环境中,奖励也是不同的。这里给大家举一些奖励的例子:

  • 比如一个象棋选手,他的目的是赢棋,在最后棋局结束的时候,他就会得到一个正奖励(赢)或 者负奖励(输)
  • 在股票管理里面,奖励由股票获取的奖励与损失决定
  • 在玩雅达利游戏的时候,奖励就是增加或减少的游戏的分数,奖励本身的稀疏程度决定了游戏的难度。

序列决策

在一个强化学习环境里面,智能体的目的就是选取一系列的动作来最大化奖励,所以这些选取的动作必须有长期的影响。但在这个过程里面,智能体的奖励其实是被延迟了的,就是我们现在选取的某一步动作,可能要等到很久后才知道这一步到底产生了什么样的影响。如下图所示,在玩雅达利的Pong游戏时,我们可能只有到最后游戏结束时,才知道球到底有没有被击打过去。过程中我们采取的上升或下降动作,并不会直接产生奖励。强化学习里面一个重要的课题就是近期奖励和远期奖励的权衡,研究怎么让智能体取得更多的远期奖励。
Pong游戏

在与环境的交互过程中,智能体会获得很多观测。针对每一个观测,智能体会采取一个动作,也会得到一个奖励。所以历史是观测、动作、奖励的序列:
H t = o 1 , a 1 , r 1 , o 2 , a 2 , r 2 , ⋯   , o t , a t , r t H_t=o_1, a_1, r_1, o_2, a_2, r_2, \cdots, o_t, a_t, r_t Ht=o1,a1,r1,o2,a2,r2,,ot,at,rt

智能体在采取当前动作的时候会依赖于它之前得到的历史,所以我们可以把整个游戏的状态看成关于这个历史的函数:
S t = f ( H t ) S_t=f(H_t) St=f(Ht)

状态是对世界的完整描述,不会隐藏世界的信息。观测是对状态的部分描述,可能会遗漏一些信息。在深度强化学习中,我们几乎总是用实值的向量、矩阵或者更高阶的张量来表示状态和观测。例如, 我们可以用RGB像素值的矩阵来表示一个视觉的观测,可以用机器人关节的角度和速度来表示一个机器人的状态。

环境有自己的函数 s t e = f ( H t e ) s^e_t=f(H_t^e) ste=f(Hte)来更新状态,在智能体的内部也有一个函数 s t a = f ( H t a ) s^a_t=f(H_t^a) sta=f(Hta)来更新状态。当智能体的状态与环境的状态等价的时候,即当智能体能够观察到环境的所有状态时,我们称这个环境是完全可观测的(Fully Observed)。在这种情况下面,强化学习通常被建模成一个马尔可夫决策过程 (Markov Decision Process,MDP)的问题。在马尔可夫决策过程中,我们有 o t = s t e = s t a o_t=s^e_t=s^a_t ot=ste=sta

但是有一种情况是智能体得到的观测并不能包含环境运作的所有状态,因为在强化学习的设定里面, 环境的状态才是真正的所有状态。比如智能体在玩Black Jack游戏,它能看到的其实是牌面上的牌。或者在玩雅达利游戏的时候,观测到的只是当前电视上面这一帧的信息,我们并没有得到游戏内部里面所有的运作状态。也就是当智能体只能看到部分的观测,我们就称这个环境是部分可观测的(Partially Observed)。在这种情况下,强化学习通常被建模成部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)的问题。部分可观测马尔可夫决策过程是马尔可夫决策过程的一种泛化。部分可观测马尔可夫决策过程依然具有马尔可夫性质,但是假设智能体无法感知环境的状态,只能知道部分观测值。比如在自动驾驶中,智能体只能感知传感器采集的有限的环境信息。部分可观测马尔可夫决策过程可以用一个七元组描述: ( S , A , T , R , Ω , O , γ ) (S, A, T, R, \Omega, O, \gamma) (S,A,T,R,Ω,O,γ),其中 S S S表示状态空间,是一个隐变量, A A A为动作空间, T ( s ′ ∣ s , a ) T(s'|s, a) T(ss,a)为状态转移概率, R R R为奖励函数, Ω ( o ∣ s , a ) \Omega(o|s, a) Ω(os,a)为观测概率, O O O为观测空间, γ \gamma γ为折扣系数。

参考文献:
[1] 杨强, 刘洋, 程勇, 康焱, 陈天健, 于涵. 联邦学习[M]. 电子工业出版社, 2020
[2] 微众银行, FedAI. 联邦学习白皮书V2.0. 腾讯研究院等, 2021


http://www.niftyadmin.cn/n/5083898.html

相关文章

扫描器(xray和bp联动)

文章目录 分类主动扫描和被动扫描bp与xray联动 分类 扫描器分为对web的扫描器和对主机的扫描器 主动扫描和被动扫描 主动扫描: 输入某个URL,然后由扫描器中的爬虫模块爬取所有链接,对GET、POST等请求进行参数变形和污染,进行重放测…

01Linux基础

附件:day26–linux入门.pdf Linux是 基于Unix 的开源免费的操作系统,由于系统的稳定性和安全性几乎成为程序代码运行的最佳系统环境。 (程序基本上在Linux上发布) Linux系统的应用非常广泛,不仅可以长时间的运行我们编写的程序代…

微软警告国家级黑客正在利用关键的Atlassian Confluence漏洞

导语:近日,微软发布警告称,国家级黑客组织正在利用Atlassian Confluence的关键漏洞进行攻击。该漏洞已被微软追踪到一个名为Storm-0062(又称DarkShadow或Oro0lxy)的黑客组织。微软的威胁情报团队表示,他们自…

2024届通信工程保研经验分享(预推免入营即offer)

2024届通信工程保研经验分享(预推免入营即offer) BackGround夏令营情况:预推免情况: BackGround 本科院校:末九 专业:通信工程 rank:3/123(预推免绩点排名)&#xff0…

UE4和C++ 开发-C++绑定widget的方式和初始化UI

C绑定widget的方式有两种,一种是使用meta (BindWidget),一种是使用GetWidgetFromName(TEXT("")),两种方式都可以。一、meta BindWidget方式 注意这种绑定的方式UMG里面的空间名称需要与C里面声明的变量名称相同 Btn_StartU 二、GetWidge…

LeetCode【15】三数之和

题目&#xff1a; 解析&#xff1a; 参考&#xff1a;https://zhuanlan.zhihu.com/p/111715985 代码&#xff1a; public static List<List<Integer>> threeSum(int[] nums) {// 先排序Arrays.sort(nums);List<List<Integer>> result new ArrayLis…

众佰诚:开一家抖音小店需要交押金不?

随着电商行业的不断发展&#xff0c;越来越多的商家开始尝试在不同的平台上开设自己的店铺。抖音作为国内最热门的短视频平台之一&#xff0c;也吸引了众多商家的目光。那么&#xff0c;开一家抖音小店需要交押金吗?接下来&#xff0c;我们就来详细了解一下。 首先&#xff0c…

房产中介租房小程序系统开发搭建

随着移动互联网的发展&#xff0c;租房小程序已经成为许多房产中介公司转型线上的重要工具。通过租房小程序&#xff0c;房产中介公司可以方便地展示房源信息、吸引租户、达成交易。那么&#xff0c;如何通过乔拓云网开发租房小程序呢&#xff1f;下面是详细的开发指南。 1.进入…