深入理解强化学习——强化学习智能体的四要素:价值函数(Value Function)

分类目录:《深入理解强化学习》总目录
相关文章:
· 强化学习智能体的四要素:策略(Policy)
· 强化学习智能体的四要素:收益信号(Revenue Signal)
· 强化学习智能体的四要素:价值函数(Value Function)
· 强化学习智能体的四要素:模型(Model)


对于一个强化学习智能体,它可能有一个或多个如下的组成成分:

  • 策略(Policy):智能体会用策略来选取下一步的动作
  • 收益信号(Revenue Signal):在每一步中,环境向强化学习智能体发送一个标量数值,收益信号是改变策略的主要基础
  • 价值函数(Value Function):我们用价值函数来对当前状态进行评估,价值函数用于评估智能体进入某个状态后,可以对后面的奖励带来多大的影响。价值函数值越大,说明智能体进入这个状态越有利
  • 模型(Model):模型表示智能体对环境的状态进行理解,它决定了环境中世界的运行方式

本文就将探讨强化学习智能体的四要素中的价值函数。

价值函数的值是对未来奖励的预测,我们用它来评估状态的好坏。 价值函数里面有一个折扣因子(Discount Factor),我们希望在尽可能短的时间里面得到尽可能多的奖励。比如现在给我们两个选择:10天后给我们100块钱或者现在给我们100块钱。我们肯定更希望现在就给我们100块钱,因为我们可以把这100块钱存在银行里面,这样就会有一些利息。因此,我们可以把折扣因子放到价值函数的定义里面,价值函数的定义为: V π ( s ) ≈ E π [ G t ∣ s t = s ] = E π [ ∑ k = 0 ∞ γ k r t + k + 1 ∣ s t = s ] V_\pi(s)\approx E_\pi[G_t|s_t=s]=E_\pi[\sum_{k=0}^\infty\gamma^kr_{t+k+1}|s_t=s] Vπ(s)Eπ[Gtst=s]=Eπ[k=0γkrt+k+1st=s]

其中,对于所有的 s ∈ S s\in S sS,期望 E π E_\pi Eπ的下标是 π \pi π函数, π \pi π函数的值可反映在我们使用策略 π \pi π的时候,到底可以得到多少奖励。

我们还有一种价值函数:Q函数。Q函数里面包含两个变量:状态和动作。其定义为:
Q π ( s , a ) ≈ E π [ G t ∣ s t = s , a t = a ] = E π [ ∑ k = 0 ∞ γ k r t + k + 1 ∣ s t = s , a t = a ] Q_\pi(s, a)\approx E_\pi[G_t|s_t=s, a_t=a]=E_\pi[\sum_{k=0}^\infty\gamma^kr_{t+k+1}|s_t=s, a_t=a] Qπ(s,a)Eπ[Gtst=s,at=a]=Eπ[k=0γkrt+k+1st=s,at=a]

所以我们未来可以获得奖励的期望取决于当前的状态和当前的动作。Q函数是强化学习算法里面要学习的一个函数。因为当我们得到Q函数后,进入某个状态要采取的最优动作可以通过Q函数得到。

收益信号表明了在短时间内什么是好的,而价值函数则表示了从长远的角度看什么是好的。简单地说,一个状态的价值是一个智能体从这个状态开始,对将来累积的总收益的期望。尽管收益决定了环境状态直接、即时、内在的吸引力,但价值表示了接下来所有可能状态的长期期望。例如,某状态的即时收益可能很低,但它仍然可能具有很高的价值,因为之后定期会出现高收益的状态,反之亦然。用人打比方,收益就像即时的愉悦(高收益)和痛苦(低收益),而价值则是在当前的环境与特定状态下,对我们未来究竟有多愉悦或多不愉悦的更具有远见的判断。

从某种意义上来说,收益更加重要,而作为收益预测的价值次之。没有收益就没有价值,而评估价值的唯一目的就是获得更多的收益。然而,在制定和评估策略时,我们最关心的是价值。动作选择是基于对价值的判断做出的。我们寻求能带来最高价值而不是最高收益的状态的动作,因为这些动作从长远来看会为我们带来最大的累积收益。不幸的是,确定价值要比确定收益难得多。收益基本上是由环境直接给予的,但是价值必须综合评估,并根据智能体在整个过程中观察到的收益序列重新估计。事实上,价值评估方法才是几乎所有强化学习算法中最重要的组成部分。价值评估的核心作用可以说是我们在过去60年里所学到的关于强化学习的最重要的东西。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


http://www.niftyadmin.cn/n/5095519.html

相关文章

(C++ STL) 详解vector模拟实现

目录 一.vector的介绍 1.vector的介绍 二.vector的定义模拟实现 三.vector各接口的模拟实现 1.vector迭代器的模拟实现 2.构造函数 2.1无参构造 2.2 n个val构造 2.3迭代器区间构造 2.4通过对象初始化(拷贝构造) 3.析构函数 4.size 5.operato…

【面试经典150 | 区间】合并区间

文章目录 Tag题目来源题目解读解题思路方法一:一次遍历 其他语言python3 写在最后 Tag 【排序】【一次遍历】【数组】 题目来源 56. 合并区间 题目解读 题目意思非常明确,合并有重叠的区间。 解题思路 数据量为 1 0 4 10^4 104,基本上需…

Mac OS m1 下安装Gradle4.8.1

1. 下载、解压 1.1 下载地址 https://gradle.org 往下翻 或者选择 任何 你想要的版本 ,点击 binary-only 即可下载 . 1.2 解压到指定目录 2. 配置环境变量 2.1 编辑环境文件 vi ~/.bash_profile #GRADLE相关配置 GRADLE_HOME/Users/zxj/Documents/devSoft/gradle-4.8.1 e…

解密zkLogin:探索前沿的Sui身份验证解决方案

由于钱包复杂性导致的新用户入门障碍是区块链中一个长期存在的问题,而zkLogin是其简单的解决方案。通过使用前沿的密码学和技术,zkLogin既优雅又复杂。本文深入探讨了zkLogin的工作原理,涵盖了用户和开发者的安全性方面,并解释了S…

NGF ; -R : Trk NTRK

NTRK基因融合的机制与靶向治疗 - 知乎 【NTRK基因】共识已发布,24款获证,2款NGS产品已布局

了解容器运行时安全:保护你的容器应用

前言 容器是一种虚拟化技术,用于封装和运行应用程序及其依赖项,以便在不同的计算环境中保持一致性和可移植性。自2013年容器诞生至今,容器Docker镜像的下载量超20亿,虽然容器行业发展如火如荼,但是其安全风险却不容乐…

推荐一个很好的vuepress doc模板

直接上图吧,比较适合做知识库或项目文档库。 在访问一个开源项目JustAuth的时候,发现的这个主题,值得收藏一下。 GitHub - xugaoyi/vuepress-theme-vdoing: 🚀一款简洁高效的VuePress知识管理&博客(blog)主题

【深度学习实验】循环神经网络(三):门控制——自定义循环神经网络LSTM(长短期记忆网络)模型

目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 三、实验内容 0. 导入必要的工具包 1. LSTM类 a.__init__(初始化) b. init_state(初始化隐藏状态) c. forward(前向传播) 2. RNNModel类 a.__init__&am…