深入理解强化学习——马尔可夫决策过程：状态价值函数

深入理解强化学习——马尔可夫决策过程：状态价值函数

news/2024/5/19 1:53:06 标签: 人工智能, 强化学习, 深度强化学习, 马尔可夫决策过程, 马尔可夫奖励过程, 马尔可夫过程, 马尔科夫决策过程

分类目录：《深入理解强化学习》总目录

我们用 $V^*(s)$ 表示在马尔可夫决策过程中基于策略 $\pi$ 的状态价值函数（State-value Function），定义为从状态 $s$ 出发遵循策略 $\pi$ 能获得的期望回报，数学表达为：
$V_\pi(s)=E_{\pi}[G_t|s_t=s]$

其中，期望基于我们采取的策略。当策略决定后，我们通过对策略进行采样来得到一个期望，计算出它的价值函数。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

http://www.niftyadmin.cn/n/5208935.html

相关文章

Django之Cookie与Session，CBV加装饰器

Django之Cookie与Session，CBV加装饰器

前言会话跟踪技术在一个会话的多个请求中共享数据，这就是会话跟踪技术。例如在一个会话中的请求如下：  请求银行主页； 请求登录（请求参数是用户名和密码）；请求转账（请求参数与转账相关的数…

阅读更多...

Windows如何截取屏幕图片以及动态图

Windows如何截取屏幕图片以及动态图

在制作PPT或是其他演示文稿或是说明文档的时候， 常常需要截取网页或是屏幕的截图，在Windows中有多种方式可以实现截取屏幕。 Windows 截取屏幕图片的方式在Windows 中截取屏幕中某个区块的方式有： 方式1. 最原始的方式： 点击 …

阅读更多...

【华为数通HCIP | 网络工程师】821-IGP高频题、易错题之OSPF（2）

【华为数通HCIP | 网络工程师】821-IGP高频题、易错题之OSPF（2）

个人名片： 🐼作者简介：一名大三在校生，喜欢AI编程🎋 🐻‍❄️个人主页🥇：落798. 🐼个人WeChat：hmmwx53 🕊️系列专栏：🖼️…

阅读更多...

在ASP.NET Core 中使用 .NET Aspire 消息传递组件

在ASP.NET Core 中使用 .NET Aspire 消息传递组件

前言云原生应用程序通常需要可扩展的消息传递解决方案，以提供消息队列、主题和订阅等功能。.NET Aspire 组件简化了连接到各种消息传递提供程序（例如 Azure 服务总线）的过程。在本教程中，小编将为大家介绍如何创建一个 ASP.NET …

阅读更多...

预处理机制

预处理机制

跟着肯哥（不是我）学预处理机制预处理类别宏定义：#define 将文本替换为表达式或语句条件编译：#ifdef、#ifndef和#if、#elif、#endif 根据标识符是否被定义选择编译代码头文件包含：#include 将其他文件&#x…

阅读更多...

【理解ARM架构】操作寄存器实现UART | 段的概念 | IDE背后的命令

【理解ARM架构】操作寄存器实现UART | 段的概念 | IDE背后的命令

🐱作者：一只大喵咪1201 🐱专栏：《理解ARM架构》 🔥格言：你只管努力，剩下的交给时间！ 目录 🍠操作寄存器实现UART🍟UART原理🍟编程 🍠…

阅读更多...

大语言模型——BERT和GPT的那些事儿

大语言模型——BERT和GPT的那些事儿

前言自然语言处理是人工智能的一个分支。在自然语言处理领域，有两个相当著名的大语言模型——BERT和GPT。两个模型是同一年提出的，那一年BERT以不可抵挡之势，让整个人工智能届为之震动。据说当年BERT的影响力是GPT的十倍以上。而现在&#…

阅读更多...

十八、初识elasticsearsh （索引）

十八、初识elasticsearsh （索引）

目录一、Elasticsearch的介绍： 二、正向索引和倒排索引 1、正向索引 2、倒排索引 3、索引(index) :相同类型的文档的集合 4、映射(mapping):索引中文档的字段约束信息，类似表的结构约束一、Elasticsearch的介绍： Elasticsearch是一个…

阅读更多...

最新文章