马尔科夫过程,马尔科夫奖励过程和马尔科夫决策过程

news/2024/5/19 1:12:23 标签: 强化学习, 人工智能

在这里插入图片描述
马尔科夫决策过程是强化学习中的一个基本框架,用来表示agent与环境的交互过程:agent观测得到环境的当前状态之后,采取动作,环境进入下一个状态,agent又得到下一个环境状态的信息,形成一个循环回路。
在理解马尔科夫决策过程之前,首先要理解马尔科夫、马尔科夫奖励过程。

1. 马尔科夫过程

满足马尔科夫性质的状态转换过程是马尔科夫过程;
什么是马尔科夫性质呢?
在环境状态的转换过程中,环境的下一个状态只取决于当前状态,和历史状态无关,即满足马尔科夫性质。
在这里插入图片描述

2. 马尔科夫奖励过程

(1)马尔科夫链可以通过转移图转移矩阵这两种形式表示:
转移图
在这里插入图片描述
转移矩阵
在这里插入图片描述
(2) 马尔科夫奖励过程:马尔科夫链加上奖励函数(价值函数)
(3) 马尔科夫奖励过程需要重点研究的是如何求解状态空间里每个状态的奖励函数
奖励: 马尔科夫奖励过程中,每次到达一个过程,会得到一个奖励,这个奖励是已知的。
Return(回报)? 当前状态之后的未来状态获取奖励(乘上折扣率)的累加值。这里计算的是一个特定的轨迹的Return
在这里插入图片描述
奖励函数:某个状态的奖励函数得到的是该状态的价值:Return的期望
在这里插入图片描述
问题:每个状态都有一个特定奖励函数吗?奖励函数的值等于价值,每个状态都有一个价值
Bellman Equation(贝尔曼等式):奖励函数的另一种计算方法
在这里插入图片描述求解奖励函数方法1:动态规划的方法(基于贝尔曼等式)
在这里插入图片描述
求解奖励函数方法2:蒙特卡罗(Monte Carlo)方法(基于采样求return期望)
具体地,例如:以状态S1为起始状态,可能接下来的状态转换轨迹是(S3、S4、S6),也可能是(S2、S3、S5)等等,总之可以通过产生大量的轨迹,每个轨迹都会得到一个 return,然后直接取一个平均,那么就可以等价于现在S1的价值。
在这里插入图片描述

3. 马尔科夫决策过程

在马尔科夫奖励过程中加入动作和策略,即是马尔科夫决策过程,策略是当前状态下采取某动作的概率。
在这里插入图片描述
状态价值函数:和马尔科夫奖励过程的价值函数类似
在这里插入图片描述
Q函数-动作价值函数:某一个状态采取某一个动作,得到一个return的期望
在这里插入图片描述
状态价值函数(价值函数)与动作价值函数的关系:对 Q 函数中的动作函数进行加和,就可以得到价值函数(状态价值函数)
在这里插入图片描述
状态价值函数的贝尔曼等式
在这里插入图片描述
动作价值函数的贝尔曼等式
在这里插入图片描述


http://www.niftyadmin.cn/n/1647778.html

相关文章

加油站的良好出发点问题

加油站的良好出发点问题 作者:Grey 原文地址: 博客园:加油站的良好出发点问题 CSDN:加油站的良好出发点问题 题目描述 题目链接 思路 暴力解法 O(N^2) 我们可以通过生成辅助数组来验证良好出发点 int[]h这个数组的长度和…

mysql 创建用户名及密码

CREATE USER 用户名 IDENTIFIED BY 密码; 如:CREATE USER kfcx IDENTIFIED BY kfcx123; 转载于:https://www.cnblogs.com/MUQINGFENG123/p/10861177.html

TypeError: ‘NoneType‘ object is not subscriptable

TypeError: ‘NoneType’ object is not subscriptable 错误的原因是:操作了None的变量,调用了None.方法,但空变量是没有方法的,所以报错;检查加个判断,当变量为空时,做另外的操作

不同种类软件的比较

作者:Grey 原文地址: 不同种类软件的比较 问题来源于《构建之法》第三版 P18页中的第4题 软件有很多种分类方法,下面是另一种: ShrinkWrap(在包装盒子里面的软件)、Web APP(基于网页的软件&…

先验分布:(三)Dirichlet分布的应用——LDA模型

LDA(Latent Dirichlet Allocation)模型是Dirichlet分布的实际应用。 在自然语言处理中,LDA模型及其许多延伸主要用于文本聚类、分类、信息抽取和情感分析等。 例如,我们要对许多新闻按主题进行分类。目前用的比较多的方法是:假设每篇新闻都有…

设计并发算法的方法论

一. 什么是并发?和并行的区别? 单个处理器上采用单核处理多个任务即为并发,在这种情况下,操作系统的调度程序会频繁且迅速地从一个任务切换到另一个任务,因此看起来所有任务是同时进行的; 而并行是在不同的…

二叉树的先,中,后序遍历(递归,非递归)

二叉树的先,中,后序遍历(递归,非递归) 作者:Grey 原文地址: 博客园:二叉树的先,中,后序遍历(递归,非递归) CSDN:二叉树的先,中,后…

NOIP复赛文件路径怎么写

以2018年NOIP普及组复赛为例,四道题对应着四个文件夹: 随便选一道题,比如第一道题,进入title目录,可以看到title1.in, title1.ans, title2.in, titles.ans。这四个文件放的是测试数据。title1.in放的是第一组输入数据&…