强化学习笔记---入门简介

news/2024/5/19 1:53:10 标签: 强化学习, 人工智能

机器学习可以分为3类:有监督学习,无监督学习,强化学习

强化学习可以解决什么问题?

概括来说,强化学习所能解决的问题为连续决策问题,就是需要连续不断做出决策才能实现最终的目标的问题。

强化学习基本框架

代理(agent)执行动作对环境(enviroment)造成影响,代理没执行一次动作就会转移到下一状态,然互环境会反馈给代理新的状态(state)和奖励(reward);

强化学习的三个特征:
(1)强化学习是一个闭环问题;
(2)没有直接对该如何选择action的指示,需要试探搜索去发现哪个动作会产生最大的数字奖励;
(3)动作不仅会对影响直接的奖励,还会影响接下来的环境状态。

强化学习的要素:
(1)policy(策略):从感知到的enviroment的state到在这些state下要执行的action;
(2)reward signal(奖励信号):a 定义了强化学习的目标;b reward signal可能是enviroment state和采取的action的函数。
(3)value function(值函数):reward signal表示的是在直接感受下哪个是好的,而value function则是表示从长期来看,什么是好的,reward是首要的,而value是其次的,没有reward就没有value,但当我们坐决策时,更关注的是value,对于action的选择是基于value来判断的,reward是由enviroment直接给出的,但value是需要对agent的整个执行时间内的情况进行观察,以此来对value进行估计和重估计。
(4) model of the enviroment (环境模型)
环境模型是用来模拟真实enviroment的行径的,或者说是对enviroment会如何表现的推断。


http://www.niftyadmin.cn/n/1037874.html

相关文章

强化学习算法---Q-learning

Q-learning 算法的步骤&#xff1a; <1> 给定参数lamda和奖励矩阵R <2>令Q[]为0 <3> for each episode 3.1 随机选择初始的状态s 3.2 未达到目标状态&#xff0c;则执行以下几步&#xff1a; &#xff08;1&#xff09;在当前状态s的所有可能行为中选取一个行…

vue学习---vuex

Vuex就是用来管理状态的&#xff1b; Vuex使用Store对象&#xff0c;来保存和管理整个应用的状态。 Store对象&#xff0c;它包含以下的一些方法&#xff1a; -state&#xff0c;存储状态的 &#xff0c;&#xff08;其实就是存放数据的地方&#xff0c;所有的数据都存放在这里…

基于二分查找的抽签游戏算法的优化

基于二分查找的抽签游戏算法的优化 问题描述&#xff1a; 一个袋子里有n个纸片&#xff0c;纸片上有数字&#xff0c;你随机取出4张纸&#xff08;有放回&#xff09;&#xff0c;若四张纸的数字和为m&#xff0c;你就赢了&#xff0c;否则你就输了。连续试了几次后你都失败了…

自我学习总结之——NFV

NFV –DFC 1.什么是NFV? 网络功能虚拟化NFV(Network Functions Virtualization)在NFV出现之前设备的专业化很突出,具体设备都有其专门的功能实现,而之后设备的控制平面与具体设备进行分离,不同设备的控制平面基于虚拟机,虚拟机基于云操作系统,这样当企业需要部署新业务…

深度优先DFS搜索算法

深度优先DFS搜索 什么是深度优先搜索&#xff1f; 深度优先搜索&#xff08;DFS ,Depth-First Search&#xff09;是搜索手段之一。它从某个状态&#xff0c;不断地转移状态直到无法转移&#xff0c;然后回退到前一步的状态&#xff0c;继续转移到其他状态&#xff0c;如此不断…

宽度优先搜索BFS算法

宽度优先搜索BFS算法 什么是宽度优先搜索&#xff1f; 宽度优先搜索&#xff08;BFS,Breadth_First Search&#xff09;总是优先搜索距离初始状态近的状态&#xff0c;也就是说&#xff0c;他是按照开始状态->只需一次转移就可以到达的所有状态->只需两次转移就可以到达…

vue学习---mockjs

什么是mockjs&#xff1f; Mockjs是一款模拟数据生成器&#xff0c;它可以帮助前段工程师独立于后端进行开发&#xff0c;帮助编写单元测试。Mockjs能做什么&#xff1f; 提供了游侠模拟功能&#xff1a; 1、模拟数据模板生成模拟数据&#xff1b; 2、模拟ajax请求&#xff0c;…

基于bfs搜索算法的迷宫最短路径游戏

基于bfs搜索算法的迷宫最短路径游戏 废话不多说&#xff1a;因为在我的上一篇博客里已经提到了bfs算法.花了一天的时间写的一个小游戏&#xff0c;虽然界面不怎么样&#xff0c;但是算法确实很难写。因为不知道怎么上传文件&#xff08;不然我就整个项目上传了&#xff09;直接…