强化学习笔记---入门简介

强化学习笔记---入门简介

news/2024/5/19 1:53:10 标签: 强化学习, 人工智能

机器学习可以分为3类：有监督学习，无监督学习，强化学习；

强化学习可以解决什么问题？

概括来说，强化学习所能解决的问题为连续决策问题，就是需要连续不断做出决策才能实现最终的目标的问题。

强化学习基本框架

代理（agent）执行动作对环境（enviroment）造成影响，代理没执行一次动作就会转移到下一状态，然互环境会反馈给代理新的状态（state）和奖励（reward）；

强化学习的三个特征：
（1）强化学习是一个闭环问题；
（2）没有直接对该如何选择action的指示，需要试探搜索去发现哪个动作会产生最大的数字奖励；
（3）动作不仅会对影响直接的奖励，还会影响接下来的环境状态。

强化学习的要素：
（1）policy（策略）：从感知到的enviroment的state到在这些state下要执行的action；
（2）reward signal（奖励信号）：a 定义了强化学习的目标；b reward signal可能是enviroment state和采取的action的函数。
（3）value function（值函数）：reward signal表示的是在直接感受下哪个是好的，而value function则是表示从长期来看，什么是好的，reward是首要的，而value是其次的，没有reward就没有value，但当我们坐决策时，更关注的是value，对于action的选择是基于value来判断的，reward是由enviroment直接给出的，但value是需要对agent的整个执行时间内的情况进行观察，以此来对value进行估计和重估计。
（4） model of the enviroment （环境模型）
环境模型是用来模拟真实enviroment的行径的，或者说是对enviroment会如何表现的推断。

http://www.niftyadmin.cn/n/1037874.html

相关文章

强化学习算法---Q-learning

强化学习算法---Q-learning

Q-learning 算法的步骤： <1> 给定参数lamda和奖励矩阵R <2>令Q[]为0 <3> for each episode 3.1 随机选择初始的状态s 3.2 未达到目标状态，则执行以下几步： （1）在当前状态s的所有可能行为中选取一个行…

阅读更多...

vue学习---vuex

vue学习---vuex

Vuex就是用来管理状态的； Vuex使用Store对象，来保存和管理整个应用的状态。 Store对象，它包含以下的一些方法： -state，存储状态的 ，（其实就是存放数据的地方，所有的数据都存放在这里…

阅读更多...

基于二分查找的抽签游戏算法的优化

基于二分查找的抽签游戏算法的优化

基于二分查找的抽签游戏算法的优化问题描述： 一个袋子里有n个纸片，纸片上有数字，你随机取出4张纸（有放回），若四张纸的数字和为m，你就赢了，否则你就输了。连续试了几次后你都失败了…

阅读更多...

自我学习总结之——NFV

自我学习总结之——NFV

NFV –DFC 1.什么是NFV？网络功能虚拟化NFV（Network Functions Virtualization）在NFV出现之前设备的专业化很突出，具体设备都有其专门的功能实现，而之后设备的控制平面与具体设备进行分离，不同设备的控制平面基于虚拟机，虚拟机基于云操作系统，这样当企业需要部署新业务…

阅读更多...

深度优先DFS搜索算法

深度优先DFS搜索算法

深度优先DFS搜索什么是深度优先搜索？ 深度优先搜索（DFS ,Depth-First Search）是搜索手段之一。它从某个状态，不断地转移状态直到无法转移，然后回退到前一步的状态，继续转移到其他状态，如此不断…

阅读更多...

宽度优先搜索BFS算法

宽度优先搜索BFS算法

宽度优先搜索BFS算法什么是宽度优先搜索？ 宽度优先搜索（BFS,Breadth_First Search）总是优先搜索距离初始状态近的状态，也就是说，他是按照开始状态->只需一次转移就可以到达的所有状态->只需两次转移就可以到达…

阅读更多...

vue学习---mockjs

vue学习---mockjs

什么是mockjs？ Mockjs是一款模拟数据生成器，它可以帮助前段工程师独立于后端进行开发，帮助编写单元测试。Mockjs能做什么？ 提供了游侠模拟功能： 1、模拟数据模板生成模拟数据； 2、模拟ajax请求，…

阅读更多...

基于bfs搜索算法的迷宫最短路径游戏

基于bfs搜索算法的迷宫最短路径游戏

基于bfs搜索算法的迷宫最短路径游戏废话不多说：因为在我的上一篇博客里已经提到了bfs算法.花了一天的时间写的一个小游戏，虽然界面不怎么样，但是算法确实很难写。因为不知道怎么上传文件（不然我就整个项目上传了）直接…

阅读更多...

最新文章