强化学习开篇-那些问123

强化学习开篇-那些问123

news/2024/5/18 21:47:46 标签: 强化学习, 人工智能, 有监督学习, 算法

1、强化学习的基本结构是什么？

智能体和环境。智能体基于当前状态，采取动作，环境给出反馈也就是奖励，再去更新当前的状态。

2、强化学习相对于监督学习为什么训练过程会更加困难？

监督学习的样本一般是相互独立的，而强化学习的样本是时序相关的。
监督学习是有标签的可以学习的，而强化学习并没有标签，只有环境给的奖励，并且奖励并不是实时的。

3、强化学习的基本特征有哪些？

智能体探索环境，获得延迟的奖励
强化学习的数据是时间关联的数据，智能体动作会影响接下来的状态

4、近几年强化学习发展迅速的原因？

不需要有监督式的样本
强化学习的智能体是可能实现真正意义上的超越人类的智能

5、状态和观测有什么关系？

状态包括观测。

6、一个强化学习智能体由什么组成？

策略
价值函数
模型

7、根据强化学习智能体的不同，我们可以将它分为哪几类？

基于价值的智能体和基于策略的智能体
有模型强化学习智能体和免模型强化智能体

8、基于策略和基于价值的强化学习方法有什么区别？

基于策略的强化学习，是指智能体根据策略做出动作，代表梯度下降，试用大规模环境，连续空间
基于价值的强化学习，是指智能体根据价值函数做出动作，代表Q-learning，试用小规模环境，离散空间

9、有模型强化学习和免模型强化学习有什么区别？

有模型强化学习，需要对真实环境建模一个虚拟环境，同时与两个环境交互学习。
免模型强化学习直接与真实环境进行学习。

10、如何通俗理解强化学习？

基于现有状态，结合历史经验，进行利用和探索的权衡

http://www.niftyadmin.cn/n/409059.html

相关文章

chatgpt赋能python：Python屏幕输入介绍：了解命令行输入的基本知识

chatgpt赋能python：Python屏幕输入介绍：了解命令行输入的基本知识

Python屏幕输入介绍：了解命令行输入的基本知识 Python是一种使用广泛的编程语言，用于编写各种类型的应用程序，包括图形用户界面应用程序和基于命令行的应用程序。对于基于命令行的应用程序来说，屏幕输入非常重要。本文将介绍Pyth…

阅读更多...

基于树莓派4B的车牌号识别

基于树莓派4B的车牌号识别

目录 0. 前言1. Raspbian系统烧录2. 更换清华源1. 查看树莓派系统版本2. 更换清华国内源3. Raspi镜像修改4. 系统源更新5. 错误排查 3. opencv安装4. 安装 hyperlprpip安装编译安装 5. 验证项目可行性 0. 前言基于树莓派4B的车牌号识别系统操作系统：Raspbian PC…

阅读更多...

Vue封装API，详细解释。

Vue封装API，详细解释。

1、为什么我们要封装API ps: 如果已经有了明确要封装API的需求，直接看第二步。在没有封装API之前，我们是类似这样使用 axios 的 this.$axios.post(blogArticle/frontList,parms).then((resp) > { this.blogList resp.data, this.blogTota…

阅读更多...

ChatGPT的未来发展

ChatGPT的未来发展

文章目录 1.什么是ChatGPT2.ChatGPT的基础技术3.ChatGPT工作原理4.ChatGPT应用场景5.ChatGPT局限性6.ChatGPT的未来发展 ✍创作者：全栈弄潮儿 🏡 个人主页： 全栈弄潮儿的个人主页 🏙️ 个人社区，欢迎你的加入&#xff…

阅读更多...

对象的浅拷贝和深拷贝的区别！

对象的浅拷贝和深拷贝的区别！

对象的浅拷贝和深拷贝以下主要介绍了正常情况下的拷贝、浅拷贝、深拷贝三种方式的区别。正常拷贝：复制一个对象，它们的内存地址是相同的浅拷贝：拷贝对象的第一层属性深拷贝：拷贝对象多层的属性正常拷贝假设我们要复制一个…

阅读更多...

面试题--17

面试题--17

1.通常一个mapper.xml文件，都会对应一个Dao接口，这个Dao接口的工作原理是什么？Dao接口里的方法，参数不同时，方法能重载吗？ 2.Mybatis是否支持延迟加载？如果支持，它的实现原理是什么…

阅读更多...

【算法与数据结构】59、LeetCode螺旋矩阵2

【算法与数据结构】59、LeetCode螺旋矩阵2

文章目录题目一、方向向量法完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。题目一、方向向量法思路分析：螺旋矩阵在旋转过程中，我们选择的区间是左闭右开区间[ , ]，例如方向为从左往右…

阅读更多...

大型语言模(LLM) 之提示词工程(三)

大型语言模(LLM) 之提示词工程(三)

今天我学习了DeepLearning.AI的 Prompt Engineering 的在线课程，我想和大家一起分享一下该门课程的一些主要内容。以下是我写的关于该课程的前两篇博客： 大型语言模(LLM)之提示词工程(一) 大型语言模(LLM)之提示词工程(二) 今天我们来学习第三部分内容…

阅读更多...

最新文章