强化学习开篇-那些问123

news/2024/5/18 21:47:46 标签: 强化学习, 人工智能, 有监督学习, 算法

1、强化学习的基本结构是什么?

      智能体和环境。智能体基于当前状态,采取动作,环境给出反馈也就是奖励,再去更新当前的状态。

2、强化学习相对于监督学习为什么训练过程会更加困难?

  • 监督学习的样本一般是相互独立的,而强化学习的样本是时序相关的。
  • 监督学习是有标签的可以学习的,而强化学习并没有标签,只有环境给的奖励,并且奖励并不是实时的。

3、强化学习的基本特征有哪些?

  • 智能体探索环境,获得延迟的奖励
  • 强化学习的数据是时间关联的数据,智能体动作会影响接下来的状态

4、近几年强化学习发展迅速的原因?

  • 不需要有监督式的样本
  • 强化学习的智能体是可能实现真正意义上的超越人类的智能

5、状态和观测有什么关系?

  • 状态包括观测。

6、一个强化学习智能体由什么组成?

  • 策略
  • 价值函数
  • 模型

7、根据强化学习智能体的不同,我们可以将它分为哪几类?

  • 基于价值的智能体和基于策略的智能体
  • 有模型强化学习智能体和免模型强化智能体

8、基于策略和基于价值的强化学习方法有什么区别?

  • 基于策略的强化学习,是指智能体根据策略做出动作,代表梯度下降,试用大规模环境,连续空间
  • 基于价值的强化学习,是指智能体根据价值函数做出动作,代表Q-learning,试用小规模环境,离散空间

9、有模型强化学习和免模型强化学习有什么区别?

  • 有模型强化学习,需要对真实环境建模一个虚拟环境,同时与两个环境交互学习。
  • 免模型强化学习直接与真实环境进行学习。

10、如何通俗理解强化学习

  • 基于现有状态,结合历史经验,进行利用和探索的权衡

http://www.niftyadmin.cn/n/409059.html

相关文章

chatgpt赋能python:Python屏幕输入介绍:了解命令行输入的基本知识

Python屏幕输入介绍:了解命令行输入的基本知识 Python是一种使用广泛的编程语言,用于编写各种类型的应用程序,包括图形用户界面应用程序和基于命令行的应用程序。对于基于命令行的应用程序来说,屏幕输入非常重要。本文将介绍Pyth…

基于树莓派4B的车牌号识别

目录 0. 前言1. Raspbian系统烧录2. 更换清华源1. 查看树莓派系统版本2. 更换清华国内源3. Raspi镜像修改4. 系统源更新5. 错误排查 3. opencv安装4. 安装 hyperlprpip安装编译安装 5. 验证项目可行性 0. 前言 基于树莓派4B的车牌号识别系统 操作系统:Raspbian PC…

Vue封装API,详细解释。

1、为什么我们要封装API ps: 如果已经有了明确要封装API的需求,直接看第二步。 在没有封装API之前,我们是类似这样使用 axios 的 this.$axios.post(blogArticle/frontList,parms).then((resp) > { this.blogList resp.data, this.blogTota…

ChatGPT的未来发展

文章目录 1.什么是ChatGPT2.ChatGPT的基础技术3.ChatGPT工作原理4.ChatGPT应用场景5.ChatGPT局限性6.ChatGPT的未来发展 ✍创作者:全栈弄潮儿 🏡 个人主页: 全栈弄潮儿的个人主页 🏙️ 个人社区,欢迎你的加入&#xff…

对象的浅拷贝和深拷贝的区别!

对象的浅拷贝和深拷贝 以下主要介绍了正常情况下的拷贝、浅拷贝、深拷贝三种方式的区别。 正常拷贝:复制一个对象,它们的内存地址是相同的浅拷贝:拷贝对象的第一层属性深拷贝:拷贝对象多层的属性 正常拷贝 假设我们要复制一个…

面试题--17

1.通常一个mapper.xml文件,都会对应一个Dao接口,这个Dao接口的工作原理 是什么?Dao接口里的方法,参数不同时,方法能重载吗? 2.Mybatis是否支持延迟加载?如果支持,它的实现原理是什么…

【算法与数据结构】59、LeetCode螺旋矩阵2

文章目录 题目一、方向向量法完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 题目 一、方向向量法 思路分析:螺旋矩阵在旋转过程中,我们选择的区间是左闭右开区间[ , ],例如方向为从左往右…

大型语言模(LLM) 之 提示词工程(三)

今天我学习了DeepLearning.AI的 Prompt Engineering 的在线课程,我想和大家一起分享一下该门课程的一些主要内容。以下是我写的关于该课程的前两篇博客: 大型语言模(LLM)之提示词工程(一) 大型语言模(LLM)之提示词工程(二) 今天我们来学习第三部分内容…