1、强化学习的基本结构是什么?
智能体和环境。智能体基于当前状态,采取动作,环境给出反馈也就是奖励,再去更新当前的状态。
2、强化学习相对于监督学习为什么训练过程会更加困难?
3、强化学习的基本特征有哪些?
- 智能体探索环境,获得延迟的奖励
- 强化学习的数据是时间关联的数据,智能体动作会影响接下来的状态
4、近几年强化学习发展迅速的原因?
- 不需要有监督式的样本
- 强化学习的智能体是可能实现真正意义上的超越人类的智能
5、状态和观测有什么关系?
- 状态包括观测。
6、一个强化学习智能体由什么组成?
- 策略
- 价值函数
- 模型
7、根据强化学习智能体的不同,我们可以将它分为哪几类?
- 基于价值的智能体和基于策略的智能体
- 有模型强化学习智能体和免模型强化智能体
8、基于策略和基于价值的强化学习方法有什么区别?
9、有模型强化学习和免模型强化学习有什么区别?
10、如何通俗理解强化学习?
- 基于现有状态,结合历史经验,进行利用和探索的权衡