图解强化学习原理超详解（三）

上一篇博客中我们讲述了马尔可夫决策过程中的策略优化及相关问题，在这一篇博客中我们将讲述Q-learn方法，以及深度强化学习的相关概念

六.Q-learn

QLearning是强化学习算法中value-based的算法，Q即为Q（s,a）就是在某一时刻的 s 状态下(s∈S)，采取动作a (a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward r，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。
在这里插入图片描述

为了解决上述问题，即平衡策略学习中的探索与利用的关系，我们引入贪心策略

在这里插入图片描述

ϵ−greedy 算法

在这里插入图片描述

事实上，对于局部最优的动作a∗
，其被选择的概率最大，其余的动作概率都为 ϵ/∣A∣。
这种贪心策略有一个问题：虽然每个动作都有被选择的概率，但是这种选择太过于随机，有一些（状态-动作）二元组应该是可以达到全局最优，但由于初始化的原因，使得它被访问的概率很低，这并不能有助于智能体很大概率的发现最优动作。

七.深度强化学习

7.1 简介

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。
深度学习具有较强的感知能力，但是缺乏一定的决策能力;而强化学习具有决策能力，对感知问题束手无策。因此，将两者结合起来，优势互补，为复杂系统的感知决策问题提供了解决思路
在这里插入图片描述

7.2 训练策略

在这里插入图片描述

7.3 DQN算法

DQN算法融合了神经网络和Q learning的方法，名字叫做 Deep Q Network。
在这里插入图片描述

DQN 有一个记忆库用于学习之前的经历。在之前的简介影片中提到过， Q learning 是一种 off-policy 离线学习法，它能学习当前经历着的，也能学习过去经历过的，甚至是学习别人的经历. 所以每次 DQN 更新的时候，我们都可以随机抽取一些之前的经历进行学习. 随机抽取这种做法打乱了经历之间的相关性，也使得神经网络更新更有效率。Fixed Q-targets 也是一种打乱相关性的机理，如果使用 fixed Q-targets，我们就会在 DQN 中使用到两个结构相同但参数不同的神经网络，预测 Q 估计的神经网络具备最新的参数，而预测 Q 现实的神经网络使用的参数则是很久以前的。有了这两种提升手段， DQN 才能在一些游戏中超越人类。