机器学习可以分为3类:有监督学习,无监督学习,强化学习;
强化学习可以解决什么问题?
概括来说,强化学习所能解决的问题为连续决策问题,就是需要连续不断做出决策才能实现最终的目标的问题。
强化学习基本框架
代理(agent)执行动作对环境(enviroment)造成影响,代理没执行一次动作就会转移到下一状态,然互环境会反馈给代理新的状态(state)和奖励(reward);
强化学习的三个特征:
(1)强化学习是一个闭环问题;
(2)没有直接对该如何选择action的指示,需要试探搜索去发现哪个动作会产生最大的数字奖励;
(3)动作不仅会对影响直接的奖励,还会影响接下来的环境状态。
强化学习的要素:
(1)policy(策略):从感知到的enviroment的state到在这些state下要执行的action;
(2)reward signal(奖励信号):a 定义了强化学习的目标;b reward signal可能是enviroment state和采取的action的函数。
(3)value function(值函数):reward signal表示的是在直接感受下哪个是好的,而value function则是表示从长期来看,什么是好的,reward是首要的,而value是其次的,没有reward就没有value,但当我们坐决策时,更关注的是value,对于action的选择是基于value来判断的,reward是由enviroment直接给出的,但value是需要对agent的整个执行时间内的情况进行观察,以此来对value进行估计和重估计。
(4) model of the enviroment (环境模型)
环境模型是用来模拟真实enviroment的行径的,或者说是对enviroment会如何表现的推断。