人工智能原理（6）

一、机器学习概述

1、学习和机器学习

2、学习系统

3、机器学习发展简史

4、机器学习分类

二、归纳学习

1、归纳学习的基本概念

2、变型空间学习

3、归纳偏置

三、决策树

1、决策树组成

2、决策树的构造算法CLS

3、ID3

4、决策树的偏置

四、基于实例的学习

1、K-近邻算法

2、基于范例的学习

3、范例

五、强化学习

1、强化学习

2、马尔科夫决策过程

3、Q学习

一、机器学习概述

1、学习和机器学习

学习：

心理学解释：学习是指（人或动物）依靠经验的获得而使行为持久变化的过程。

Simon认为：如果一个系统能够通过执行某种过程而改变它的性能，这就是学习。

Minsky认为：学习是在人们头脑中（心理内部）进行有用的变化。

机器学习的文献认为：学习是一个有特定目的的知识获取和能力增长过程，其内在行为是获得知识、积累经验、发现规律等，其外部表现是改进性能、适应环境、实现自我完善等。

机器学习：

机器学习：研究机器模拟人类的学习活动，获取知识和技能的理论和方法，改善系统性能的学科。

2、学习系统

学习系统：能够在一定程度上实现机器学习的系统

学者们对学习系统的解释：

如果一个系统能够从某个过程或环境的未知特征中学到有关信息，并且能把学到的信息用于未来的估计、分类、决策或控制，以便改进系统的性能，则它就是学习系统。

如果一个系统在与环境相互作用时，能利用过去与环境作用时得到的信息，并提高其性能，则这样的系统就是学习系统。

学习系统的基本要求：

（1）具有适当的学习环境

（2）具有一定的学习能力

（3）能用所学的知识解决问题

（4）能通过学习提高系统的性能

学习系统的基本模型：学习系统至少应有环境、知识库、学习环节和执行环节四个基本部分，一种典型的学习系统（Dietterich学习模型）如下图。环境向系统的学习部件提供某些信息，学习环节利用这些信息修改知识库，增进执行部件的效能，执行环节根据知识库完成任务，同时把获得的信息反馈给学习部件。

3、机器学习发展简史

（1）神经元模型研究阶段

这个时期主要技术是神经元模型，以及基于该模型的决策论和控制论，机器学习方法通过监督学习来实现神经元间连接权的自适应调整，产生线性的模式分类和联想记忆能力，具有代表性的工作感知机，模拟神经元的理论和生物进化过程的研究。

（2）符号概念获取研究阶段

这个时期心理学和人类学习的模拟已经占有主导地位，其特点是使用符号而不是数值表示来研究学习问题，其目标是用学习来表达高级知识的符号描述。在这种影响下，主要技术是概念获取和各种模式识别系统的应用，一方面深入探讨学习的简单概念，另一方面把大量的领域知识并入学习系统，以便发现高深的概念。

（3）基于知识的各种学习系统研究阶段

这个时期不再局限于构造概念学习系统和获取上下文知识，结合了问题求解中的学习、概念聚类、类比推理及机器发现的工作。

相应的有关学习方法相继推出，比如示例学习、示教学习、观察和发现学习、类比学习、基于解释的学习，工作特点强调应用面向任务的知识和指导学习过程的约束，应用启发式知识于学习任务的生成和选择，包括提出收集数据的方式、选择要获取的概念、控制系统的注意力等。

（4）联结学习与符号学习共同发展阶段

这个时期，发现了用隐单元来计算和学习非线性函数的方法，从而克服早期神经元模型的局限性，随着计算机硬件的飞速发展，神经网络的物理实现变成可能，在声音识别、图像处理等领域，神经网络也取得了较大成功。

4、机器学习分类

（1）基于学习策略的分类

① 模拟人脑的机器学习

符号学习：模拟人脑的宏观心理级学习过程，以认知心理学原理为基础，以符号数据为输入，以符号运算为方法，用推理过程在图或状态空间中搜索，学习的目标为概念或规则等。符号学习典型方法：记忆学习、示例学习、演绎学习、类比学习、解释学习等。

神经网络学习（连接学习）：模拟人脑的微观生理级学习过程，以脑和神经科学原理为基础，以人工神经网络为函数结构模型，以数值数据为输入，以数值运算为方法，用迭代过程在系数向量空间中搜索，学习的目标为函数。连接学习典型方法：权值修正学习、拓扑结构学习。

② 直接采用数学方法的机器学习

主要为统计机器学习。

（2）基于推理策略的分类

① 归纳学习

归纳学习：归纳推理是应用归纳方法，从足够多的具体事例中归纳出一般性知识，提取事物的一般规律，是从个别到一般的推理。归纳学习是应用归纳推理进行学习的方法。

② 解释学习

解释学习：基于解释的学习，根据任务所在的领域知识和正在学习的概念知识，对当前实例进行分析和求解，得出一个表征求解过程的因果解释树，以获取新的知识。在获取新知识的过程中，通过对属性、表征现象和内在关系等进行解释而学习到新的知识。

③ 神经学习

神经学习：基于神经网络的学习，神经网络主要取决于两个因素，网络的拓扑结构，网络的权值、工作规则，二者结合就可以构成一个网络的主要特征。

神经学习是指神经网络的训练过程，其主要表现为网络权值的调整，神经网络的连接权值的确定一般有两种方式，一种是通过设计计算确定，为死记式学习；另一种为网络按照一定的规则通过学习得到。大多数神经网络使用后一种方法，来确定网络权值，典型算法有反向传播算法，Hopfield网络。

④ 知识发现

知识发现：数据库中的知识发现，是指从大量数据中辨识出有效的、新颖的、潜在有用的、可被理解的模式的高级处理过程。

（3）基于学习方式的分类

① 有导师学习（监督学习）：输入数据中有导师信号，以概率函数、代数函数或人工神经网络为基函数模型，采用迭代计算方法，学习结果为函数。典型方法：神经学习、分类学习。

② 无导师学习（非监督学习）：输入数据中无导师信号，采用聚类方法，学习结果为类别。典型方法：发现学习、聚类、竞争学习。

③ 强化学习：以环境反馈（奖惩信号）作为输入，以统计和动态规划技术为指导的一种学习方法。

（4）基于数据形式的分类

① 结构化学习：以结构化数据为输入，以数值计算或符号推演为方法。典型方法：神经网络学习、统计学习、决策树学习、规则学习

② 非结构学习：以非结构数据为输入，典型方法：类比学习、案例学习、解释学习、文本挖掘、图像挖掘、Web挖掘。

（5）基于学习目标的分类

① 概念学习：学习的目标和结果是概念，典型方法：示例学习。

② 规则学习：学习的目标和结果是规则，典型方法：决策树学习。

③ 函数学习：学习的目标和结果是函数，典型方法：神经网络学习。

④ 类别学习：学习的目标和结果是类别，典型方法：聚类分析。

⑤ 贝叶斯网络学习：学习的目标和结果是贝叶斯网络，典型方法：结构学习和参数学习。

二、归纳学习

1、归纳学习的基本概念

归纳学习（概念学习、经验学习）：作为符号学习中研究最为广泛的一种方法，对给定关于某个概念的一系列已知的正例与反例，任务就是从中归纳出一个一般的概念描述。归纳学习能够获得新的概念，创立新的规则，发现新的理论。

归纳学习的一般操作是泛化和特化。泛化用来扩展假设的语义信息，以使其能够包含更多的正例，应用于更多的情况。特化是泛化的相反操作，用于限制概念描述的应用范围。

归纳学习指从大量的经验数据中归纳抽取出一般的判定规则和模式，从特殊情况推导出一般规则的学习方法。归纳学习的目标是形成合理的能解释已知事实和预见新事实的一般性结论。

归纳学习由于依赖经验数据，又被成为经验学习，也由于依赖数据间的相似性，又被称为基于相似性的学习。

归纳学习的双空间模型如下图所示：

在归纳学习中，我们使用训练实例来引导出一般规则，全体可能的实例构成实例空间，全体可能的规则构成规则空间。基于规则空间和实例空间的学习就是在规则空间中搜索要求的规则，并从实例空间中选出一些示教的例子，以便解决规则空间中某些规则的二义性问题。

归纳学习的过程就是完成实例空间和规则空间之间同时、协调的搜索，最终找到要求的规则。

归纳学习按监督学习和无监督学习划分，又可分为示例学习和观察与发现学习。

示例学习，又称实例学习或概念获取，是指给定关于某个概念的一系列已知的正例与反例，其任务是从中归纳出一个一般的概念描述。示例学习根据分类好的正反例进行学习，因此是有监督学习。

观察与发现学习，是无监督学习，目标是产生解释所有或大多数观察的规律和规则，包括概念聚类、发现定理、形成理论等。

归纳学习按所学习概念类型划分，又可分为单概念学习和多概念学习两类。

单概念学习，学习目的是从概念空间（即规则空间）中寻找某个与实例空间一致的概念。典型的单概念学习：变型空间法，ID3方法，基于模型驱动的Induce算法。

多概念学习，从概念空间中找出若干概念描述，对于每个概念描述，实例空间中均有相应的空间与之对应。多概念学习与单概念学习差别在于多概念学习方法必须解决概念之间的冲突问题，典型的多概念学习：AQ11、DENDRAL、AM程序。

2、变型空间学习

变型空间学习方法，是T·M·Mitchell于1977年提出的一种数据驱动型学习方法。

变型空间法，以整个规则空间为初始的假设规则集合H，依据示教例子中的信息，系统对集合H进行一般化或特殊化处理，逐步缩小集合H。最后使得H收敛到只含有要求的规则，由于被搜索的空间H逐渐缩小，故称为变型空间法。

下图为一个变型空间偏序关系，整个变型空间包含9个假设，假设之间表示more general than（更一般）的偏序关系，只要给定集合S和G，就可以列举出变型空间所有成员。

3、归纳偏置

（1）归纳偏置概念：归纳学习需要某种形式的预先假设，严格来说，是指学习程序用来限制概念空间或者在这个空间中选择概念的任何标准。

（2）归纳偏置强化：

归纳偏置的两个特点：

（1）强偏置是把概念学习集中于相对少量的假设，弱偏置需要学习的假设量相对要大。

（2）正确偏置允许概念学习选择目标概念，不正确的偏置就不能选择目标概念。

当偏置很强且正确时，概念学习就能较快地选择可用的目标概念，用较强的概念换较弱的偏置。

机器学习已探索出的偏置：

（1）合取偏置：限定知识的表示为合取范式的形式。

（2）限制析取的数量：纯粹的合取偏置对于很多应用来说限制太多，可以选择限制析取的数量。

（3）特征向量：把对象描述为特征集合中的一种表示，对象之间的特征值不同。

（4）决策树：ID3

（5）Horn子句：需要对蕴含式的形式加以限制，在自动推理和从实例中学习规则的大量程序都用到了蕴含式。

三、决策树

1、决策树组成

决策树概念见机器学习——决策树的介绍。

决策树分为单变量树和多变量树。其中节点根据属性组合的方式分为线性多变量节点和非线性变量节点。

2、决策树的构造算法CLS

亨利在1966年研制了一个概念学习系统（CLS），可以学习单个概念，并用此学到的概念分类新的实例。这是一种早期的基于决策树的归纳学习系统。

CLS中，节点对应待分类对象的属性，由某一节点引出的分支对应这一属性可能取得值，叶节点对应分类结果。

3、ID3

昆兰于1983年对此进行了发展，研制了ID3算法，该算法不仅能方便地表示概念属性-值信息的结构，而且能从大量实例数据中有效地生成相应的决策树模型。

大多数决策树学习算法都是一种核心算法的变体，采用自顶向下的贪婪搜索遍历可能的决策树空间。

4、决策树的偏置

树的大小用树中的节点数和决策节点的复杂性度量，树越小则预测能力越强，寻找最小的树实际就是决策树的重要偏置方法。

构造好的决策树依赖选择好的属性，属性选择依赖信息增益，信息增益比，基尼系数等。

四、基于实例的学习

1、K-近邻算法

K-近邻算法，基于实例的机器学习方法把实例表示为n维欧式空间Rn中的实数点，使用欧式距离函数，把任意的实例x表示为这样的特征向量：<a1(x)，a2(x)，...，ar(x)，...，an(x)>，那么两个实例 $x_i$ 和 $x_j$ 之间的距离定义为 $d(x_i,x_j)$ 。

$d(x_i,x_j)=\sqrt{\sum_{r=1}^n(a_r(x_i)-a_r(x_j))^2}$

2、基于范例的学习

基于范例的学习采用更复杂的符号表示，因此检索实例的方法更加复杂。

在基于范例的推理中，把当前所面临的问题或情况称为目标范例，把记忆的问题或情况称为源范例。

基于范例的推理：根据目标范例的提示而获得记忆中的源范例，并由源范例来指导目标范例求解的一种策略。这种推理方式，大大简化了知识获取，对过去的求解结果进行复用，可以提高对新问题的求解效率。

基于范例推理的一般过程：

（1）联想记忆

（2）类比映射

（3）获得求解方案

（4）评价

基于范例的学习中要解决的主要问题：

（1）范例表示，比如如何选择合适的范例内容描述结构，范例库如何组织和索引。

（2）分析模型，分析模型用于分析目标范例，从中识别和抽取检索源范例库的信息。

（3）范例检索，利用检索信息从源范例库中检索并选择潜在可用的源范例。

（4）类比映射，寻找目标范例与源范例之间的对应关系。

（5）类比转换，转换源范例中同目标范例相关的信息，以使得应用于目标范例的求解过程中。

（6）解释过程，对转换过的源范例的求解方案应用于目标范例时所出现的失败做出解释，给出失败的因果分析报告。

（7）范例修补，类似类比转换，区别是输入解方案和失败报告，有时输入包含一个解释。

（8）类比验证，验证目标范例和源范例进行类比的有效性。

（9）范例保存，将新问题如何解决的范例，放入范例库。

3、范例

由于记忆的知识不是彼此孤立的，而是相互联系起来的有机体系，所以用记忆网概括这一特点，一个记忆网便是以语义记忆单元为节点，以语义记忆单元间的各种关系为连接建立起来的网络。如下图的范例表示。

范例组织：由两部分组成，范例的内容（包含哪些有关的对问题解决有用的东西）和范例的索引（和范例的组织结构和检索有关，反映了不同范例间的区别）

范例检索：从范例库中找到一个或多个与当前问题最相似的范例，包含三个子过程：特征辨识、初步匹配、最佳选定。

范例复用：通过对所给问题和范例库中的范例进行比较，确定那些解答部分可以复用到新范例中。对于过去的问题进行修正来适应新的情况，有四种修正方法：替换法、转换法、特定目标驱动法和派生重演。

五、强化学习

1、强化学习

强化学习模型：主体通过与环境的交互进行学习，主体与环境的交互接口包括行动、奖励和状态。交互过程可以表述为每一步主体根据策略选择一个行动执行，然后感知下一步的状态和立即回报，通过经验再修改自己的策略，主体的目标是最大化累积奖励。

Agent的任务是去学习一个控制策略π：S→A，使得回报最大。

2、马尔科夫决策过程

策略π从初始状态 $s_t$ 获得的累积值为

$V^\pi(s_t)=r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+...=\sum_{t=0}^\infty \gamma_i r_{t+i}$

学习控制策略的任务是，要求主体学习到一个策略π，使得对于所有状态s， $V^{\pi}(s)$ 最大，此策略为最优策略，表示为

$\pi^*=argmax_{\pi}V^{\pi}(s),\forall s$

3、Q学习

评估函数Q（s,a）的值是从s开始并使用a作为第一个动作时的最大折算累积回报，即为从状态s执行动作a的立即回报加上以后遵循最优策略的值（用γ折算）。

$Q(s,a)=r(s,a)+\gamma max_{a`} Q(\delta(s,a),a`)$

参考视频：【人工智能教程】6.1 - 机器学习概述_哔哩哔哩_bilibili

参考书籍：《人工智能原理》丁世飞