Article

作者：Wenhan Xiong and Thien Hoang and William Yang Wang
文献题目：DeepPath：一种知识图推理的强化学习方法
文献时间：2017
https://github.com/xwhan/DeepPath.

摘要

研究了在大规模知识图中学习推理的问题。更具体地说，我们描述了一种新的学习多跳关系路径的强化学习框架:我们使用基于知识图嵌入的具有连续状态的基于策略的agent，它在一个KG向量空间中通过采样最有希望的关系来扩展其路径。与之前的工作相比，我们的方法包括一个考虑了准确性、多样性和效率的奖励函数。实验结果表明，该方法在Freebase和永无休止语言学习数据集上的表现优于基于路径排序的算法和知识图嵌入方法。

引言

近年来，深度学习技术在各种分类和识别问题上取得了许多最先进的结果(Krizhevsky et al.，2012;Hinton et al.，2012;Kim,2014)。然而，复杂的自然语言处理问题通常需要多个相互关联的决策，使深度学习模型具有学习推理的能力仍然是一个具有挑战性的问题。为了处理没有明显答案的复杂查询，智能机器必须能够利用现有资源进行推理，并学会推断未知答案。
更具体地说，我们把我们的研究放在多跳推理的背景下，这是学习显式推理公式的任务，给定一个较大的KG。例如，如果KG包括内马尔为巴塞罗那效力，而巴塞罗那在甲级联赛中，那么机器应该能够学习到以下公式:球员playsf或球队(P,T)∧球队playsinleague (T,L)中球员playsinleague (P,L)。在测试期间，通过插入学到的公式，系统应该能够自动推断出一对实体之间缺失的环节。这种推理机器有可能成为复杂QA系统的重要组成部分。
近年来，路径排序算法(PRA) (Lao et al.，2010,2011a)作为学习大型KGs推理路径的一种很有前途的方法出现。PRA采用基于重启的随机漫步推理机制，执行多个有边界深度优先搜索过程来寻找关联路径。结合基于弹性网络的学习，PRA使用监督学习选择更合理的路径。然而，PRA在一个完全离散的空间中运行，这使得在一个KG中评估和比较相似的实体和关系变得困难。
在此工作中，我们提出了一种可控多跳推理的新方法:我们将路径学习过程框架为强化学习(RL)。与PRA不同的是，我们使用基于翻译的基于知识的嵌入方法(Bordes et al.，2013)来编码我们的RL agent的连续状态，这是因为在知识图的向量空间环境中。代理通过对一个关系采样来扩展其路径，从而采取增量步骤。为了更好地指导RL agent学习关系路径，我们使用了带有新颖奖励函数的政策梯度训练(Mnih et al.，2015)，该函数共同鼓励准确性、多样性和效率。从经验上看，我们的方法优于基于Freebase和永不结束语言学习(Carlson等人，2010a)数据集的PRA和嵌入方法。
- 我们是第一个考虑强化学习(RL)方法学习知识图中的关系路径;
- 我们的学习方法使用复杂的奖励函数，同时考虑准确性、效率和路径多样性，在寻径过程中提供更好的控制和更大的灵活性;
- 我们的方法可以扩展到大规模的知识图，在两个任务中优于PRA和KG嵌入方法。
在下一节中，我们概述了在KGs中寻径和嵌入方法的相关工作。我们在第3节描述了提出的方法。我们在第4部分展示了实验结果。最后，我们在第5节中总结。

实验

为了评估我们的 RL 代理发现的推理公式，我们探索了两个标准的 KG 推理任务：链接预测（预测目标实体）和事实预测（预测未知事实是否成立）。我们将我们的方法与基于路径的方法和基于嵌入的方法进行比较。之后，我们进一步分析了我们的 RL 代理发现的推理路径。这些高度预测的路径验证了奖励功能的有效性。最后，我们进行了一个实验来研究监督学习程序的效果。

数据集和设置

表 1 显示了我们进行实验的两个数据集的统计数据。它们都是较大数据集的子集。 FB15K-237 (Toutanova et al., 2015) 中的三元组是从 FB15K (Bordes et al., 2013) 中采样的，去除了冗余关系。我们在 20 个具有足够推理路径的关系上执行推理任务。这些任务包括来自不同领域的关系，如体育、人物、地点、电影等。此外，我们提出了一个新的 NELL 子集，适用于 NELL 系统第 995 次迭代的多跳推理。我们首先删除具有关系泛化或 haswikipediaurl 的三元组。这两个关系在 NELL 数据集中出现超过 200 万次，但它们没有推理值。在这一步之后，我们只选择具有 Top-200 关系的三元组。为了方便寻路，我们还添加了逆三元组。对于每个三元组 $(h, r, t)$ ，我们将 $t, r^{−1}, h)$ 附加到数据集。通过这些逆三元组，agent 能够在 KG 中后退。
对于每个推理任务 $r_i$ ，我们从 KG 中删除所有具有 $r_i$ 或 ${r_i}^{−1} 的三元组。这些移除的三元组被分成训练样本和测试样本。对于链接预测任务，测试三元组 ${ (h, r, t) \}$ 中的每个 $h$ 被视为一个查询。一组候选目标实体使用不同的方法进行排名。对于事实预测，真实的测试三元组与一些生成的错误三元组进行排名。

基线和实施细节

大多数 KG 推理方法基于路径公式或 KG 嵌入。我们在实验中探索了这两个类的方法。对于基于路径的方法，我们将我们的 RL 模型与 PRA（Lao 等人，2011a）算法进行比较，该算法已用于几种推理方法（Gardner 等人，2013 年；Neelakan tan 等人， 2015）。 PRA 是一种数据驱动算法，使用随机游走 (RW) 来寻找路径并获取路径特征。对于基于嵌入的方法，我们评估了为知识库完成而设计的几种最先进的嵌入，例如 TransE（Bordes 等人，2013 年）、TransH（Wang 等人，2014 年）、TransR（Lin 等人） al., 2015) 和 TransD (Ji et al., 2015)。
PRA 的实现基于 (Lao et al., 2011a) 发布的代码。我们使用 TopK 负模式为训练和测试样本生成负样本。对于每个正样本，大约有 10 个对应的负样本。每个负样本是通过在每个三元组 $(h, r, t)$ 中用伪造的一个 $t^{'}$ 替换真实目标实体 $t$ 来生成的。 PRA 生成的这些正负测试对构成了本文评估的所有方法的测试集。对于 TransE、R、H、D，我们使用正训练实体对为每个推理任务学习一个单独的嵌入矩阵。所有这些嵌入都经过了 1000 个 epoch 的训练。
我们的 RL 模型利用 TransE 来获得实体和关系的连续表示。我们使用与 TransE、R 相同的维度来嵌入实体。具体来说，我们使用的状态向量的维度为 200，这也是策略网络的输入大小。为了使用路径公式进行推理，我们采用与 PRA 中类似的线性回归方法来重新排列路径。然而，我们没有使用随机游走概率作为路径特征，这在计算上可能会很昂贵，我们只是使用通过双向搜索获得的二元路径特征。我们观察到，只有少数挖掘路径公式，我们的方法可以获得比 PRA 的数据驱动方法更好的结果。

结果

定量结果

链接预测。此任务是对给定查询实体的目标实体进行排名。表 2 显示了两个数据集的平均精度 (MAP) 结果。由于在此任务中，基于路径的方法通常比嵌入方法更有效，因此我们没有在此表中包含其他两个嵌入基线。相反，我们腾出空间来展示每个关系推理任务的详细结果。
对于表最后一行显示的整体 MAP，我们的方法在两个数据集上明显优于基于路径的方法和嵌入方法，这验证了我们 RL 模型的强大推理能力。对于大多数关系，由于嵌入方法无法使用 KG 中的路径信息，因此它们的性能通常比我们的 RL 模型或 PRA 差。但是，当实体之间没有足够的路径时，我们的模型和 PRA 可能会给出较差的结果。例如，对于关系 filmWrittenBy，我们的 RL 模型只找到 4 个唯一的推理路径，这意味着 KG 中实际上没有足够的推理证据。另一个观察结果是我们总是在 NELL 数据集上获得更好的性能。通过分析从 KG 中找到的路径，我们相信潜在的原因是 NELL 数据集比 FB15K-237 具有更多的短路径，其中一些只是推理关系的同义词。
事实预测。该任务不是对目标实体进行排序，而是直接对特定关系的所有正样本和负样本进行排序。这里不包括 PRA 作为基线，因为 PRA 代码只给出每个查询节点的目标实体排名，而不是所有三元组的排名。表 3 显示了所有方法的总体结果。我们的 RL 模型在这项任务上取得了更好的结果。我们还观察到 RL 模型在大多数推理任务中击败了所有嵌入基线。

推理路径的定性分析

为了分析推理路径的属性，我们在表 5 中展示了代理找到的一些推理路径。为了说明效率奖励函数的效果，我们在图 2 中展示了路径长度分布。为了解释这些路径，取personNationality 例如，第一个推理路径表明，如果我们知道 placeOfBirth(x,y) 和 locationContains(z,y) 事实，那么人 x 很有可能具有民族 z。这些简短但具有预测性的路径表明了 RL 模型的有效性。另一个重要的观察结果是我们的模型使用的推理路径比 PRA 少得多，这表明我们的模型实际上可以从 KG 中提取最可靠的推理证据。表 4 显示了一些关于推理路径数量的比较。我们可以看到，通过预定义的奖励函数，RL 代理能够挑选出强大的奖励函数并过滤掉相似或不相关的奖励函数。

监督学习的效果

如第 3.2 节所述，将 RL 应用于 KG 推理的一个主要挑战是大的动作空间。我们通过在奖励再训练步骤之前应用监督学习来解决这个问题。为了显示监督训练的效果，我们评估了代理在不同数量的训练集后在 10 步 (succ10) 内达到目标的成功率。对于每个训练集，训练集中的一对实体 $e_{source},e_{target})$ 用于查找路径。所有连接实体的正确路径都将获得 +1 全局奖励。然后我们插入一些真实的训练路径。 succ10 是在由 100 个实体对组成的保留测试集上计算的。对于 NELL-995 数据集，由于我们有 200 个唯一关系，因此添加反向动作后动作空间的维度将为 400。这意味着随机游走将获得非常低的 succ10，因为可能有近 40010 条无效路径。图 3 显示了训练期间的 succ10。我们看到，即使智能体之前没有见过实体，它实际上可以选择有希望的关系来扩展其路径。这也验证了我们国家代表的有效性。

结论和未来工作

在本文中，我们提出了一个强化学习框架来提高 KG 中关系推理的性能。具体来说，我们训练 RL 代理以在知识库中找到推理路径。与之前基于随机游走的寻路模型不同，RL 模型允许我们控制找到的路径的属性。在许多基于路径的推理方法中，这些有效路径也可以用作 PRA 的替代方法。对于两个标准推理任务，使用 RL 路径作为推理公式，我们的方法通常优于两类基线。
对于未来的研究，我们计划研究结合对抗性学习（Goodfellow 等人，2014 年）的可能性，以提供比这项工作中使用的人类定义的奖励函数更好的奖励。可以训练判别模型来提供奖励，而不是根据路径特征设计奖励。此外，为了解决 KG 没有足够推理路径时的问题场景，我们有兴趣将我们的 RL 框架应用于 KG 三元组和文本提及的联合推理。