一.文章概述

本文提出将强化学习和图嵌入的组合以端到端地自动为图上组合优化问题设计贪心启发式算法，以避免设计传统算法所需要的大量专业知识和试错。学得的贪心策略行为类似增量构造解决方案的元算法，动作由解决方案当前状态上的图嵌入网络确定。作者提出方案学得的启发式算法对多个不同的组合优化问题、图类型和大小都有效。

元算法：meta algorithm，通用框架，可用于解决许多问题。

二.背景介绍

解决NP-hard图优化问题的方法主要分为三类：

精确算法：基于枚举或带整数规划形式的分支限界，对大型实例不适用。
近似算法：多项式逼近算法是可取的，但可能会受到弱最优性保证或经验性能的影响，或者对于不可逼近的问题甚至可能不存在。
启发式算法：通常是快速有效的算法，但缺乏理论保证，并且可能还需要算法设计者进行大量针对特定问题的研究和试错。

上述三种范式都很少利用现实世界优化问题的一个共同特征：同一类型问题的实例在常规基础上被一次又一次地解决，保持相同的组合结构，但主要在数据上有所不同。为此作者提出，给定一个图优化问题 $G$ 和分布 $\mathbb{D}$ ，是否能从 $\mathbb{D}$ 中学习到更好的启发式方法来推广到未见的实例？

现有基于深度学习方法的不足之处：

使用的深度架构是通用的，不能有效地反映图问题的组合结构。
需要大量的实例来提升方法的泛化性能。
现有工作通常基于策略梯度进行训练，这种方法并不是特别有效的样本。
需要繁琐的人工特征工程。

基于现状，作者使用强化学习和图嵌入的独特组合来解决图问题的学习算法的挑战。学习到的策略行为类似于增量构造解决方案的元算法，动作由解决方案当前状态上的图嵌入网络确定。作者提出的架构与以往的工作由以下几个方面的不同：

算法设计模型：采用贪心元算法设计，根据图的结构，通过节点的连续添加构造可行解，并保持可行解满足问题的图约束。
算法表示：使用structure2vec的图嵌入网络来表示贪心算法中的策略，该网络能捕获节点在其图邻域上下文中的属性。这允许策略根据节点的有用性来区分它们，并推广到不同大小的问题实例。
算法训练：使用拟合Q-learning来学习一个由图嵌入网络参数化的贪心策略。策略的目标是直接优化原始问题实例的目标函数。该方法的主要优点是可以以数据高效的方式处理延迟奖励（贪心算法获取的目标函数值的剩余增量）；在贪心算法的每一步中，根据部分解更新图嵌入，以反映每个节点对最终目标值的效益的新知识。相比之下，策略梯度只对整个解决方案更新一次模型参数。

作者提出的框架如下所示：

在这里插入图片描述

三.图上贪心算法通用范式

作者使用有权图上的三个优化问题来说明其框架。令 $G (V, E, w)$ 表示有权图，其中 $V$ 表示节点集， $E$ 表示边集， $\rightarrow \mathbb{R}^{+}$ 表示边权重函数， $w (u, v)$ 表示边 $\in E$ 的权重。

基于此，作者解决的三个优化问题表示如下：

Minimum Vertex Cover (MVC)：给定图 $G$ ，寻找节点子集 $\subseteq V$ ，使得任意边都有端点在 $S$ 中。
Maximum Cut (MAXCUT)：给定图 $G$ ，寻找节点子集 $\subseteq V$ ，使得cut-set的权重之和 $\sum_{(u, v) \in C} w(u, v)$ 最大，其中cut-set $\subseteq E$ 中每条边的一段在 $S$ 中，另一端在 $\ S V \backslash S$ 中。
Traveling Salesman Problem (TSP)：给定二维空间的点集，以每个点为图节点，点间的距离作为点间边的权重，该问题旨在寻找一个总权值最小的tour，tour指访问图中每个顶点仅一次的环。

**贪心算法基于最大化某个评估函数 $Q$ （通过 $Q$ 衡量当前局部解背景下一个节点的质量），在局部解S中依次添加节点来构造一个解。**作者指出上述问题的贪心算法可以用一个共同的公式来表示：

一个给定优化问题的问题实例 $G$ 是从分布 $\mathbb{D}$ 中采样的，即实例图 $G$ 的 $V 、 E$ 和 $w$ 是根据模型或真实世界的数据生成的。
一个部分解决被表示为一个有序的list $S=\left(v_1, v_2, \ldots, v_{|S|}\right), v_i\in V$ , 和 $\ S \bar{S}=V\backslash S$ 待添加的候选节点集。作者使用一个二元决策变量的向量 $x$ ，每个维度 $x_v$ 对应于 $V$ 中的一个节点 $v$ ，如果 $v\in S$ ， $x_v=1$ ，否则为0。可以把 $x_v$ 看作是 $v$ 上的一个标签或额外的特征。
需要一个维护(或辅助)过程 $h (S)$ ，其将有序列表 $S$ 映射到一个满足问题特定约束的组合结构。
部分解决 $S$ 的质量是由基于 $S$ 的组合结构 $h$ 的目标函数 $c (h (S), G)$ 给出的。
一个通用的贪婪算法能使评估函数 $\in \mathbb{R}$ 最大化的节点 $v$ 作为下一个添加到部分解 $S$ 中的节点，这取决于当前部分解决方案的组合结构 $h (S)$ ，即部分解可以扩展为：
$S:=\left(S, v^*\right) \text {, where } v^*:=\operatorname{argmax}_{v \in \bar{S}} Q(h(S), v)$
其中 $S, v^*)$ 表示在list $S$ 尾端添加节点 $v^*$ 。该步骤会重复直到满足终止条件 $t (h (S))$ 。

对于以上抽象模型（分布 $\mathbb{D}$ 、辅助函数 $h$ 、终止准则 $t$ 和代价函数 $c$ ），三个问题具体设计如下：

MVC：辅助函数 $h$ 不需要做任何工作， $c (h (S), G) = - ∣ S ∣$ 。终止条件是检查是否所有边都被覆盖。
MAXCUT：辅助函数将 $V$ 划分为两个子集 $S$ 和其补集 $\ S \bar{S}=V \backslash S$ 并维持cut-set $C=\{(u, v) \mid(u, v) \in E, u \in S, v \in \bar{S}\}$ 。代价函数是 $G)=\sum_{(u, v) \in C} w(u, v)$ ，无终止条件。
TSP：辅助函数根据 $S$ 中的节点顺序维护一个tour。最简单的方法是按照 $S$ 的顺序将节点追加到部分旅游的末尾。代价函数为 $G)=-\sum_{i=1}^{|S|-1} w(S(i), S(i+1))-w(S(|S|), S(1))$ ，终止条件是 $S = V$ 。根据经验，在部分tour中插入一个节点 $u$ ，使tour长度增加最少的位置是一个更好的选择。作者以此作为TSP的辅助函数。

在部分解 $S$ 中添加一个节点所产生的解决方案质量的估计值将由评估函数 $Q$ 决定，该函数将通过使用问题实例的集合来学习。这与传统的贪心算法设计相反，在传统算法中需要手工设计 $Q$ ，并且需要大量针对特定问题的研究和试错。

四.图嵌入表示

对于评估函数 $Q$ ，作者希望其考虑到当前部分解 $S$ ，因为它映射到图上。即对所有节点 $\in S$ ， $x_v=1$ ，节点按照图结构进行连接。直观地说， $\widehat{Q}$ 应该总结"有标签的 "图 $G$ 的状态，如果要在该图背景下添加新节点，就应该算出它的价值。在这里，图的状态和节点 $v$ 的上下文都可能非常复杂，难以用封闭形式描述，而且可能取决于复杂的统计数据，如全局/局部度分布、三角形计数、与标记节点的距离。为了在组合结构上表示如此复杂的现象，作者在图上利用深度学习架构，即structure2vec来参数化 $\widehat{Q}(h(S), v ; \Theta)$ 。

4.1 Structure2Vec

给定当前部分解 $S$ ，structure2vec会为每个节点 $\in V$ 计算 $p$ 维的特征嵌入 $\mu_v$ 。更具体地说，structure2vec根据输入图结构 $G$ 递归地定义网络架构，structure2vec的计算图受到图模型推断算法的启发，其中节点特定的标签或特征 $x_v$ 根据 $G$ 的图拓扑递归地聚合。经过多次迭代，网络将为每个节点产生一个新的嵌入，同时考虑到图特征和这些节点特征之间的远程交互。structure2vec的一个变体是将嵌入 $\mu_v^{(0)}$ 初始化为0，对所有 $\in V$ ，在每次迭代中将嵌入同步更新为：
$\mu_v^{(t+1)} \leftarrow F\left(x_v,\left\{\mu_u^{(t)}\right\}_{u \in \mathcal{N}(v)},\{w(v, u)\}_{u \in \mathcal{N}(v)} ; \Theta\right)$
其中 $\mathcal{N}(v)$ 表示节点 $v$ 的邻居集， $F$ 表示神经网络或核函数。

4.2 Parameterizing $\widehat{Q}$

基于structure2vec，作者定义的嵌入更新方式为：
$\mu_v^{(t+1)} \leftarrow \operatorname{relu}\left(\theta_1 x_v+\theta_2 \sum_{u \in \mathcal{N}(v)} \mu_u^{(t)}+\theta_3 \sum_{u \in \mathcal{N}(v)} \operatorname{relu}\left(\theta_4 w(v, u)\right)\right)$
$\theta_1 \in \mathbb{R}^p, \theta_2, \theta_3 \in \mathbb{R}^{p \times p}$ 和 $\theta_4 \in \mathbb{R}^p$ 都是模型的参数， $\text{relu}$ 表示非线性激活。经过 $T$ 轮迭代，作者使用这些嵌入来定义 $\widehat{Q}(h(S), v ; \Theta)$ 。即作者使用每个节点 $v$ 的嵌入和整个图上的池化嵌入 $\sum_{u \in V} \mu_u^{(T)}$ ，作为 $v$ 和 $h (S)$ 的代用品，即：
$\widehat{Q}(h(S), v ; \Theta)=\theta_5^{\top} \operatorname{relu}\left(\left[\theta_6 \sum_{u \in V} \mu_u^{(T)}, \theta_7 \mu_v^{(T)}\right]\right)$
其中 $\theta_5 \in \mathbb{R}^{2 p}, \theta_6, \theta_7 \in \mathbb{R}^{p \times p}$ ， $[\cdot, \cdot]$ 表示拼接操作。作者将 $T$ 设置的很小（因为会过平滑）。对于训练，作者使用的是强化学习。

五.训练：Q Learning

作者期望在分布 $\mathbb{D}$ 上的 $m$ 个图组成的图集 $\mathcal{D}=\left\{G_i\right\}_{i=1}^m$ 上学得函数 $\widehat{Q}$ 。

5.1 强化学习公式

作者对强化学习框架中的状态、动作和奖励定义如下：

State：状态 $S$ 是图 $G$ 上的一系列动作（节点）。由于已经在嵌入中表示了标记图中的节点，所以状态是 $p$ 维空间中的一个向量， $\sum_{v \in V} \mu_v$ 。很容易看出，这种状态的嵌入表示可以跨不同的图使用。终止状态 $\widehat{S}$ 取决于手头的问题。
Transition：过渡是确定的，相当于用特征 $x_v=1$ 来标记被选为最后行动的节点 $\in G$ 。
Actions：动作 $v$ 是 $G$ 中的一个节点，不属于当前状态 $S$ 。同样，作者将把行动表示为其相应的 $p$ 维节点嵌入 $\mu_v$ ，这样的定义适用于各种规模的图。
Rewards：状态 $S$ 的奖励函数 $r (S, v)$ 被定义为采用行动 $v$ ，转移到新状态 $S^{\prime}:=(S, v)$ 后，代价函数的变化，即:
$v)=c\left(h\left(S^{\prime}\right), G\right)-c(h(S), G)$
其中 $c(h(\emptyset), G)=0$ 。因此，终止状态 $\widehat{S}$ 的累积奖励 $R$ 与 $\widehat{S}$ 的目标函数值完全重合，即 $R(\widehat{S})=\sum_{i=1}^{|\widehat{S}|} r\left(S_i, v_i\right)$ 等于 $c(h(\widehat{S}), G)$ 。
Policy：基于 $\widehat{Q}$ ，确定性贪心策略 $\pi(v \mid S):=\operatorname{argmax}_{v^{\prime} \in \bar{S}} \widehat{Q}\left(h(S), v^{\prime}\right)$ 被使用，选择行动 $v$ 对应于向当前部分解中添加一个 $G$ 的节点，这会导致收集奖励 $r (S, v)$ 。

表1展示了本文的三个优化问题的强化学习框架实例：

在这里插入图片描述

作者用 $Q^*$ 表示每个RL问题的最优 $Q$ 函数，作者用 $\widehat{Q}(h(S), v ; \Theta)$ 来近似它，这通过 $n$ 步 $Q$ 学习来习得。

5.2 学习算法

为了对 $\widehat{Q}(h(S), v ; \Theta)$ 的参数进行端到端的学习，作者使用 $n$ 步 $Q$ 学习和拟合 $Q$ 迭代的组合，具体详见算法1：

在这里插入图片描述

作者使用术语episode来表示从一个空解开始，直到终止的一个完整的节点添加序列，episode中的一个step表示一个单独的操作（节点添加）。

标准（1步） $Q$ 学习通过执行gradient step来最小化平方损失函数，在episode的每个step中更新函数近似器的参数：
$\left(y-\widehat{Q}\left(h\left(S_t\right), v_t ; \Theta\right)\right)^2,$
其中 $y=\gamma \max _{v^{\prime}} \widehat{Q}\left(h\left(S_{t+1}\right), v^{\prime} ; \Theta\right)+r\left(S_t, v_t\right)$ 表示状态 $S_t$ 的非终止状态。 $n$ 步 $Q$ 学习有助于处理延迟奖励的问题，在这种情况下，agent感兴趣的最终奖励只能在某一episode的未来才能收到。在作者的设置中，解决方案的最终目标值只有在添加许多节点之后才会显示出来。因此，一步更新可能太短视了，其自然扩展是等待 $n$ 步，然后更新近似器的参数，以便收集对未来奖励的更准确的估计。形式上更新仍然是在相同的损失平方上，但是目标不同， $y=\sum_{i=0}^{n-1} r\left(S_{t+i}, v_{t+i}\right)+\gamma \max _{v^{\prime}} \widehat{Q}\left(h\left(S_{t+n}\right), v^{\prime} ; \Theta\right)$ 。

当使用神经网络作为函数逼近器时，拟合 $Q$ 迭代法已被证明可以导致更快的学习收敛，这一属性也适用于本文的设置。与逐个样本更新 $Q$ 函数不同，拟合 $Q$ 迭代方法使用experience replay来更新函数逼近器，使用来自数据集 $E$ 的一批样本，而不是当前经历的单个样本。数据集 $E$ 在之前的episode中被填充，这样在step $t + n$ ，元组 $\left(S_t, a_t, R_{t, t+n}, S_{t+n}\right)$ 被添加到 $E$ ，其中 $R_{t, t+n}=\sum_{j=0}^{n-1} r\left(S_{t+i}, a_{t+i}\right)$ 。然后，从 $E$ 中抽取的随机样本进行随机梯度更新。