GNN

一、GNN[2009]

数据可以在许多应用领域中自然地用图结构graph structure 来表达，包括蛋白质组织学proteomics 、图像分析、场景描述、软件工程、自然语言处理。最简单的图结构包括单节点single node、序列sequence。但是在一些应用中，信息被组织成更复杂的图结构，如树、无环图、带环图。传统上，数据关系探索一直是归纳式逻辑编程inductive logic programming 的社区中许多研究的主题。最近，数据关系探索data relationships exploitation这个研究主题已经朝着不同的方向发展，这也是因为统计statistics和神经网络中的相关概念在这些领域中的应用。
learning $\tau$ $\mathbf G$ $n$ $\tau(\mathbf G,v) \in \mathbb R^m$ $m$ 为向量的维度。在本文中，图领域的应用application 通常可以分为两大类，分别称作 graph-focused 应用、node-focused 应用。
- graph-focused $\tau$ $n$ ，并且在图结构的数据集上实现分类器或回归器。
  此时每个图具有一个 representation，并且每个图具有一个 target。
  $\mathbf G$ $\tau(\mathbf G)$ 可用于估计化合物引起某种疾病的概率。
  region adjacency graph $\tau(\mathbf G)$ 将图片分为不同的类别，如城堡、汽车、人等等。
- node-focused $\tau$ $n$ ，因此分类（或回归）取决于每个节点的属性。
  此时每个节点具有一个 representation，并且每个节点具有一个 target 。
  application $\tau$ $\tau$ 1 $\tau$ 输出为 0 。
  另一个例子来自于网页分类。web 可以通过一个图来表达，其中节点代表网页，边代表网页之间的超链接，如下图所示。可以利用 web connectivity 以及网页内容来实现多种目的purposes,，如页面的主题分类。
传统的机器学习 application 通过使用预处理 preprocessing 阶段来处理图结构化数据graph structured data ，该阶段将图结构化信息映射到更简单的 representation，如实值向量。换句话讲，预处理步骤首先将图结构化数据 "挤压squash" 为实数向量，然后使用 list-based 数据处理技术来处理 preprocessed的数据。然而，在预处理阶段，一些重要的信息（如每个节点的拓扑依赖性 topological dependency）可能会丢失，并且最终结果可能以不可预知的方式unpredictable manner 取决于预处理算法的细节。
最近，有各种方法试图在预处理阶段尽可能地保留数据的图结构特性，其思想是：使用图节点之间的拓扑关系对底层的图结构化数据进行编码，以便在数据正式处理步骤（即预处理步骤之后的模型处理阶段）中融合图结构化信息。这组技术包括 recursive neural network: RNN、马尔科夫链Markov chain: MC，并且通常可以同时应用于 graph-focused 问题和 node-focused 问题。论文 《The Graph Neural Network Model》提出的方法扩展了这两种方法（即 RNN 和马尔科夫链），因为该方法可以直接处理图结构化信息。
- 现有的 RNNdirected acyclic graph $\varphi_{\mathbf w}$ $\mathbf w$ $\varphi_{\mathbf w}$ 将图映射到实值向量。该方法也可以用于 node-focused application 中，此时，图必须经过预处理阶段。类似地，采用预处理阶段之后，我们可以处理某些类型的带环图。RNN 已被应用于多个问题，包括逻辑术语分类 logical term classification、化合物分类、logo 识别、网页评分、人脸定位 face localization。
  RNN 也与支持向量机有关，其中支持向量机采用特殊的 kernel 对图结构化数据进行操作，其中：
  - diffusion kernel 是基于热扩散方程heat diffusion equation 。
  - 《Marginalized kernels between labeled graphs》和 《Extensions of marginalized graph kernels》 中提出的 kernel 利用了图随机游走生成的向量。
  - 《Convolution kernels for natural language》、《Kernels for structured natural language data》、《Convolution kernels with feature selection for natural language processing tasks》 中设计的 kernel 使用了一种计算两棵树的公共子结构数量的方法。
  事实上，类似于支持向量机方法，RNN 自动将输入的图编码为内部 representation。然而，在 RNN 中内部编码是模型自动学到的，而在支持向量机中内部编码是由用户手动设计的。
- 另一方面，马尔科夫链模型可以建模事件之间的因果关系，其中因果关系由图来表达。最近，针对特定种类马尔科夫链模型的随机游走理论已成功应用于网页排名ranking 算法的实现。互联网搜索引擎使用排名算法来衡量网页的相对重要性。这类度量值通常与其它页面特征一起被搜索引擎所利用，从而对用户 query 返回的 URL 进行排序。人们已经进行了一些尝试来扩展这些具有学习能力的模型，以便可以从训练样本中学习模型参数。这些模型能够泛化结果从而对集合中的所有网页进行评分。更一般地，人们已经提出了几种其它统计方法，这些方法假设数据集由模式 pattern、以及模式之间的关系 relationship 组成。这些技术包括：随机场random field、贝叶斯网络、统计关系学习、transductive learning、用于图处理的半监督方法。
在论文 《The Graph Neural Network Model》 中，作者提出了一种有监督的神经网络模型，该模型同时适用于 graph-focused application 和 node-focused application。该模型将这两个现有模型（即 RNN 和马尔科夫链）统一到一个通用框架中。论文将这种新颖的神经网络模型称作图神经网络 graph neural network: GNN 。论文将证明 GNN 是 RNN 和随机游走模型的扩展，并且保留了它们的特性 characteristics 。
- GNN 模型扩展了 RNN，因为 GNN 可以处理更通用的图，包括带环图、有向图、无向图，并且无需任何预处理步骤即可处理 node-focused application 。
- GNN 方法通过引入 learning 算法、以及扩大可建模过程的种类从而扩展了随机游走理论。
GNN 基于信息扩散机制 information diffusion mechanism。图由一组单元unit 来处理，每个单元对应于图上的一个节点，这些节点根据图的连通性进行链接。这些单元更新它们的状态并交换信息，直到它们到达稳定的平衡stable equilibrium 。然后，基于单元的状态unit state 计算每个节点的输出。扩散机制是受约束constrained 的，从而确保始终存在唯一的稳定平衡。
这种实现机制已经在细胞神经网络、Hopfield 神经网络中使用。在那些神经网络模型中，连通性是根据预定义的图来指定的，网络连接本质上是循环 recurrent 的，神经元状态是通过松弛relaxation 到平衡点equilibrium point 来计算的。GNN 与那些神经网络不同之处在于：GNN 可以处理更加通用的图，并且采用更通用的扩散机制。
在论文 《The Graph Neural Network Model》 中，作者将介绍一种学习算法，该算法在一组给定的训练样本上估计 GNN 模型的参数。此外，参数估计算法的计算代价需要被考虑。还值得一提的是，《Computation capabilities of graph neural networks》 已经证明了 GNNGNN $\varphi$ 。

1.1 模型

$\mathbf G=(\mathbf N,\mathbf E)$ $\mathbf N$ $\mathbf E$ $n\in \mathbf N$ $\text{ne}[n]$ $\text{co}[n]$ $n$ 的边的集合。
节点和边可能含有额外的信息，这些信息统称为标签信息（它和监督学习中的标记label 不是一个概念），并以实值向量的形式来表示。
- $n$ $\vec l_n\in \mathbb R^{d_N}$ $(n_1,n_2)$ $\vec l_{n_1,n_2} \in \mathbb R^{d_E}$ $d_N$ $d_E$ 为边标签的维度。
- $\vec l$ 为图中所有标签向量（包括所有节点标签向量、所有边标签向量）拼接得到的all 标签向量。
- scheme $\mathbf{\vec y}$ $\mathbf G$ $\mathbf S$ $\mathbf G$ $\mathbf{\vec y}_\mathbf S$ $\mathbf S$ $\vec l_{\text{ne}[n]}$ $n$ 的邻域节点的所有节点标签。
注意，这里的符号定义与大多数论文的符号定义不同。
region $\mathbf G$ 中时，就需要区分它们。这可以通过在每条边上添加适当的标签来轻松地实现，此时，不同类型的边具有不同的标签。
$\mathbf G$ 可以是 positional 的、或者是 nonpositional 的。nonpositional graphpositional graph $n$ 的每个邻居都被分配一个 unique 的整数标识符，从而指示每个邻居的逻辑位置logical positionpositional graph $\nu_n:\text{ne}[n]\rightarrow \{1,2,\cdots,|\mathbf N|\}$ $n$ $u$ position $\nu_n(u)$ region adjacency graph $\nu_n$ $\nu_n$ $n$ 的邻居。
注意，位置信息可以通过对邻居节点分配位置编号来显式地给出，也可以通过对邻居节点进行排序从而隐式地给出。
(graph, node) pair $\mathcal D = \mathcal G\times \mathcal N$ $\mathcal G=\{\mathbf G_1,\cdots\}$ graph $\mathcal N=\{\mathbf N_1,\cdots\}$ 为这些 graph 的节点集合的集合，即：
$L = {(G_{i}, n_{i, j}, t_{i, j}) ∣ G_{i} = (N_{i}, E_{i}) \in G, n_{i, j} \in N_{i}, t_{i, j} \in R^{m}, 1 \leq i \leq p, 1 \leq j \leq q_{i}}$
$\mathbf G_i$ $i$ $n_{i,j}$ $\mathbf G_i$ $j$ $\mathbf t_{i,j}$ $n_{i,j}$ desired target $p\le |\mathcal G|$ $q_i\le |\mathbf N_i|$ 。
$\mathcal D$ unique $\mathcal D$ pair $\mathcal L = (\mathbf G,\mathcal T)$ $\mathbf G=(\mathbf N,\mathbf E)$ $\mathcal T = \left\{\left(n_i,\mathbf t_i\right)\mid n_i\in \mathbf N,\mathbf t_i\in \mathcal R^m,1\le i\le q\right\}$ 。值得一提的是，这个紧凑的定义不仅因为它简单易用，而且它还直接捕捉到了一些问题的本质，其中领域domain 仅由一个图组成，如大部分的 web 网络（如下图所示）。

1.1.1 思想

state vector $\mathbf{\vec x}_n\in \mathcal R^s$ $n$ $\mathbf{\vec x}_n$ $n$ $s$ $\mathbf{\vec x}_n$ $n$ representation $\mathbf{\vec o}_n$ （即，这个概念能决定什么）。
$f_{\mathbf w}(\cdot)$ 为一个参数化parametriclocal transition function $g_{\mathbf w}(\cdot)$ local output function $\mathbf{\vec x}_n$ $\mathbf{\vec o}_n$ 的定义如下：
$\begin{matrix} {\vec{x}}_{n} = f_{w} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, {\vec{x}}_{ne [n]}, {\vec{l}}_{ne [n]}) \\ {\vec{o}}_{n} = g_{w} ({\vec{x}}_{n}, {\vec{l}}_{n}) \end{matrix}$
其中：
- $\vec l_n$ $n$ 的标签信息向量。
- $\vec l_{\text{co}[n]}$ $n$ 的所有边的标签信息向量拼接的向量。
- $\mathbf{\vec x}_{\text{ne}[n]}$ $n$ 的所有邻居的状态向量拼接的向量。
- ${\vec l}_{\text{ne}[n]}$ $n$ 的所有邻居的标签信息向量拼接的向量。
$n$ $\mathbf{\vec x}_n$ $\mathbf{\vec x}_{\text{ne}[n]}$ 。而邻居的状态向量又依赖于邻居的邻居的状态向量集合。
注意：这里的邻域依赖性使得计算状态向量所依赖的节点规模迅速膨胀。假设平均邻域大小为 10 个节点，如果最多依赖于 5 阶邻域，那么计算每个状态向量需要依赖于 5 阶邻域内的 10 万个邻域节点。
备注：
- $\vec l_{\text{ne}[n]}$ $\vec l_{\text{ne}[n]}$ $\mathbf{\vec x}_{\text{ne}[n]}$ $n$ 2-hop 或者多个 hop 的节点。
- $f_{\mathbf w}(\cdot)$ $d_e, \mathit e \in \text{co}[n]$ $e$ $n$ $d_e = 1$ $e$ $n$ $d_e = 0$ 。则有：
  ${\vec{x}}_{n} = f_{w} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, d_{co [n]}, {\vec{x}}_{ne [n]}, {\vec{l}}_{ne [n]})$
  本文中为了保持符号紧凑，我们使用无向图的形式。然而，除非特殊说明，否则本文中提出的所有结果也适用于有向图、以及混合有向与无向的图。
- $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ parameters $n$ $n$ $k_n$ $f_{\mathbf w}^{k_n}(\cdot)$ $g_{\mathbf w}^{k_n}(\cdot)$ $\mathbf w_{k_n}$ ，则有：
  $\begin{matrix} {\vec{x}}_{n} = f_{w_{k_{n}}}^{k_{n}} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, {\vec{x}}_{ne [n]}, {\vec{l}}_{ne [n]}) \\ {\vec{o}}_{n} = g_{w_{k_{n}}}^{k_{n}} ({\vec{x}}_{n}, {\vec{l}}_{n}) \end{matrix}$
  然而为了简单起见，我们对所有节点共享相同的转移函数和输出函数（包括它们的参数）。
  如果没有参数共享则模型的容量太大导致难以训练且很容易过拟合。
$\mathbf{\vec x}, \mathbf{\vec o},\vec l,\vec l_{\mathbf N}$ $\mathbf{\vec x}=\left[\mathbf{\vec x}_1^\top,\cdots,\mathbf{\vec x}_{|\mathbf N|}^\top\right]^\top$ ），则有：
$\begin{matrix} \vec{x} = F_{w} (\vec{x}, \vec{l}) \\ \vec{o} = G_{w} (\vec{x}, {\vec{l}}_{N}) \end{matrix}$
其中：
- $F_{\mathbf w}(\cdot)$ global transition fucntion $|\mathbf N|$ $f_{\mathbf w}(\cdot)$ 组成。
- $G_{\mathbf w}(\cdot)$ global output function $|\mathbf N|$ $g_{\mathbf w}(\cdot)$ 组成。
pair $\mathcal D = \mathcal G\times \mathcal N$ $\mathcal G=\{\mathbf G_1,\cdots\}$ $\mathbf N=\{\mathbf N_1,\cdots\}$ $\varphi_{\mathbf w}: \mathcal D \rightarrow \mathcal R^m$ $n$ $\mathbf{\vec o}_n$ 。
Banach 不动点理论 fixed point theoremBanach $F_{\mathbf w}(\cdot)$ $\mathbf{\vec x} = F_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}\right)$ $F_{\mathbf w}(\cdot)$ contraction map $\mu, 0\le\mu\lt 1$ $\mathbf{\vec x}, \mathbf{\vec y}$ 都有：
$‖ F_{w} (\vec{x}, \vec{l}) - F_{w} (\vec{y}, \vec{l}) ‖ \leq μ ‖ \vec{x} - \vec{y} ‖$
$||\cdot||$ 表示向量范数。
$F_{\mathbf w}(\cdot)$ 是一个收缩映射。实际上在 GNN 模型中，这个条件是通过适当的选择转移函数来实现的。
上述公式能够同时处理位置图positional graph和非位置图nonpositional graph 。
- $f_{\mathbf w}(\cdot)$ $\vec l_{\text{co}[n]}, \mathbf{\vec x}_{\text{ne}[n]}, \vec l_{\text{ne}[n]}$ 按照排序之后的顺序进行拼接。如果在某些位置处的邻居不存在，则需要填充 null 值。例如：
  ${\vec{x}}_{ne [n]} = {[{\vec{y}}_{1}^{⊤}, \dots, {\vec{y}}_{M}^{⊤}]}^{⊤}$
  其中：
  - $M = \max_{n,u}\nu_n(u)$ 为所有节点的最大邻居数。
  - $\mathbf{\vec y}_i$ $i$ 个位置邻居的状态向量：
    $\begin{matrix} {\vec{y}}_{i} = {\begin{cases} {\vec{x}}_{u} & if (i = ν_{n} (u)) \\ {\vec{x}}_{0} & else \end{cases} \end{matrix}$
    $u$ $n$ $i$ $\mathbf{\vec y}_i = \mathbf{\vec x}_u$ $n$ $i$ $\mathbf{\vec y}_i$ null $\mathbf{\vec x}_0$ 。
- $f_{\mathbf w}(\cdot)$ 替换为：
  ${\vec{x}}_{n} = \sum_{u \in ne [n]} h_{w} ({\vec{l}}_{n}, {\vec{l}}_{(n, u)}, {\vec{x}}_{u}, {\vec{l}}_{u})$
  $h_{\mathbf w}(\cdot)$ 为待学习的函数，它和邻居节点的数量和位置无关。这种形式被称作 nonpositional form，而原始形式被称作 positional form。
  注意，这里对邻居节点采用 sum 聚合。也可以采用 max 聚合或者 attention 聚合。
为实现 GNN 模型，我们必须解决以下问题：
- 求解以下方程的算法：
  $\begin{matrix} {\vec{x}}_{n} = f_{w} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, {\vec{x}}_{ne [n]}, {\vec{l}}_{ne [n]}) \\ {\vec{o}}_{n} = g_{w} ({\vec{x}}_{n}, {\vec{l}}_{n}) \end{matrix}$
- $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ 参数的学习算法。
- $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ 的实现方式，即：解空间。

1.1.2 方程求解算法

Banach 不动点理论不仅保证了解的存在性和唯一性，还给出了求解的方式：采用经典的迭代式求解：
$\vec{x} (t + 1) = F_{w} (\vec{x} (t), \vec{l})$
$\mathbf{\vec x}(t)$ $\mathbf{\vec x}$ $t$ 次迭代值。
$\mathbf{\vec x}(0)$ $\mathbf{\vec x} = F_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}\right)$ $\mathbf{\vec x}(t)$ $F_{\mathbf w}(\cdot)$ $\mathbf{\vec o}_n(t)$ $\mathbf{\vec x}_n(t)$ 的更新方程为：
$\begin{matrix} {\vec{x}}_{n} (t + 1) = f_{w} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, {\vec{x}}_{ne [n]} (t), {\vec{l}}_{ne [n]}) \\ {\vec{o}}_{n} (t) = g_{w} ({\vec{x}}_{n} (t), {\vec{l}}_{n}), n \in N \end{matrix}$
unit $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ 计算其输出。这个神经网络被称作编码网络 encoding networkRNN $f_{\mathbf w}(\cdot)$ $\mathbf{\vec x}_n(t+1)$ 。
$f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ 通过前馈神经网络实现时，编码网络就成为 RNN ，其中神经元之间的连接可以分为内部连接internal connection 和外部连接external connection ：内部连接由实现处理单元的神经网络架构（如前馈神经网络）决定，外部连接由图的边来决定。
如下图所示：上半图对应一个图Graph，中间图对应于编码网络，下半图对应于编码网络的展开图unfolding graph 。在展开图中，每一层layer 代表一个时间步，layer 之间的链接（外部连接）由图的连接性来决定，layer 内神经元的链接（内部连接）由神经网络架构决定。
$f_\mathbf w(\cdot)$ $\mathbf{\vec x}_n(t)$ ，外部连接决定节点之间的依赖关系。

1.1.3 参数学习算法

假设训练集为：
$\begin{matrix} L = {(G_{i}, n_{i, j}, t_{i, j}) ∣ G_{i} = (N_{i}, E_{i}) \in G, n_{i, j} \in N_{i}, t_{i, j} \in R^{m}, 1 \leq i \leq p, 1 \leq j \leq q_{i}} \\ p \leq | G |, q_{i} \leq | N_{i} | \end{matrix}$
$\mathbf G_i$ $i$ $\mathbf N_i$ $i$ $\mathbf E_i$ $i$ $n_{i,j}$ $i$ $j$ $\mathbf t_{i,j}$ $n_{i,j}$ target $q_i$ $\mathbf G_i$ $p$ 为数据集中图的数量。
- graph-focused $q_i = 1$ 。
- 对于node-focused 任务，每个节点都可以包含监督信息。
假设采用平方误差，则训练集的损失函数为：
$e_{w} = \sum_{i = 1}^{p} \sum_{j = 1}^{q_{i}} {‖ t_{i, j} - φ_{w} (G_{i}, n_{i, j}) ‖}_{2}^{2}$
$\varphi_\mathbf{w}(\cdot)$ 为近似函数 approximate function` 。
也可以在损失函数中增加罚项从而对模型施加约束。
我们可以基于梯度下降算法来求解该最优化问题，求解方法由以下几步组成：
- $\mathbf{\vec x}_n(t)$ $T$ ：
  $\begin{matrix} {\vec{x}}_{n} (t + 1) = f_{w} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, {\vec{x}}_{ne [n]} (t), {\vec{l}}_{ne [n]}) \\ {\vec{o}}_{n} (t) = g_{w} ({\vec{x}}_{n} (t), {\vec{l}}_{n}), n \in N \end{matrix}$
  $\mathbf{\vec x} = F_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}\right)$ $\mathbf{\vec x}^*$ $\mathbf{\vec x}(T) \simeq \mathbf{\vec x}^*$ 。
  $F_{\mathbf w}(\cdot)$ 是一个压缩映射，从而保证方程能够收敛到一个不动点。
- $\nabla_{\mathbf{ w}} e_{\mathbf w}$ 。
- $\mathbf w$ 。
$\nabla_{\mathbf{ w}} e_{\mathbf w}$ 的计算可以利用 GNN 中发生的扩散过程diffusion process以非常高效的方式进行。这种扩散过程与 RNNbackpropagation-through-time: BPTT $T$ unfold $t_0$ unit $f_{\mathbf w}(\cdot)$ $T$ $g_{\mathbf w}(\cdot)$ 并计算网络的输出。
BPTT $T$ $t$ $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ $\nabla_{\mathbf{ w}} e_{\mathbf w}(T)$ BPTT $t$ $\mathbf {\vec x}(t)$ $T-t_0$ Almeida-Pineda $\mathbf{\vec x}(t)$ $\mathbf{\vec x}^*$ $t\ge t_0$ $\mathbf{\vec x}(t) = \mathbf{\vec x}^*$ BPTT $\mathbf{\vec x}^*$ 即可。
下面两个定理表明这种简单直观方法的合理性：
- Differentiability $F_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}\right)$ $G_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}_\mathbf N\right)$ $\mathbf{\vec x}$ $\mathbf{w}$ $\varphi_{\mathbf w}$ $\mathbf{w}$ 也是连续可微的。
  GNN $\varphi_{\mathbf w}$ $F_{\mathbf w}(\cdot)$ 是收缩映射。
- $F_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}\right)$ $G_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}_\mathbf N\right)$ $\mathbf{\vec x}$ $\mathbf{w}$ $\mathbf{\vec z}(t) \in \mathcal R^s$ 为：
  $\vec{z} (t) = {(\frac{\partial F_{w} (\vec{x}, \vec{l})}{\partial \vec{x}})}^{⊤} \vec{z} (t + 1) + {(\frac{\partial G_{w} (\vec{x}, {\vec{l}}_{N})}{\partial \vec{x}})}^{⊤} \nabla_{\vec{o}} e_{w} (t)$
  $\mathbf{\vec z}(T),\mathbf{\vec z}(T-1),\cdots$ $\mathbf{\vec z}^* = \lim_{t\rightarrow -\infty} \mathbf{\vec z}(t)$ $\mathbf{\vec z}(T)$ 无关。
  更进一步有：
  $\nabla_{w} e_{w} = {(\frac{\partial G_{w} ({\vec{x}}^{*}, {\vec{l}}_{N})}{\partial w})}^{⊤} \nabla_{\vec{o}} e_{w} + {(\frac{\partial F_{w} ({\vec{x}}^{*}, \vec{l})}{\partial w})}^{⊤} {\vec{z}}^{*}$
  $\mathbf{\vec x}^*$ GNN $\mathbf{\vec z}^*$ 为上述收敛的向量。
  证明见论文原文。
  $G_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ layer $F_{\mathbf w}(\cdot)$ $f_{\mathbf w}(\cdot)$ 的 layer 时计算这一项。
GNN 参数学习算法包含三个部分：
- FORWARD $\mathbf{\vec x}^*$ $\left\|\mathbf{\vec x}(t) - \mathbf{\vec x}(t-1)\right\|$ 小于给定的阈值。
- BACKWARD $\nabla_{\mathbf{w}} e_{\mathbf w}$ $\left\|\mathbf{\vec z}(t-1) - \mathbf{\vec z}(t)\right\|$ 小于给定的阈值。
- MAIN $\mathbf{w}$ 直到满足迭代的停止标准。
FORWARD 部分：
- $\mathbf G = (\mathbf N,\mathbf E)$ $\mathbf{w}$ $\epsilon_f$
- $\mathbf{\vec x}^*$
- 算法步骤：
  - $\mathbf{\vec x}(0)$ $t=0$ 。
  - $\left\|\mathbf{\vec x}(t) - \mathbf{\vec x}(t-1)\right\|\le \epsilon_f$ 。迭代步骤为：
    - $\mathbf{\vec x}(t+1)$ $\mathbf{\vec x}(t+1) = F_{\mathbf w}\left(\mathbf{\vec x}(t),\vec l\right)$ 。
    - $t = t+1$ 。
  - $\mathbf{\vec x}^*(t)$ 。
BACKWARD 部分：
- $\mathbf G=(\mathbf N,\mathbf E)$ $\mathbf{\vec x}^*$ $\mathbf{w}$ $\epsilon_b$
- $\nabla_{\mathbf{w}}e_{\mathbf w}$
- 算法步骤：
  - 定义：
    $\vec{o} = G_{w} ({\vec{x}}^{*}, {\vec{l}}_{N}) A = {(\frac{\partial F_{w} ({\vec{x}}^{*}, \vec{l})}{\partial \vec{x}})}^{⊤}, \vec{b} = {(\frac{G_{w} ({\vec{x}}^{*}, {\vec{l}}_{N})}{\partial \vec{x}})}^{⊤} \nabla_{\vec{o}} e_{w}$
  - $\mathbf{\vec z}(T)$ $t = T$ 。
  - $\left\|\mathbf{\vec z}(t-1) - \mathbf{\vec z}(t)\right\|\le \epsilon_b$ $\mathbf{\vec z}^*$ 。迭代步骤为：
    - $\mathbf{\vec z}(t)$ $\mathbf{\vec z}(t) = \mathbf A\mathbf{\vec z}(t+1) + \mathbf{\vec b}$ 。
    - $t = t - 1$ 。
  - 计算梯度：
    $\nabla_{w} e_{w} = {(\frac{\partial G_{w} ({\vec{x}}^{*}, {\vec{l}}_{N})}{\partial w})}^{⊤} \nabla_{\vec{o}} e_{w} + {(\frac{\partial F_{w} ({\vec{x}}^{*}, \vec{l})}{\partial w})}^{⊤} {\vec{z}}^{*}$
  - $\nabla_{\mathbf{w}}e_{\mathbf w}$ 。
Main 部分：
- $\mathbf G=(\mathbf N,\mathbf E)$ $\lambda$
- $\mathbf{w}$
- 算法步骤：
  - $\mathbf{w}$ 。
  - $\mathbf{\vec x}^* = \text{Forward}(\mathbf{w})$ 。
  - 循环迭代，直到满足停止条件。循环步骤为：
    - $\nabla_{\mathbf{w}} e_{\mathbf w} = \text{Backward}\left(\mathbf{\vec x}^*,\mathbf{w}\right)$
    - $\mathbf{w} = \mathbf{w} - \lambda \nabla_{\mathbf{w}} e_{\mathbf w}$ 。
    - $\mathbf{\vec x}^* = \text{Forward}(\mathbf{w})$ 。
  - $\mathbf{w}$ 。
Main $\lambda$ ，但是也可以使用基于梯度下降的一些通用策略，例如使用带动量的梯度更新、或者自适应学习率的方案。另一方面，目前 GNN 只能通过梯度下降算法求解，非梯度下降算法目前还未解决，这是未来研究的方向。
实际上编码网络仅仅类似于静态的前馈神经网络，但是编码网络的layer 层数是动态确定的（类似于 RNN ），并且网络权重根据输入图的拓扑结构来共享。因此为静态网络设计的二阶学习算法、剪枝算法、以及逐层学习算法无法直接应用于 GNN 。

1.1.4 转移函数和输出函数

$g_{\mathbf w}(\cdot)$ GNN $g_{\mathbf w}(\cdot)$ 采用一个多层前馈神经网络来实现。
$f_{\mathbf w}(\cdot)$ 在 GNNGNN $F_{\mathbf w}(\cdot)$ $f_{\mathbf w}(\cdot)$ 的实现，它们都是基于nonpositional form，positional form 也可以类似地实现。
nonpositional linear GNN 线性 GNN：
$h_{w} ({\vec{l}}_{n}, {\vec{l}}_{(n, u)}, {\vec{x}}_{u}, {\vec{l}}_{u}) = A_{n, u} {\vec{x}}_{u} + {\vec{b}}_{n}$
$\mathbf{\vec b}_n\in \mathcal R^s$ $\mathbf A_{n,u}\in \mathcal R^{s\times s}$ 分别由两个前馈神经网络的输出来定义，这两个前馈神经网络的参数对应于 GNN 的参数。更准确的说：
- transition network $\mathbf A_{n,u}$ 。
  $\phi_{\mathbf w}:\mathcal R^{2d_N+d_E} \rightarrow \mathcal R^{s^2}$ ，则定义：
  $A_{n, u} = \frac{μ}{s \times | ne [u] |} B$
  其中：
  - $\mathbf B\in \mathcal R^{s\times s}$ $\phi_{\mathbf w}\left(\vec l_n,\vec l_{n,u},\vec l_u\right)$ $s^2$ 个元素进行重新排列得到的矩阵。
  - $\mu\in (0,1)$ $\frac{\mu}{s\times |\text{ne}[u]|}$ $\mathbf B$ 进行缩放。
  $\mathbf A_{n,u}$ $\mathbf B$ 进行缩放得到。
  $\mathbf A_{n,u}$ tanh $F_\mathbf w(\cdot)$ 为收缩映射。
- forcing network $\mathbf{\vec b}_n$ 。
  $\rho_{\mathbf w}: \mathcal R^{d_N} \rightarrow \mathcal R^s$ ，则定义：
  ${\vec{b}}_{n} = ρ_{w} ({\vec{l}}_{n})$
  $\mathbf{\vec b}_n$ 为约束网络的输出构成的向量。
  $\mathbf{\vec b}_n$ $n$ 本身的标签信息。
$\left\|\phi_{\mathbf w}(\vec l_n,\vec l_{n,u},\vec l_u)\right\|_1 \le s$ $|\mathbf B|_1 \le s$ tanh $h_{\mathbf w} \left({\vec l}_n,{\vec l}_{(n,u)}, \mathbf{\vec x}_{u},{\vec l}_{u}\right) = \mathbf A_{n,u} \mathbf{\vec x}_u + \mathbf{\vec b}_n$ 有：
$F_{w} (\vec{x}, \vec{l}) = A \vec{x} + \vec{b}$
其中：
- $\mathbf{\vec b}$ $\mathbf{\vec b}_n$ $\mathbf{\vec x}$ $\mathbf{\vec x}_n$ 拼接而来：
  $\vec{b} = {[{\vec{b}}_{1}^{⊤}, \dots, {\vec{b}}_{| N |}^{⊤}]}^{⊤} \vec{x} = {[{\vec{x}}_{1}^{⊤}, \dots, {\vec{x}}_{| N |}^{⊤}]}^{⊤}$
- $\mathbf A$ $\bar{\mathbf A}_{n,u}$ ：
  $\begin{matrix} A = [\begin{matrix} {\bar{A}}_{1, 1} & {\bar{A}}_{1, 2} & \dots & {\bar{A}}_{1, | N |} \\ {\bar{A}}_{2, 1} & {\bar{A}}_{2, 2} & \dots & {\bar{A}}_{2, | N |} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ {\bar{A}}_{| N |, 1} & {\bar{A}}_{| N |, 2} & \dots & {\bar{A}}_{| N |, | N |} \end{matrix}] \end{matrix}$
  其中：
  - $u$ $n$ $\bar{\mathbf A}_{n,u} = \mathbf A_{n,u}$ 。
  - $u$ $n$ $\bar{\mathbf A}_{n,u} = \mathbf 0$ 。
$\mathbf{\vec b}_n$ $\mathbf A_{n,u}$ $\mathbf{\vec x}$ （它们仅仅依赖于图的结构和节点标签信息、边标签信息），因此有：
$\frac{\partial F_{w} (\vec{x}, \vec{l})}{\partial \vec{x}} = A$
则有：
${‖ \frac{\partial F_{w} (\vec{x}, \vec{l})}{\partial \vec{x}} ‖}_{1} = | | A | |_{1} \leq max_{u \in N} (\sum_{n \in ne [u]} | | A_{n, u} | |_{1}) \leq max_{u \in N} (\frac{μ}{s \times | ne [u] |} \times \sum_{n \in ne [u]} | | B | |_{1}) \leq μ$
$\mathbf{w}$ $F_{\mathbf w}(\cdot)$ 都是收缩映射。
nonpositional nonlinear GNNGNN $h_{\mathbf w} \left({\vec l}_n,{\vec l}_{(n,u)}, \mathbf{\vec x}_{u},{\vec l}_{u}\right)$ $\mathbf w$ $F_{\mathbf w}(\cdot)$ 是收缩映射。这可以通过在损失函数中增加罚项来实现：
$\begin{matrix} e_{w} = \sum_{i = 1}^{p} \sum_{j = 1}^{q_{i}} {‖ t_{i, j} - φ_{w} (G_{i}, n_{i, j}) ‖}_{2}^{2} + β L ({‖ A ‖}_{1}) \\ A = \frac{\partial F_{w} (\vec{x}, \vec{l})}{\partial \vec{x}} \end{matrix}$
$\mathbf{\vec x}$ $\mathbf w$ 的大小进行约束。
$\mathbf A$ $F_\mathbf w(\cdot)$ $\mathbf{\vec x}$ $L(\cdot)$ 定义为：
$\begin{matrix} L (y) = {\begin{cases} (y - μ)^{2} & , if y > μ \\ 0 & , else \end{cases} \end{matrix}$
$\mu \in (0,1)$ $F_{\mathbf w}(\cdot)$ 的约束。
$\mathbf w$ $\left\|\mathbf A\right\|_1$ $p_{\mathbf w} =L(\|\mathbf A\|_1)= \sum_{i=1}^s L\left(\left\|\mathbf A^i\right\|_1\right)$ $\mathbf A^i$ $\mathbf A$ $i$ $L\left(\max_i\left\|\mathbf A^i\right\|_1\right)$ 的一个近似。

1.2 模型分析

GNN 和 RNN：事实上，GNN 是其它已知模型的扩展，特别地，RNN 是 GNN 的特例。当满足以下条件时，GNN 退化为 RNN：
- 输入图为有向无环图（例如最简单的有向的、线性的链式图）。
- $f_{\mathbf w}(\cdot)$ $\vec l_n, \mathbf{\vec x}_{\text{ch}[n]}$ $\text{ch}[n]$ $n$ 的子结点的集合。
- $\text{sn}$ graph-focused $\mathbf{\vec o}_\text{sn}$ 。
$f_{\mathbf w}(\cdot),g_{\mathbf w}(\cdot)$ 的神经网络形式包括：多层前馈神经网络、cascade correlation、自组织映射 self-orgnizing map。在 RNN 中，编码网络采用多层前馈神经网络。这个简化了状态向量的计算。
GNN $f_{\mathbf w}(\cdot)$ 为线性函数时，GNN 模型还捕获了图上的随机游走过程。
$\mathbf{\vec x}_n$ 为一个实数，其定义为：
$x_{n} = \sum_{i \in pa [n]} a_{n, i} \times x_{i}$
$\text{pa}[n]$ $n$ $a_{n,i}$ 为归一化系数，满足：
$a_{n, i} \geq 0, \sum_{i \in pa [n]} a_{n, i} = 1$
$x_n = \sum_{i\in \text{pa}[n]} a_{n,i}\times x_i$ 定义了一个随机游走生成器：
- $a_{n,i}$ $n$ $i$ 的概率。
- $x_n$ $n$ 的概率。
$x_n$ $\mathbf{\vec x}$ ，则有：
$\begin{matrix} \vec{x} = A \vec{x} \\ \vec{x} = [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{| N |} \end{matrix}] A = [\begin{matrix} {\bar{a}}_{1, 1} & {\bar{a}}_{1, 2} & \dots & {\bar{a}}_{1, | N |} \\ {\bar{a}}_{2, 1} & {\bar{a}}_{2, 2} & \dots & {\bar{a}}_{2, | N |} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ {\bar{a}}_{| N |, 1} & {\bar{a}}_{| N |, 2} & \dots & {\bar{a}}_{| N |, | N |} \end{matrix}] \end{matrix}$
其中：
$\begin{matrix} {\bar{a}}_{n, i} = {\begin{cases} a_{n, i} & , if (i \in pa [n]) \\ 0 & , else \end{cases} \end{matrix}$
$||\mathbf A||_1 = 1$ 。
$t$ $\mathbf A^t$ $x_n = \sum_{i\in \text{pa}[n]} a_{n,i}\times x_i$ 就是一个收缩映射。
$t$ $\mathbf A^t$ GNN $F_{\mathbf w}(\cdot)$ $\mathbf A$ 是一个常量随机矩阵constant stochastic matrix ，而不是由神经网络产生的矩阵。
$\text{pa}[n]$ $\text{ne}[n]$ ，则结论仍然成立。
读者注：GNN 的核心是不动点理论，通过节点的消息传播使得整张图的每个节点的状态收敛，然后在收敛的状态基础上预测。
这里存在一个局限：基于不动点的收敛会导致节点之间的状态存在较多的消息共享，从而导致节点状态之间过于光滑 over smooth ，这将使得节点之间缺少区分度。
如下图所示，每个像素点和它的上下左右、以及斜上下左右八个像素点相邻。初始时刻蓝色没有信息量，绿色、黄色、红色各有一部分信息。
- 开始时刻，不同像素点的区分非常明显。
- 在不动点的收敛过程中，所有像素点都趋向于一致，最终整个系统的信息分布比较均匀。
- 最终，虽然每个像素点都感知到了全局信息，但是我们已经无法根据每个像素点的最终状态来区分它们。

1.3 计算复杂度

我们关心三种类型的 GNNpositional GNN $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ 通过前馈神经网络来实现）、nonpositional linear GNN、nonpositional nonlinear GNN 。
训练过程中一些复杂运算的计算复杂度见下表。为方便表述，我们假设训练集仅包含一张图。这种简化不影响结论，因为训练集所有的图总是可以合并为一张大图。另外，复杂度通过浮点运算量来衡量。
具体推导见论文。其中：
- instruction 表示具体的运算指令，positional/non-linear/linear 分别给出了三类 GNN 模型在对应运算指令的计算复杂度，execs 给出了迭代的次数。
- $\text{hi}$ $\text{hi}_f$ $f_\mathbf w(\cdot)$ 的实现网络的隐层神经元数量。
- $\text{it}_l$ epoch $\text{it}_b$ 表示平均每个epochBACKWARD $\text{it}_f$ 表示平均每个epoch 的前向迭代次数（FORWARD 过程中的循环迭代次数）。
- $\overrightarrow C_f$ $\overleftarrow C_f$ $f_\mathbf w(\cdot)$ $f_\mathbf w(\cdot)$ 梯度的计算复杂度。
- ${\mathbf A}= \frac{\partial F_{\mathbf w}\left(\mathbf{\vec x},\vec l\right)}{\partial \mathbf{\vec x}}$ $p_\mathbf w$ 为：
  $p_{w} = \sum_{j = 1}^{s} L ({‖ A^{j} ‖}_{1}) = \sum_{u \in N} \sum_{j = 1}^{s} L (\sum_{(n, u) \in E} \sum_{i = 1}^{s} | A_{i, j}^{n, u} | - μ) = \sum_{u \in N} \sum_{j = 1}^{s} α_{u, j}$
  $\mathbf A^{n,u}_{i,j}$ $\mathbf A$ $\mathbf A^{n,u}$ $i$ $j$ $\mathbf{ A}^j$ $\mathbf A$ $j$ $\alpha_{u,j}=L\left(\sum_{(n,u)\in \mathbf E}\sum_{i=1}^s \left|\mathbf A_{i,j}^{n,u}\right|-\mu\right )$ 。
- $\mathbf R^{n,u}$ $\mathbf R^{n,u}_{i,j} = \alpha_{u,j}\times \text{sgn}\left(\mathbf A^{n,u}_{i,j}\right)$ $t_\mathbf R$ $n$ $\mathbf R^{n,u} \ne \mathbf 0$ $u$ 的数量的均值。通常它是一个很小的数值。
当 GNN 模型训练完成之后，其推断速度也很快。
- positional GNN $O(|\mathbf N|\overrightarrow C_g + \text{it}_f|\mathbf N|\overrightarrow C_f)$ 。
- nonpositional nonliear GNN $O(|\mathbf N|\overrightarrow C_g +\text{it}_f|\mathbf E|\overrightarrow C_h)$ 。
- nonpositional linear GNN $O(|\mathbf N|\overrightarrow C_g+\text{it}_f|\mathbf E|s^2+|\mathbf N|\overrightarrow C_\rho+|\mathbf E|\overrightarrow C_\phi)$ 。
$\mathbf{\vec x}$ 的重复计算中，每次迭代的计算代价和输入图的维度（如边的数量）成线性关系，和前馈神经网络的隐层维度成线性关系，和状态向量的维度成线性关系。线性 GNN 是一个例外。线性 GNN 的单次迭代成本是状态维度的二次关系。
状态向量的收敛速度取决于具体的问题。但是 Banach 定理可以确保它是以指数级速度收敛。实验表明：通常5 到 15 次迭代足以逼近不动点。
positional GNN $\text{it}_f|\mathbf N|$ nonpositional nonliear GNN $\text{it}_f|\mathbf E|$ $|\mathbf E|$ $|\mathbf N|$ ，但是positional GNN 和 nonpositional nonlinear GNNpositional GNN $f_{\mathbf w}(\cdot)$ nonpositional nonliear GNN $h_{\mathbf w}(\cdot)$ 网络更复杂。
- positional GNN $f_{\mathbf w}(\cdot)$ $M\times (s + d_E)$ $M$ 为所有节点的最大邻居数量。
- nonpositonal nonliear GNN $h_{\mathbf w}(\cdot)$ $(s+d_E)$ 个神经元。
$f_{\mathbf w}(\cdot)$ $f_{\mathbf w}(\cdot)$ 时许多输入可能仍然未使用（很多输入填充为 null ）。
另一方面，观察到在 linear GNNFNN $O(s^2|\mathbf E|)$ $O(|\mathbf E|\overrightarrow C_h)$ 。
$h_{\mathbf w}(\cdot)$ $\text{hi}_h$ FNN $\overrightarrow C_h = O((s+d_E+2d_N)\times \text{hi}_h) = O(s\times \text{hi}_h)$ $\text{hi}_h$ $s$ ，因此线性模型比非线性模型更快。正如实验所证实的那样，这种优势通常被更差的效果所抵消。
GNN 的训练阶段要比推断阶段消耗更多时间，主要在于需要在多个epoch 中重复执行 forward 和 backward 过程。实验表明：forward 阶段和 backward 阶段的时间代价都差不多。
- forward $\mathbf{\vec x}(t)$ 。
- 类似于 forwardbackward $\mathbf{\vec z}(t)$ $\mathbf{\vec z}(t)$ $\text{it}_b$ 通常很小。
训练过程中，每个 epoch 的计算代价可以由上表中所有指令的计算复杂度的加权和得到，权重为指令对应的迭代次数。
- $s$ 的线性函数。
  $\mathbf{\vec z}(t) = \mathbf A^\top \mathbf{\vec z}(t+1) + \mathbf{\vec b}, \mathbf A = \frac{F_{\mathbf w}\left(\mathbf{\vec x},\vec l\right)}{\partial \mathbf{\vec x}}, \nabla_{\mathbf{w}}p_{\mathbf w}$ $s$ 的平方关系。
- nonpositional nonlinear GNN $\nabla_{\mathbf{w}}p_{\mathbf w}$ $t_\mathbf R\times \max(s^2\times \text{hi}_h,\overleftarrow C_h)$ 。
  $t_\mathbf R$ epoch $t_\mathbf R=0$ $\mathbf A$ $t_\mathbf R$ 1~5 $s$ $\nabla_{\mathbf{w}}p_{\mathbf w}$ 的复杂度较低。
  $s$ $s^2\times \text{hi}_h \gg \overleftarrow C_h$ $t_\mathbf R\gg 0$ $\nabla_{\mathbf{w}}p_{\mathbf w}$ 非常慢。但是值得一提的是，我们的实验中从未观察到这种情况。

1.4 实验

这里我们展示了在一组简单问题上获得的实验结果，这些问题是为了研究 GNN 模型的特性，并证明该方法可以应用于相关领域的相关应用。这些问题包括：子图匹配、诱变mutagenesis、网页排名，因为这些问题特别适合挖掘模型的属性并且与重要的现实应用相关。值得一提的是，GNN 模型已经成功应用于更大的应用，包括图像分类、图像中的物体定位、网页排名web page ranking 、关系学习relational learning、XML 分类。
除非另有说明，以下事实适用于每个实验。
- 根据 RNN 的已有经验，nonpositional 转移函数效果要优于 positional 转移函数，因此这里测试了 nonpositional linear GNN 和 nonpositional nonlinear GNN 。
- 所有GNNnonpositional linear GNN $g_{\mathbf w}(\cdot),\phi_{\mathbf w}(\cdot),\rho_{\mathbf w}(\cdot)$ nonpositional nonlinear GNN $g_{\mathbf w}(\cdot),h_{\mathbf w}(\cdot)$ 都采用三层的前馈神经网络来实现，并使用 sigmoid 激活函数。
- $\delta$ 随机连接，直到构建的随机图满足指定条件。
数据集划分为训练集、验证集和测试集。
- $\mathbf G$ $\mathbf G$ 的不同节点。
- $\mathbf G_i$ ，则每张图整个被划分到训练集、验证集、测试集之一。
在每次试验中，训练最多执行 5000 个 epoch，每 20 个 epoch 在验证集上评估 GNN 。在验证集上实现最低损失函数的 GNN 被认为是最佳模型，并应用于测试集。
测试集性能评估指标为分类准确率或回归相对误差。
- $\mathbf t_{i,j}$ $\{+1,-1\}$ $t_{i,j}\times \varphi_{\mathbf w}(\mathbf G_i,n_{i,j}) \gt 0$ 则分类正确；否则分类不正确。
- $\mathbf t_{i,j}$ $\mathcal R$ 。模型的评估指标为相对误差：
  $| \frac{t_{i, j} - φ_{w} (G_{i}, n_{i, j})}{t_{i, j}} |$
算法在 Matlab 7 上实现，在配备了 2-GHz PowerPC 处理器的 Power Mac G5 上进行。

1.4.1 子图匹配问题

subgraph matching $\mathbf G$ $\mathbf S$ $\tau$ $n_{i,j}$ $\mathbf G_i$ $\mathbf S$ $\tau(\mathbf G_i,n_{i,j}) = 1$ $\tau(\mathbf G_i,n_{i,j}) = -1$ 。
$\mathbf G_1,\mathbf G_2$ $\mathbf S$ $\vec l_n$ $\tau$ $\tau(\mathbf G_i,n_{i,j}) = 1$ $\tau(\mathbf G_i,n_{i,j}) = -1$ 。
子图匹配问题有很多实际应用，如：物体定位、化合物检测。子图匹配问题是评估图算法的基准测试。实验表明 GNN 模型可以处理该任务。
- 一方面 GNN 模型解决子图匹配问题的结果可能无法与该领域的专用方法相比，后者的速度更快、准确率更高。
- GNN $\mathbf G_i$ 是未知的且仅已知它的几个节点。
600 $\delta = 0.2$ $\mathbf S$ $\mathbf S$ $\mathbf G_i$ $\mathbf S$ 的一份拷贝。
每个节点包含整数标签，取值范围从 [0,10]。我们使用一个均值为00.25 $\mathbf S$ 的拷贝都不同。
注意添加噪声之后，节点的标签仍然为整数，因此需要四舍五入。
$\mathbf t_{i,j}$ $\mathbf G_i$ $\mathbf S$ 。
GNN 配置：
- $s=5$ 。
- 所有实验中，GNN 的所有神经网络的隐层为三层，隐层维度为 5 。我们已经测试过更多的网络架构，结果是类似的。
为评估子图匹配任务中，标签信息和子图连通性的相对重要性，我们还应用了前馈神经网络FNN 作为 baseline 。FNN 有一个输出单元、20FNN $\vec l_{n_{i,j}}$ $\mathbf t_{i,j}$ ，它并没有利用图的结构。
实验结果如下图所示，其中 NL 表示 nonpositional nonlinear GNN，L 表示 nonpositional linear GNN ，FNN 表示前馈神经网络。评估指标为测试集准确率。
结论：
- 正负节点的比例影响了所有方法的效果。
  - $|\mathbf S|$ $|\mathbf G|$ 时，几乎所有节点都是正样本，所有方法预测的准确率都较高。
  - $|\mathbf S|$ $|\mathbf G|$ 的一半时，正负节点比较均匀，此时所有方法预测的准确率都较低。
  事实上，在后一种情况下，数据集是完全平衡的，并且更难以猜测正确的目标。
- $|\mathbf S|$ 影响了所有方法的结果。
  11 $|\mathbf S|$ $|\mathbf S|$ $|\mathbf G| = 2|\mathbf S|$ 时。
- GNN 总是优于 FNN，这表明 GNN 可以同时利用标签内容和图的拓扑结构。
- 非线性 GNN 略优于线性 GNN，这可能是因为非线性 GNN 实现了更为通用的模型，它的模型容量更大。
- 最后，可以观察到 FNN 的总体平均误差比 GNN 增加大约 50% 。GNNFNN $|\mathbf S|$ 的增加而变小。
  实际上，GNNinformation diffusion mechanism $\mathbf S$ 较大时，必须扩散更多的信息，因此要学习的函数更复杂。
为评估GNN 的计算复杂度和准确性，我们评估了不同节点数、不同边数、不同隐层维度、不同状态向量维度的效果。在基准情况下：训练集包含10 个随机图，每个图包含20 个节点和 40 条边；GNN 隐层维度为5，状态向量维度为 2 。
GNN 训练 1000 个 epoch 并报告十次实验的平均结果。如预期的一样，梯度计算中需要的 CPU 时间随着节点数量、边的数量、隐层维度呈线性增长，随着状态向量维度呈二次增长。
下图为节点数量增加时，梯度计算花费的CPU 时间。实线表示非线性GNN，虚线表示线性 GNN 。
下图为状态向量维度增加时，梯度计算花费的 CPU 时间。实线表示非线性GNN，虚线表示线性 GNN 。
GNN $\mathbf A=\frac{\partial F_{\mathbf w}\left(\mathbf{\vec x},\vec l\right)}{\partial \mathbf{\vec x}}$ $\nabla_{\mathbf{w}} p_{\mathbf w}$ 的时间代价。下图给出了计算梯度过程中的总时间代价。
-o- $e_{\mathbf w}$ $\nabla_{\mathbf{w}}e_{\mathbf w}$ -*- $\mathbf A$ -x- $\nabla_{\mathbf{w}} p_{\mathbf w}$ 的时间代价；点线 ...和给出了剩下的前向计算的时间代价；虚线 ---给出了剩下的反向计算的时间代价；实线表示剩下的计算梯度的时间代价。
$\nabla_{\mathbf{w}} p_{\mathbf w}$ $t_\mathbf R$ $n$ $\mathbf R^{n,u} \ne \mathbf 0$ $u$ 的数量的均值），通常它是一个很小的数值。
epoch $\mathbf R^{n,u} \ne \mathbf 0$ $u$ $\mathbf R^{n,u}$ $u$ 4 $\mathbf{\vec x}^*$ $\mathbf{\vec z}^*$ ）所需要的平均迭代次数的直方图，可以看到这些值通常也很小。
$t_\mathbf R$ 取值（x 轴）的分布（y 轴表示出现次数）。

1.4.2 Mutagenesis问题

Mutagenesis 数据集：一个小型数据集，经常作为关系学习relational learning 和 inductive logic programming 中的基准。它包含 230 种硝基芳香族化合物的数据，这些化合物是很多工业化学反应中的常见中间副产品。
任务目标是学习识别 mutagenic 诱变化合物。我们将对数诱变系数 log mutagenicity 的阈值设为0，因此这个任务是一个二类分类问题。
数据集中的每个分子都被转换为一张图：
- 节点表示原子、边表示原子键 atom-bond：AB 。平均的节点数量大约为 26 。
- 边和节点的标签信息包括原子键 AB、原子类型、原子能量状态，以及其它全局特征。全局特征包括：chemical measurement化学度量 C （包括 lowest unoccupied molecule orbital, the water/octanol partition coefficient ）、precoded structural 预编码结构属性 P\mathbf S 。
  另外原子键可以用于定义官能团 functional groups: FG 。
- 在每个图中存在一个监督节点：分子描述中的第一个原子。如果分子为诱变的则该节点的期望输出为1，否则该节点的期望输出为 -1 。
在这 230 个分子中，有 188 个适合线性回归分析，这些分子被称作回归友好 regression friendly。剩下的 42 个分子称作回归不友好 regression unfriendly 。
GNN 在诱变化合物问题上的结果如下表所示。我们采用十折交叉验证进行评估：将数据集随机拆分为十份，重复实验十次，每次使用不同的部分作为测试集，剩余部分作为训练集。我们运行5 次十折交叉，并取其均值。
在回归友好分子上的效果：
在回归不友好分子上的效果：
在所有分子上的效果：
结论：
- GNN 在回归不友好分子和所有分子上的效果都达到最佳，在回归友好分子上的效果接近 state of the art 水平。
- 大多数方法在应用于整个数据集时，在回归友好分子上（相比较于回归不友好分子）显示出更高的准确率。但是GNN 与此相反。这表明 GNN 可以捕获有利于解决问题但是在回归友好分子、回归不友好分子这两部分中分布不均的模式特征。

1.4.3 Web PageRank

PageRank $n$ $p_n$ 定义为：
$p_{n} = d \times \frac{\sum_{u \in pa [n]} p_{u}}{o_{n}} + (1 - d)$
$o_n$ $n$ out-degree $d\in [0,1]$ damping factor $\text{pa}[n]$ $n$ 的父节点集合。
$\mathbf G$ $\delta = 0.2$ 随机生成，包含 5000 个节点。训练集、验证集、测试集由图的不同节点组成，其中 50 个节点作为训练集、50 个节点作为验证集、剩下节点作为测试集。
$n$ $\vec l_n = [a_n,b_n]$ $a_n\in \{0,1\},b_n \in \{0,1\}$ $n$ 是否属于两个给定的主题：
- $[a_n,b_n]=[1,1]$ $n$ 同时属于这两个主题。
- $[a_n,b_n] = [1,0]$ $n$ 仅仅属于第一个主题。
- $[a_n,b_n]=[0,1]$ $n$ 仅仅属于第二个主题。
- $[a_n,b_n]=[0,0]$ $n$ 不属于任何主题。
需要拟合的目标target 为：
$\begin{matrix} t_{n} = {\begin{cases} \frac{2 p_{n}}{\sum_{j \in N} | p_{j} |} & , if (a_{n} XOR b_{n}) = 1 \\ \frac{p_{n}}{\sum_{j \in N} | p_{j} |} & , otherwise \end{cases} \end{matrix}$
这里我们使用线性 GNN 模型，因为线性 GNN 模型很自然的类似于 PageRank 线性模型。转移网络和约束网络 forcing network5 $s=1$ $x_n$ ）。
$g_{\mathbf w}\left(x_n,\vec l_n\right) = x_n^\prime \times \pi_{\mathbf w}\left(x_n,\vec l_n\right)$ $x_n^\prime$ $x_n$ $\pi_{\mathbf w}$ 为三层前馈神经网络，隐层维度为 5 。
下图给出了 GNN 模型的结果。其中图 (a) 给出了仅属于一个主题的网页的结果，图 (b) 给出了其它网页的结果。
$t_n$ GNN $t_n$ $t_n$ 得分进行升序排列。该结果清晰地表明 GNN 在这个问题上表现得非常好。
下图给出学习过程中的误差。红色实线为训练集的误差，蓝色虚线是验证集的误差。注意：两条曲线总是非常接近，并且验证集的误差在 2400 个 epoch 之后仍在减少。这表明尽管训练集由 5000 个节点中的 50 个组成，GNN 仍然未经历过拟合。

二、Spectral Networks & Deep Locally Connected Networks [2013]

卷积神经网络 Convolutional Neural Networks: CNNs 在机器学习问题中非常成功，其中底层数据representation 的坐标具有网格结构grid structure （一维、二维、或三维的网格），并且在这些坐标中，这些待研究的数据相对于该网格具有平移相等translational equivariance 性或平移不变性 translational invariance。语音、图像、视频就是属于这一类问题的著名的例子。
在常规网格上，CNN 能够利用多种结构来很好地协同工作，从而大大减少系统中的参数数量：
- 平移结构 translation structure：它允许使用 filter 而不是通用的线性映射，从而实现权重共享weight sharing。
- 空间局部性：filter 的尺寸通常都远远小于输入信号的尺寸。
- 多尺度：通过步长大于一的卷积或者池化操作来减少参数，并获得更大的感受野 receptive field 。
然而在许多情况下，数据并不是网格结构，如社交网络数据，因此无法在其上应用标准的卷积网络。图 graph 提供了一个自然框架来泛化网格结构，并扩展了卷积的概念。在论文《Spectral Networks and Deep Locally Connected Networks on Graphs》中，作者将讨论在除了常规网格之外的图上构建深度神经网络。论文提出了两种不同的结构：
- 基于空域的卷积构建Spatial Construction ：通过将空间局部性和多尺度扩展到通用的图结构，并使用它们来定义局部连接和池化层，从而直接在原始图结构上执行卷积。
- 基于谱域的卷积构建Spectral Construction ：对图结构进行傅里叶变换之后，在谱域进行卷积。
论文主要贡献如下：
- $O(n)$ $n$ 为输入节点总数），并且论文在低维的图数据集上进行了验证。
- $O(1)$ 参数的结构，通过实验验证了该结构并讨论了它与图上的谐波分析问题harmonic analysis problem 的联系。

2.1 基础概念（读者补充）

2.1.1 拉普拉斯算子

$\mathbf{\vec F}(\mathbf{\vec x})$ $\Sigma$ $\mathbf{\vec x}$ $dS$ $\mathbf{\vec n}$ 为该微元的法向量，则该曲面的通量为：
$Φ_{\vec{F}} (Σ) = \oint_{Σ} \vec{F} \cdot \vec{n} d S$
$\Sigma$ $\mathbf{\vec x}$ 点的散度：
$div \vec{F} (\vec{x}) = \nabla \cdot \vec{F} = \nabla \cdot \vec{F} = \sum_{i = 1}^{n} \frac{\partial F_{i}}{\partial x_{i}}$
$\mathbf{\vec x} = (x_1,\cdots,x_n)^\top, \mathbf{\vec F} = (F_1,\cdots,F_n)^\top$ 。
散度的物理意义为：在向量场中从周围汇聚到该点或者从该点流出的流量。
$\mathbf{\vec F}(\mathbf{\vec x})$ $\Gamma$ $\mathbf{\vec x}$ $dl$ ${\vec \tau }$ 为该微元的切向量，则该曲线的环量为：
$Θ_{\vec{F}} (Γ) = \oint_{Γ} \vec{F} \cdot \vec{τ} d l$
$\Gamma$ $\mathbf{\vec x}$ 点的旋度：
$curl \vec{F} (\vec{x}) = \nabla \times \vec{F}$
在三维空间中，上式等于：
$\begin{matrix} \nabla \times \vec{F} = | \begin{matrix} \vec{i} & \vec{j} & \vec{k} \\ \frac{\partial}{\partial x} & \frac{\partial}{\partial y} & \frac{\partial}{\partial z} \\ F_{x} & F_{y} & F_{z} \end{matrix} | \\ = (\frac{\partial F_{z}}{\partial y} - \frac{\partial F_{y}}{\partial z}) \vec{i} + (\frac{\partial F_{x}}{\partial z} - \frac{\partial F_{z}}{\partial x}) \vec{j} + (\frac{\partial F_{y}}{\partial x} - \frac{\partial F_{x}}{\partial y}) \vec{k} \end{matrix}$
旋度的物理意义为：向量场对于某点附近的微元造成的旋转程度，其中:
- 旋转的方向表示旋转轴，它与旋转方向满足右手定则。
- 旋转的大小是环量与环面积之比。
$f(\mathbf{\vec x})$ $\mathbf{\vec x} = (x_1,\cdots,x_n)^\top$ ，则梯度定义为：
$\nabla f = {(\frac{\partial f}{\partial x_{1}}, \dots \frac{\partial f}{\partial x_{n}})}^{⊤}$
梯度的物理意义为：函数值增长最快的方向。
梯度的散度为拉普拉斯算子，记作：
$\nabla^{2} f = \nabla \cdot \nabla f = \sum_{i = 1}^{n} \frac{\partial^{2} f}{\partial x_{i}^{2}}$
- $f$ $f$ 极小值点流出，因此拉普拉斯算子衡量了空间中每一点，该函数的梯度是倾向于流出还是流入。
- 拉普拉斯算子也能够衡量函数的平滑度smoothness：函数值没有变化或者线性变化时，二阶导数为零；当函数值突变时，二阶导数非零。
$f(x)$ 为离散的一维函数，则一阶导数为一阶差分：
$f^{'} (x) = \frac{\partial f (x)}{\partial x} ≃ f (x + 1) - f (x)$
二阶导数为二阶差分：
$\begin{matrix} \nabla^{2} f = f^{''} (x) = \frac{\partial^{2} f (x)}{\partial x^{2}} = f^{'} (x) - f^{'} (x - 1) = [f (x + 1) - f (x)] - [f (x) - f (x - 1)] \\ = f (x + 1) + f (x - 1) - 2 f (x) \end{matrix}$
一维函数其自由度可以理解为2，分别是 +1 和 -1 两个方向。因此二阶导数等于函数在所有自由度上微扰之后获得的增益。
$G=(V,E)$ $|V|$ $\mathbf W$ $w_{i,j} = 0$ $i$ $|V|$ 。
$f_i$ $f(\cdot)$ $i$ $\mathbf{\vec f} = (f_1,f_2,\cdots,f_{|V|})^\top\in \mathbb R^{|V|}$ $f$ $G=(V,E)$ $i$ $j$ $(f_j-f_i)$ $(f_i-f_j)$ $w_{i,j}(f_i-f_j)$ 。
$f(\cdot)$ 也可以视为定义在图上的信号 signal 。
$i$ $i$ 的值。即：
$\begin{matrix} (\nabla^{2} f)_{i} = \sum_{j} \frac{\partial^{2} f_{i}}{\partial j^{2}} ≃ \sum_{j} w_{i, j} (f_{i} - f_{j}) = (\sum_{j} w_{i, j}) f_{i} - \sum_{j} w_{i, j} f_{j} \\ = {(D \vec{f})}_{i} - {(W \vec{f})}_{i} = {((D - W) \vec{f})}_{i} \end{matrix}$
$\mathbf D$ degree matrix $(\cdot)_i$ $i$ 个元素。
考虑所有的节点，则有：
$\nabla^{2} \vec{f} = (D - W) \vec{f}$
$\mathbf L = \mathbf D - \mathbf W$ ，因此在图的拉普拉斯算子就是拉普拉斯矩阵。
$f_i$ $f_i$ 为向量时也成立。
$m$ $\mathbf L\in \mathbb R^{m\times m}$ 是一个半正定对称矩阵，它具有以下性质：
- $m$ 个线性无关的特征向量。
- 半正定矩阵的特征值一定是非负的。
- 对称矩阵的特征向量相互正交，即：所有特征向量构成的矩阵为正交矩阵。
因此有拉普拉斯矩阵的谱分解：
$L {\vec{u}}_{k} = λ_{k} {\vec{u}}_{k}$
$\mathbf{\vec u}_k$ $k$ $\lambda_k$ $k$ 个特征值。
$\mathbf L = \mathbf U \mathbf\Lambda \mathbf U^\top$ ，其中：
$\begin{matrix} U = [{\vec{u}}_{1}, {\vec{u}}_{2}, \dots, {\vec{u}}_{m}] \in R^{m \times m} \\ Λ = [\begin{matrix} λ_{1} & 0 & \dots & 0 \\ 0 & λ_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & λ_{m} \end{matrix}] \end{matrix}$
$\mathbf U$ $\mathbf\Lambda$ 为对应特征值构成的对角矩阵。
$\mathbf L=(\mathbf D-\mathbf W)$ 的定义有：
$\begin{matrix} L [\begin{matrix} 1 \\ 1 \\ ⋮ \\ 1 \end{matrix}] = \vec{0} \end{matrix}$
$\mathbf L\mathbf{\vec u} = \lambda \mathbf{\vec u}$ $\lambda = 0$ $\mathbf L$ $\lambda =0$ $\mathbf L$ 的最小特征值。
$\mathbf L$ $m$ $\lambda_k$ $\mathbf L$ $\lambda_k$ $\mathbf{\vec u}_k$ 上的分量的信息越少，这意味着该分量是可以忽略的低频部分。其实图像压缩就是这个原理，把像素矩阵分解后，把小的特征值（低频部分）全部变成零。PCA 降维也是同样原理，把协方差矩阵特征分解后，取 top K 个特征值对应的特征向量作为新的特征空间。 25 $\mathbf L$ 对应的 25 维空间中，最大特征值、第1224 $\mathbf{\vec u}_k$ 的可视化。可以看到：特征值越大则对应特征向量的变化越剧烈，特征值越小则对应特征向量的变化越平缓。注意：最小特征值为零，并且对应的特征向量为全1 的向量（或者乘以常数倍），这意味着该特征向量在所有节点上取值相等（所以变化为零），即频率为零的分量。

2.1.2 卷积

$f(x)$ ，其傅里叶变换为：
$f (x) = \int_{- \infty}^{\infty} F (k) e^{i k x} d k$
$F(k) = \frac{1}{2\pi}\int_{-\infty}^{\infty} f(x) e^{-ikx} dx$ $k$ $e^{-iwx}$ 为傅里叶基 fouries basis 。
$e^{-ikx}$ 为拉普拉斯算子的特征函数。证明：
$\nabla^{2} e^{_{-} i k x} = \frac{\partial^{2} e^{- i k x}}{\partial x^{2}} = - k^{2} e^{- i k x}$
如果将傅里叶变换推广到图上，则有类比：
- $\mathbf L$ 。
- $k$ $\lambda_k$ 。
- $e^{-ikx}$ $\mathbf{\vec u}_k$ 。
- $F(k)$ $F(\lambda_k)$ ，其中：
  $\begin{matrix} F (λ_{k}) = {\hat{f}}_{k} = \vec{f} \cdot {\vec{u}}_{k} \end{matrix}$
  写成矩阵形式为：
  $\hat{\vec{f}} = U^{⊤} \vec{f}$
  其中：
  - $\mathbf{\vec f} \in \mathbb R^{m}$ $m$ $f_i$ 组成。
  - $\hat{\mathbf{\vec f}}$ 为图的傅里叶变换（谱域信号），它是在谱域上对应于不同特征值的振幅构成的向量。
    $\hat{\mathbf{\vec f}}$ $\mathbf{\vec f}$ $m$ $\left\{\mathbf{\vec u}_1,\cdots,\mathbf{\vec u}_m\right\}$ $\hat f_i$ $\mathbf{\vec f}$ $\mathbf{\vec u}_i$ 上的投影。
- $\mathcal F^{-1}(F(k)) = f(x) = \int_{-\infty}^\infty F(k)e^{ikx} dk$ 对应于图结构：
  $f_{i} = \sum_{k = 1}^{m} {\hat{f}}_{k} u_{k, i}$
  $u_{k,i}$ $\mathbf{\vec u}_k$ $i$ 个分量。写成矩阵的形式为：
  $\vec{f} = U \hat{\vec{f}}$
卷积定理：两个函数在时域的卷积等价于在频域的相乘。
$\begin{matrix} f (x) * h (x) = F^{- 1} (F (k) \times H (k)) = \int_{- \infty}^{\infty} F (k) \times H (k) e^{i k x} d k \\ F (k) = \frac{1}{2 π} \int_{- \infty}^{\infty} f (x) e^{- i k x} d x \\ H (k) = \frac{1}{2 π} \int_{- \infty}^{\infty} h (x) e^{- i k x} d x \end{matrix}$
对应于图上有：
$\vec{f} * \vec{h} = F^{- 1} (\hat{\vec{f}} ⊙ \hat{\vec{h}}) = U (K (U^{⊤} \vec{f})) = U K U^{⊤} \vec{f}$
$\odot$ $\mathbf U$ $\mathbf L$ $\mathbf K$ 为对角矩阵：
$\begin{matrix} K = [\begin{matrix} \vec{h} \cdot {\vec{u}}_{1} & 0 & \dots & 0 \\ 0 & \vec{h} \cdot {\vec{u}}_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & \vec{h} \cdot {\vec{u}}_{m} \end{matrix}] \end{matrix}$
这里将逐元素乘积转换为矩阵乘法。
$\mathbf K$ $\mathbf{\vec h}\cdot \mathbf{\vec u}_k = \theta_k$ ，然后学习卷积核：
$\begin{matrix} K = [\begin{matrix} θ_{1} & 0 & \dots & 0 \\ 0 & θ_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & θ_{m} \end{matrix}] \end{matrix}$
$\mathbf{\vec h}$ $\hat{\mathbf{\vec h}}$ 。

2.2 空域构建 Spatial Construction

2.2.1 基本概念

CNN $G = (\mathbf\Omega, \mathbf W)$ $\mathbf\Omega$ $m$ $\mathbf W\in \mathbb R^{m\times m}$ 为对称、非负的权重矩阵（这里采用无向图）。
这里的权重指的是图中边的权重，而不是神经网络的权重。
$\mathbf W$ locality $\mathbf W$ $\delta\gt 0$ ，并设置邻域为：
$N_{δ} (j) = {i ∣ i \in Ω, W_{i, j} > δ}$
$\mathcal N_\delta(j)$ $j$ 的邻域节点集合。
在执行卷积时，我们可以仅仅考虑将感受野限制在这些邻域上的 sparse filterlocally connected network $O(S\times m)$ $O(m^2)$ $S$ 为平均邻域大小。
$S$ $m$ $O(S\times m)$
图的多分辨率multiresolution分析：CNN 通过池化pooling 层和降采样subsampling层来减少feature map 的尺寸，在图结构上我们同样可以使用多尺度聚类multiscale clustering的方式来获得多尺度结构。在图结构上如何进行多尺度聚类仍然是个开发的研究领域，我们这里根据节点的邻域进行简单的聚类。
图的邻域结构天然地代表了某种意义上的聚类。比如，社交网络的一阶邻域代表用户的直接好友圈子，以一阶邻域来聚类则代表了一个个的”小团体“。基于这些 ”小团体“ 进行聚类得到的高阶聚类可能包含了国家的信息，比如”中国人“被聚合在一个高阶聚类中，”美国人“被聚合在另一个高阶聚类中。
下图给出了多尺度层次聚类的示意图（两层聚类)。原始的12个节点为灰色。第一层有6 个聚类，聚类中心为彩色节点，聚类以彩色块给出。第二层有3 个聚类，聚类以彩色椭圆给出。

2.2.2 深度局部连接网络 Deep Locally Connected Networks

spatial construction $K$ 个尺度scale0 $\mathbf\Omega_0 = \mathbf\Omega$ feature map $\mathbf\Omega_k$ feature map $\mathbf\Omega_{k-1}$ $d_k$ $d_0$ $m$ $k=1,2,\cdots,K$ 。
$\mathbf\Omega_k$ $d_k$ $d_k$ 个聚类的聚类中心。
$\mathbf\Omega_{k-1}$ $d_{k-1}$ $i$ $\mathcal N_{k,i}$ $\mathbf\Omega_{k-1}$ 中全部邻域集合的集合为：
$N_{k} = {N_{k, 1}, \dots, N_{k, d_{k - 1}}}$
$k$ $\mathbf\Omega_0$ real signal $k$ filter $f_k$ $k$ $f_{k-1}$ $d_{k-1}$ $f_k$ $d_k$ 维的信号。
$k$ 层神经网络的输入为：
$\begin{matrix} X^{(k)} = [\begin{matrix} x_{1, 1}^{(k)} & x_{1, 2}^{(k)} & \dots & x_{1, f_{k - 1}}^{(k)} \\ x_{2, 1}^{(k)} & x_{2, 2}^{(k)} & \dots & x_{2, f_{k - 1}}^{(k)} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{d_{k - 1}, 1}^{(k)} & x_{d_{k - 1}, 2}^{(k)} & \dots & x_{d_{k - 1}, f_{k - 1}}^{(k)} \end{matrix}] \in R^{d_{k - 1} \times f_{k - 1}} \end{matrix}$
其中：
- $\mathbf X^{(k)}$ $k$ 层神经网络的输入 feature map 。
- $\mathbf X ^{(k)}$ $i$ $\mathbf {\vec x}^{(k)}_{i,:} = \left(x^{(k)}_{i,1},\cdots ,x^{(k)}_{i,f_{k-1}}\right)^\top\in \mathbb R^{f_{k-1}}$ $\mathbf\Omega_{k-1}$ $j$ 个节点的 feature 。
- $\mathbf X^{(k)}$ $j$ $\mathbf{\vec x}_{:,j}^{(k)} = \left(x_{1,j}^{(k)},\cdots,x_{d_{k-1},j}^{(k)}\right)^\top\in \mathbb R^{d_{k-1}}$ $j$ $f_{k-1}$ 个）。
$k$ $j$ 个输出信号定义为：
${\vec{x}}_{:, j}^{(k + 1)} = L^{(k)} h (\sum_{j^{'} = 1}^{f_{k - 1}} F_{j^{'}, j}^{(k)} {\vec{x}}_{:, j^{'}}^{(k)}), j = 1, 2, \dots, f_{k}$
其中：
- $f_{k-1}$ $f_k$ 为输出通道数。
- $\mathbf F^{(k)}_{j^\prime,j} \mathbf{\vec x}_{:,j^\prime}^{(k)}$ $j^\prime$ $\mathbf F^{(k)}_{j^\prime,j}$ 。
  $\sum_{j^\prime=1}^{f_{k-1}} \mathbf F^{(k)}_{j^\prime,j} \mathbf{\vec x}_{:,j^\prime}^{(k)}$ $j$ 个输出通道由所有输入通道的线性变换进行 sum 聚合而来。
- $\mathbf F^{(k)}_{j^\prime,j} \in \mathbb R^{d_{k-1}\times d_{k-1}}$ filter $j^\prime$ $j$ 个输出通道的参数矩阵。
  $\mathbf F^{(k)}_{j^\prime,j}$ $\mathcal N_k$ 来定义，即：
  $\begin{matrix} F_{j^{'}, j}^{(k)} (u, v) = {\begin{cases} θ_{j^{'}, j}^{(k)} (u, v), & v \in N_{k, u} \\ 0, & else \end{cases} \end{matrix}$
  $v$ $u$ $F_{j^\prime,j}^{(k)}(u,v)$ $F_{j^\prime,j}^{(k)}(v,u)$ $\left\{\theta_{j^\prime,j}^{(k)}(u,v)\right\}$ 为 filter 的待学习的参数。
  $u$ $\mathcal N_{k,u}$ ，即局部性。
- $h(\cdot)$ 为非线性激活函数。
- $\mathbf L^{(k)}$ $k$ 层的池化矩阵，矩阵的行表示聚类 cluster id，列表示节点id ，矩阵中的元素表示每个节点对应于聚类中心的权重：如果是均值池化则就是 1 除以聚类中的节点数，如果是最大池化则是每个聚类的最大值所在的节点。
  $\mathbf L^{(k)}$ $f_k$ $d_{k-1}$ $f_k$ $d_k$ 维的信号。
  $\begin{matrix} L^{(k)} = \begin{array}{cccc} {node}_{1} & {node}_{2} & {node}_{3} & \dots & {node}_{d_{k - 1} - 1} & {node}_{d_{k - 1}} \\ {cluster}_{1} & 1 & 0 & 0 & \dots & 0 & 0 \\ {cluster}_{2} & 0 & 1 / 2 & 0 & \dots & 0 & 1 \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ & ⋮ \\ {cluster}_{d_{k}} & 0 & 1 / 2 & 0 & \dots & 1 & 0 \end{array} \in R^{d_{k} \times d_{k - 1}} \end{matrix}$
$\mathbf\Omega_k$ $\mathcal N_k$ 的构建过程：
- $\mathbf W_0 = \mathbf W$ 。
- $\mathbf W_k$ $\epsilon\text{-covering}$ $\mathbf\Omega_k$ 。理论上也可以采取其它聚类算法。
- $\mathbf\Omega_k$ $i,j$ 之间的连接权重为两个簇之间的所有连接的权重之和：
  $A_{k} (i, j) = \sum_{s \in Ω_{k} (i)} \sum_{t \in Ω_{k} (j)} W_{k - 1} (s, t)$
  然后按行进行归一化：
  $W_{k} = row-normalize (A_{k})$
- $\mathbf W_k$ $\delta$ $\mathcal N_k$ 。
$K=2$ 。
- $\mathbf\Omega_0$ 表示第零层，它有 12 个节点（灰色），信号为一个通道（标量）。
- $\mathbf\Omega_1$ $\mathbf\Omega_0$ ，输出 6 个节点，输出信号四个通道（四个filter ）。
- $\mathbf\Omega_2$ $\mathbf \Omega_1$ ，输出 3 个节点，输出信号六个通道（六个filter）。
每一层卷积都降低了空间分辨率spatial resolution，但是增加了空间通道数。
$S_k$ $\mathcal N_k$ $k$ 层卷积的平均参数数量为：
$O (S_{k} \times d_{k} \times f_{k} \times f_{k - 1})$
$S_k\times d_k\simeq \alpha d_{k-1}$ $\alpha$ $\alpha \in (1,4)$ 。
为什么这么做？论文并未说明原因。
空域构建的实现非常朴素，其优点是不需要对图结构有很高的规整性假设 regularity assumption。缺点是无法在节点之间实现权重共享。

2.3 谱域构建 Spectral Construction

可以通过图拉普拉斯算子来探索图的全局结构，从而推广卷积算子。
$K$ $k$ feature map $\mathbf X^{(k)}\in \mathbb R^{d_{k-1} \times f_{k-1}}$ $\mathbf X^{(k+1)}\in \mathbb R^{d_{k-1} \times f_{k}}$ $k$ $j$ 个输出通道为：
${\vec{x}}_{:, j}^{(k + 1)} = h (\sum_{j^{'} = 1}^{f_{k - 1}} U K_{j^{'}, j}^{(k)} U^{⊤} {\vec{x}}_{:, j^{'}}^{(k)})$
其中：
- $\mathbf{\vec x}^{(k)}_{:,j^\prime}$ $j^\prime$ $\mathbf X^{(k)}$ $j^\prime$ 列。
- $\mathbf U$ 为拉普拉斯矩阵特征向量组成的矩阵（每一列表示一个特征向量）。
  $D$ $D$ regularity $\mathbf U$ $\mathbf U_D\in \mathbb R^{d_{k-1}\times D}$ 。这可以减少参数和计算量，同时去除高频噪声。
- $\mathbf K^{(k)}_{j^\prime,j}\in \mathbb R^{d_{k-1}\times d_{k-1}}$ $k$ $j^\prime$ $j$ 个输出通道的谱域 filterfilter $\mathbf K_{j^\prime,j}^{(k)}$ $k$ $f_{k-1}\times f_k\times d_{k-1}$ 。
  $O(1)$ $d_{k-1}$ 。
- $h(\cdot)$ 为非线性激活函数。
谱域构建可能受到以下事实的影响：大多数图仅在频谱的 top （即高频部分）才具有有意义的特征向量。即使单个高频特征向量没有意义，一组高频特征向量也可能包含有意义的信息。
然而，我们的构建方法可能无法访问这些有意义的信息，因为我们使用对角线形式的卷积核，在最高频率处它是对角线形式因此仅包含单个高频特征向量（而不是一组高频特征向量）。
傅里叶变换是线性变换，如何引入非线性目前还没有很好的办法。
$\mathbf U$ $\mathbf U^\top$ 矩阵乘法。
arrangement $k$ filter $\mathbf K_{j^\prime,j}^{(k)}$ 的对角线可以参数化为：
$diag (K_{j^{'}, j}^{(k)}) = K^{(k)} {\vec{α}}_{j^{'}, j}^{(k)}$
$\mathcal K^{(k)}\in \mathbb R^{d_{k-1}\times q_k}$ $\alpha^{(k)}_{j^\prime,j}\in \mathbb R^{q_k}$ $q_k$ 个样条参数。
$\alpha \sim d_{k-1}$ $q_k\sim d_{k-1}\times \frac{1}{\alpha} = O(1)$ $f_{k-1}\times f_k$ 。

2.4 实验

我们对 MNIST 数据集进行实验，其中MNIST 有两个变种。所有实验均使用 ReLU 激活函数以及最大池化。模型的损失函数为交叉熵，固定学习率为0.1 ，动量为 0.9 。

2.4.1 降采样 MNIST

我们将MNIST 原始的 28x28 的网格数据降采样到 400 个像素，这些像素仍然保留二维结构。由于采样的位置是随机的，因此采样后的图片无法使用标准的卷积操作。
采样后的图片的示例，空洞表示随机移除的像素点。
a $k=1$ b $k=3$ 。可以看到：层次越高，簇的数量越少。
a $\mathbf{\vec v}_2$ b $\mathbf{\vec v}_{20}$ （对应于较大的特征值）。可以看到：特征值越小的特征向量对应于低频部分（变化越缓慢，左图），特征值越大的部分对应于高频部分（变化越剧烈，右图）。
不同模型在 MNIST 上分类的结果如下。基准模型为最近邻模型 kNN ，FCN 表示带有 N 个输出的全连接层，LRFN 表示带有 N 个输出的空域卷积层，MPN 表示带有 N 个输出的最大池化层，SPN 是带有 N 个输出的谱域卷积层。
- 基准模型 kNN （第一行）的分类性能比完整的（没有采样的）MNIST 数据集的 2.8% 分类误差率稍差。
- 两层全连接神经网络（第二行）可以将测试误差降低到 1.8% 。
- 两层空域图卷积神经网络（第三行的下面部分）效果最好，这表明空域卷积层核池化层可以有效的将信息汇聚到最终分类器中。
- 谱域卷积神经网络表现稍差（第四行），但是它的参数数量最少。
- top $200$ 个频率）的谱域卷积神经网络的效果优于常规的谱域卷积神经网络。
由于 MNISTfilter $\mathbf F^{(k)}_{j^\prime,j}$ 的定义从而很明确的满足这一约束，而谱域卷积则没有强制空间局部性。在谱域 filter 上添加平滑约束可以改善分类结果，因为 filter 被强制具有更好的空间局部性。
- 图 (a),(b) 表示同一块感受野在空域卷积的不同层次聚类中的结果。
- 图 (c),(d) 表示谱域卷积的两个拉普拉斯特征向量，可以看到结果并没有空间局部性。
- 图 (e),(f) 表示采用平滑约束的谱域卷积的两个拉普拉斯特征向量，可以看到结果有一定的空间局部性。

2.4.2 球面 MNIST

我们将MNIST 图片映射到一个球面上，构建方式为：
- 4096 $\mathbb S =\{s_1,\cdots,s_{4096}\}$ 。
- $\mathbf E = (\mathbf{\vec e}_1,\mathbf{\vec e}_2,\mathbf{\vec e}_3)$ $||\mathbf{\vec e}_1|| = 1,||\mathbf{\vec e}_2||=2,||\mathbf{\vec e}_3||=3$ $\mathbf\Sigma = (\mathbf E + \mathbf W)^\top(\mathbf E + \mathbf W)$ $\mathbf W$ $\sigma^2\lt 1$ 的独立同部分的高斯分布的分布矩阵。
- MNIST $\Sigma_i$ PCA $\{\mathbf{\vec u}_1,\mathbf{\vec u}_2,\mathbf{\vec u}_3 \}$ $\mathbb S$ 上。
由于数字 6 和 9 对于旋转是等价的，所以我们从数据集中移除了所有的 9 。
下面给出了两个球面 MNIST 示例：
a $\mathbf{\vec v}_{20}$ b $\mathbf{\vec v_{100}}$ 。可以看到：特征值越小的特征向量对应于低频部分（左侧），特征值越大的部分对应于高频部分（右侧）。
$\sigma^2=0.2$ ，结果如下表所示。
- 基准的 kNN 模型的准确率比上一个实验（随机采样 MNIST ）差得多。
- 所有神经网络模型都比基准 KNN 有着显著改进。
- 空域构建的卷积神经网络、谱域构建的卷积神经网络在比全连接神经网络的参数少得多的情况下，取得了相差无几的性能。
不同卷积神经网络学到的卷积核（即 filter ）如下图所示。
- 图 (a),(b) 表示同一块感受野在空域卷积的不同层次聚类中的结果。
- 图 (c),(d) 表示谱域卷积的两个拉普拉斯特征向量，可以看到结果并没有空间局部性。
- 图 (e),(f) 表示采用平滑约束的谱域卷积的两个拉普拉斯特征向量，可以看到结果有一定的空间局部性。
$\{\mathbf{\vec u}_1,\mathbf{\vec u}_2,\mathbf{\vec u}_3 \}$ $\mathbb R^3$ 中的随机的一组基，此时所有的模型的效果都较差。这时需要模型有一个完全的旋转不变性，而不仅仅是平移不变性。

三、Fast Localized Spectral Filtering On Graph[2016]

卷积神经网络提供了一种有效的架构，可以在大规模的、高维的数据集中抽取非常有意义的统计模式statistical pattern。CNN 学习局部静态结构 local stationary structure 并将它们组合成多尺度的 multi-scale、分层hierarchical的模式，并导致了图像识别、视频识别、声音识别等任务的突破。准确地说，CNN 通过揭示跨数据域data domain 共享的局部特征来抽取输入数据（或输入信号）的局部平稳性local stationarity 。这些相似的特征通过从数据中学到的局部卷积滤波器localized convolutional filter （或局部卷积核 localized convolutional kernel）来识别。卷积滤波器是平移不变translation-invariant的，这意味着它们能够独立于空间位置来识别相同的特征identical feature。局部核localized kernel （或紧凑支持的滤波器compactly supported filter）指的是独立于输入数据大小并抽取局部特征的滤波器，它的支持度 support 大小可以远小于输入大小。
社交网络上的用户数据、电信网络上的日志数据、或 word embedding 上的文本文档，它们都是不规则数据的重要例子，这些数据可以用图 graph 来构造。图是异质 pairwise 关系的通用表达universal representation。图可以编码复杂的几何结构，并且可以使用强大的数学工具进行研究，如谱图理论spectral graph theory。
将 CNN 推广到图并不简单，因为卷积算子和池化算子仅针对规则网格regular grid才有定义。这使得 CNN 的扩展在理论上和实现上都具有挑战性。将 CNN 推广到图的主要瓶颈（也是论文 《Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering》的主要目标之一），是定义可以有效评估和学习的局部图滤波器localized graph filter 。准确地说，论文 《Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering》的主要贡献如下：
- 谱公式 spectral formulation：基于图信号处理 graph signal processing: GSP 中已有的工具，论文建立了图上 CNN 的谱图spectral graph 理论公式。
- spectral filter $K$ 的球中，即从中心顶点的 K hops 。这是对 《Spectral Networks and Deep Locally Connected Networks on Graphs》 的增强。
- evaluation $K$ $|\mathcal E|$ $|\mathcal E|\ll n^2$ $|\mathcal E|=kn$ $n$ $k$ degree $n$ 成线性关系。
  此外，论文的方法完全避免了傅里叶基 Fourier basiseigenvalue decomposition $n\times n$ GPU $|\mathcal E|$ 个非零值的稀疏矩阵。
- 高效的池化：论文提出了一种有效的、图上的池化策略，该策略在将顶点重排为二叉树结构之后，采用类似于一维信号的池化。
- 实验结果：论文进行了多个实验，最终表明所提出的公式是：一个有效的模型、计算效率高、在准确性和复杂性上都优于 《Spectral Networks and Deep Locally Connected Networks on Graphs》 中介绍的 spectral graph CNN 。
  论文还表明，所提出的图公式在 MNIST 上的表现与经典 CNN 相似，并研究了各种图构造graph construction 对于性能的影响。
相关工作：
- 图信号处理 graph signal processing: GSP：GSP 的新兴领域旨在弥合信号处理和谱图理论之间的 gap ，是图论graph theory 和谐波分析harmonic analysis之间的融合。一个目标是将信号的基本分析操作从规则网格推广到不规则的图结构。诸如卷积、平移、滤波 filtering、膨胀 dilatation、调制 modulation、降采样downsampling 等等网格上的标准操作不会直接扩展到图，因此需要新的数学定义，同时保持原有的直观概念。在这种情况下，已有工作重新审视了图上小波算子wavelet operator的构建，并提出了在图上执行 mutli-scale pyramid transform 。也有一些工作重新定义了图上的不确定性原理，并表明虽然可能会丢失直观的概念，但是可以导出增强的局部性准则 localization principle 。
- 非欧几里得Non-Euclidean 域的 CNN：图神经网络框架《The Graph Neural Network Model》（在 《Gated Graph Sequence Neural Networks》 中被简化）旨在通过 RNN 将每个节点嵌入到一个欧氏空间，并将这些 embedding 用作节点/图的分类/回归的特征。
  一些工作引入了构建局部感受野local receptive field 的概念从而减少学习参数的数量。这个想法是基于相似性度量将特征组合在一起，例如在两个连续层之间选择有限数量的连接。虽然该模型利用局部性假设locality assumption减少了参数的数量，但是它并没有尝试利用任何平稳性，即没有权重共享策略。《Spectral Networks and Deep Locally Connected Networks on Graphs》 的作者在他们的 graph CNN 的 spatial formulation 中使用了这个想法。他们使用加权图来定义局部邻域，并为池化操作计算图的多尺度聚类multiscale clustering。然而，在空域构造spatial construction 中引入权重共享具有挑战性，因为当缺少 problem-specific ordering （如空间顺序、时间顺序等等）时，它需要选择select 并对邻域内的节点进行排序。
  《Geodesic convolutional neural networks on riemannian manifolds》 中提出了 CNN 到 3D-mesh 的空间推广，其中 3D-mesh 是一类平滑的、低维的非欧氏空间。作者使用测地线极坐标geodesic polar coordinate 来定义 mesh patch 上的卷积，并定制了一个深度学习架构从而允许在不同的流形manifold 之间进行比较。他们对 3D 形状识别获得了 state-of-the-art 结果。
  《Spectral Networks and Deep Locally Connected Networks on Graphs》 $g_\theta(\mathbf\Lambda) = \mathbf B\theta$ $\mathbf B\in \mathbb R^{n\times K}$ $B$ $\theta\in \mathbb R^K$ 为控制点control point《Deep Convolutional Networks on Graph-Structured Data》 $\mathbf U\in \mathbb R^{n\times n}$ ，因此这种方法没办法 scale 。此外，由于它们依赖于傅里叶域中的平滑性smoothness（即，通过样条参数化得到）来实现空间域的局部性，因此他们的模型无法提供精确的控制从而使得 kernel 支持局部性，而这对于学习局部的滤波器至关重要。我们的技术利用了这项工作，并展示了如何克服这些限制以及其它限制。

3.1 模型

将卷积推广到图上需要考虑三个问题：如何在图上设计满足空域局部性的卷积核、如何执行图的粗化graph coarsening（即，将相似顶点聚合在一起）、如何执行图池化操作。

3.1.1 快速的局部性的谱滤波器

定义卷积滤波器有两种策略，可以从空间方法spatial approach 来定义，也可以从谱方法spectral approach来定义。
- 通过构造 construction，空间方法可以通过有限大小的 kernel 提供 filter localization 。然而，从空间角度来看，图上的平移没有唯一的数学定义。
- 另一方面，谱方法通过在谱域spectral domain实现的 Kronecker deltalocalization operator $O(n^2)$ ，因此傅里叶变换的成本很高。
  然而，通过对滤波器参数化filter parametrization 的特殊选择，我们可以克服这两个限制（即，滤波器的天然局部化，以及计算复杂度）。
Graph Fourier Transform $G=(\mathcal V,\mathcal E,\mathbf W)$ $\mathcal V$ $n=|\mathcal V|$ $\mathcal E$ $\mathbf W\in \mathbb R^{n\times n}$ $W_{i,j}$ $i$ $j$ 之间的连接权重。
$\mathbf{\vec x}\in \mathbb R^n$ $x_i\in \mathbb R$ $i$ 个节点上的取值。谱图分析spectral graph analysiscombinatorial Laplacian $\mathbf L = \mathbf D - \mathbf W\in \mathbb R^{n\times n}$ normalized Laplacian $\mathbf L = \mathbf I_n- \mathbf D^{-1/2}\mathbf W \mathbf D^{-1/2}$ $\mathbf D$ degree $D_{i,i} = \sum_{j} W_{i,j}$ $\mathbf I_n\in \mathbb R^{n\times n}$ 为一个单位矩阵。
论文并没有提到是用哪个拉普拉斯矩阵，读者猜测用的是任意一个都可以，因为后续公式推导对两种类型的拉普拉斯矩阵都成立。
$\mathbf L$ $\left\{\mathbf{\vec u}_l\right\}_{l=0}^{n-1}\in \mathbb R^n$ graph Fourier mode $\{\lambda_l\}_{l=0}^{n-1}\in \mathbb R$ graph frequency $\mathbf L$ Fourier basis $\mathbf U=\left[\mathbf{\vec u}_0,\cdots,\mathbf{\vec u}_{n-1}\right]\in \mathbb R^{n\times n}$ $\mathbf L = \mathbf U\mathbf\Lambda\mathbf U^\top$ $\mathbf\Lambda = \text{diag}([\lambda_0,\cdots,\lambda_{n-1}])\in \mathbb R^{n\times n}$ $\mathbf U$ $l$ $\mathbf{\vec u}_l$ 。
$\mathbf{\vec x}\in \mathbb R^n$ $\hat{\mathbf{\vec x}} = \mathbf U^\top \mathbf{\vec x}\in \mathbb R^n$ $\mathbf{\vec x} = \mathbf U\hat{\mathbf{\vec x}}$ 。与欧氏空间一样，傅里叶变换能够定制化基本操作，如滤波 filtering 。
图信号的谱域滤波spectral filtering：由于我们无法在顶点域vertex domaintranslation operator $*_\mathcal G$ 定义在傅里叶域Fourier domain，即：
${\vec{x}}_{1} *_{G} {\vec{x}}_{2} = U ((U^{⊤} {\vec{x}}_{1}) ⊙ (U^{⊤} {\vec{x}}_{2}))$
$\odot$ Hadamard $\mathbf{\vec x}_1,\mathbf{\vec x}_2\in\mathbb R^n$ 都是图上定义的两个信号。
$\mathbf{\vec x}$ $g_\theta$ 滤波为：
$\vec{y} = g_{θ} (L) \vec{x} = g_{θ} (U Λ U^{⊤}) \vec{x} = U g_{θ} (Λ) U^{⊤} \vec{x}$
non-parametric filter （即参数都是自由的滤波器）定义为：
$\begin{matrix} g_{θ} (Λ) = diag (\vec{θ}) = [\begin{matrix} θ_{1} & 0 & \dots & 0 \\ 0 & θ_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & θ_{n} \end{matrix}] \end{matrix}$
$\vec\theta=(\theta_1,\cdots,\theta_n)\in \mathbb R^n$ 为待学习的傅里叶系数Fourier coefficient 组成的向量。
用于局部滤波器localized filter的多项式参数化：然而，non-parametric filterlocalized $O(n)$ （即数据的维度）。这些问题可以通过使用多项式滤波器polynomial filter来解决：
$g_{θ} (Λ) = \sum_{k = 0}^{K - 1} θ_{k} Λ^{k}$
$\vec\theta=(\theta_1,\cdots,\theta_K)\in \mathbb R^K$ 为多项式系数组成的向量。
$i$ $g_\theta$ $j$ 上的取值为：
${(g_{θ} (L) {\vec{δ}}_{i})}_{j} = {(g_{θ} (L))}_{i, j} = \sum_{k = 0}^{K - 1} θ_{k} {(L^{k})}_{i, j}$
delta $\mathbf{\vec \delta}_i\in \mathbb R^n$ $i$ $j$ 上的取值。
根据 《Wavelets on Graphs via Spectral Graph Theory》5.2 $d_\mathcal G(i,j)\gt K$ $\left(\mathbf L^K\right)_{i,j} = 0$ $d_\mathcal G(\cdot,\cdot)$ $K$ 阶多项式表示的谱滤波器 spectral filterK-localized $O(K)$ ，即滤波器的尺寸，因此与经典 CNN 的复杂度相同。
fast filtering $K$ localized filter $\mathbf U$ $\mathbf{\vec x}$ $\mathbf{\vec y} = \mathbf Ug_\theta(\mathbf\Lambda) \mathbf U^\top \mathbf{\vec x}$ $O(n^2)$ $g_\theta(\mathbf L)$ $\mathbf L$ $K$ $\mathbf L$ $O(K\times|\mathcal E|)\ll O(n^2)$ 。
一种这样的多项式是 Chebyshev 展开（传统上，它在 GSP 中被用于近似 kernel，如小波 wagelet ）。另一种选择是 LanczosKrylov $\mathcal K_K\left(\mathbf L,\mathbf{\vec x}\right) = \text{span}\left\{\mathbf{\vec x},\mathbf L\mathbf{\vec x},\cdots,\mathbf L^{K-1}\mathbf{\vec x}\right\}$ 。 Lanczos 算法看起来似乎有吸引力，但是它更加复杂，因此我们留待未来的工作。
$k$ $T_k(x)$ 可以通过递归关系来计算：
$\begin{matrix} T_{0} (x) = 1, T_{1} (x) = x \\ T_{k} (x) = 2 x T_{k - 1} (x) - T_{k - 2} (x) \end{matrix}$
$L^2([-1,1],dy/\sqrt{1-y^2})$ $dy/\sqrt{1-y^2}$ 的平方可积函数的希尔伯特空间。因此，滤波器可以被参数化为：
$g_{θ} (Λ) = \sum_{k = 0}^{K - 1} θ_{k} T_{k} (\tilde{Λ})$
其中：
- $\vec \theta\in \mathbb R^K$ 为切比雪夫多项式系数组成的向量。
- $\tilde{\mathbf\Lambda} = 2\mathbf\Lambda/\lambda_\max - \mathbf I_n$ 为经过缩放的特征值对角矩阵，这使得它的对角线元素取值位于 [-1,+1] 之间。
- $T_k\left(\tilde{\mathbf \Lambda}\right)\in \mathbb R^{n\times n}$ $\tilde{\mathbf \Lambda}$ $k$ 阶切比雪夫多项式。
滤波操作可以协作：
$\vec{y} = g_{θ} (L) \vec{x} = \sum_{k = 0}^{K - 1} θ_{k} T_{k} (\tilde{L}) \vec{x}$
其中：
- $\tilde {\mathbf L} = 2\mathbf L/\lambda_\max - \mathbf I_n$ 为经过缩放的拉普拉斯矩阵。
- $T_k\left(\tilde{\mathbf L}\right)\in \mathbb R^{n\times n}$ $\tilde{\mathbf L}$ $k$ 阶切比雪夫多项式。
$\bar{\mathbf{\vec x}}_k = T_k\left(\tilde{\mathbf L}\right) \mathbf{\vec x}\in \mathbb R^n$ ，则我们可以使用递归关系来计算：
$\begin{matrix} {\bar{\vec{x}}}_{0} = \vec{x}, {\bar{\vec{x}}}_{1} = \tilde{L} \vec{x} \\ {\bar{\vec{x}}}_{k} = 2 \tilde{L} {\bar{\vec{x}}}_{k - 1} - {\bar{\vec{x}}}_{k - 2} \end{matrix}$
$\mathbf{\vec y} = g_\theta(\mathbf L) \mathbf{\vec x}$ $O(K\times |\mathcal E|)$ 次操作。
filter $s$ $F_\text{in}$ $i$ $\mathbf{\vec x}_{s,i}\in \mathbb R^n$ $i$ feature map $s$ $j$ 个输出 feature map 为：
${\vec{y}}_{s, j} = \sum_{i = 1}^{F_{in}} g_{θ_{i, j}} (L) {\vec{x}}_{s, i} \in R^{n}, 1 \leq j \leq F_{out}$
$\vec\theta_{i,j}\in \mathbb R^K$ layer $F_\text{in}\times F_\text{out}\times K$ 。
mini-batch $\mathcal L$ ，则为了进行反向传播我们需要计算如下的梯度：
$\frac{\partial L}{\partial {\vec{θ}}_{i, j}} = \sum_{s = 1}^{S} {[{\bar{\vec{x}}}_{s, i, 0}, \dots, {\bar{\vec{x}}}_{s, i, K - 1}]}^{⊤} \frac{\partial L}{\partial {\vec{y}}_{s, j}}, \frac{\partial L}{\partial {\vec{x}}_{s, i}} = \sum_{j = 1}^{F_{out}} g_{θ_{i, j}} (L) \frac{\partial L}{\partial {\vec{y}}_{s, j}}$
$S$ 为 mini-batch size 。
$K$ $O(K\times |\mathcal E|\times F_\text{in}\times F_\text{out}\times S)$ 。这些运算可以通过张量操作在并行架构上有效地计算。
$\left[\bar{\mathbf{\vec x}}_{s,i,0},\cdots,\bar{\mathbf{\vec x}}_{s,i,K-1}\right]$ 仅需要计算一次。

3.1.2 图粗化 Graph Coarsening

池化操作需要在图上有意义的邻域上进行，从而将相似的顶点聚类在一起。对多个 layer 执行池化等价于保留局部几何结构的图多尺度聚类multi-scale clustering。然而，众所周知，图聚类 graph clustering 是 NP-hard 的并且必须使用近似算法。虽然存在许多聚类算法（例如流行的谱聚类 spectral clustering），但是我们最感兴趣的还是 multi-level 聚类算法。在 multi-level 聚类算法中，每个 level 都会生成一个更粗coarser的图，其中这个图对应于不同分辨率看到的数据域 data domain 。此外，在每个 level 将图的大小减少两倍的聚类技术提供了对粗化coarsening 和池化大小的精确控制。
在这项工作中，我们利用了 Graclus multi-level 聚类算法的粗化阶段。Graclus multi-level 聚类算法已被证明在对各种图进行聚类时非常有效。图上的代数多重网格algebraic multigrid 技术、以及 Kron reduction 是未来工作中值得探索的两种方法。
建立在 Metis 上的 Graclus 使用贪心算法来计算给定图的连续更粗successive coarser的版本，并且能够最小化几个流行的谱聚类目标spectral clustering objective。在这些谱聚类目标中，我们选择归一化割 the normalized cut 。Graclus 的贪心规则为：
- 在每个coarsening levelunmarked $i$ $j$ local normalized cut $W_{i,j}(1/d_i + 1/d_j)$ 。
- 然后标记markcoarsen $i,j$ $i,j$ 权重之和。
- 持续配对，直到所有顶点都被探索（这样就完成了一轮粗化）。
  这其中可能存在部分独立顶点，它不和任何其它顶点配对。
这种粗化算法非常块，并且每轮粗化都将顶点数除以2 从而从一个 level 到下一个更粗的 level 。

3.1.3 图信号的快速池化

池化操作将被执行很多次，因此该操作必须高效。粗化之后，输入图的顶点及其粗化版本没有以任何有意义的方式排列arrange 。因此，直接应用池化操作将需要一个 table 来存储上一个 level 的顶点与到下一个 level 的顶点（更粗化的版本）之间的对应关系。这将导致内存效率低下、读取速度慢、并且难以并行化。
然而，我们可以排列顶点，使得图池化graph pooling 操作变得与一维池化一样高效。我们分为两步进行：创建一棵平衡的二叉树、重排顶点。
粗化之后，每个节点要么有两个子节点（如果它是在更精细的 level 被匹配到的）；要么没有（如果它在更精细的 level 未被匹配到），此时该节点是一个 singleton，它只有一个子节点。从最粗的 level 到最细的 level，我们为每个singleton 节点添加一个 fake 节点作为子节点，这样每个节点就都有两个子节点。fake 节点都是断开 disconnected 的。
这种结构是一棵平衡二叉树：一个节点要么包含两个常规子节点（如下图中的 level 1 节点 0 ），要么包含一个 singletons 子节点和一个 fake 子节点（如下图中的 level 2 节点 0）。fake 节点总是包含两个 fake 子节点，如下图中的 level 1 节点 1。注意，下图中从上到下依次是 level 0, level 1, level 2 。
输入信号在 fake 节点处使用 neutral value 初始化，如当使用 ReLU 激活函数时为 0 。因为这些 fake 节点是断开的，因此滤波不会影响到初始的 neutral value 。虽然这些 fake 节点确实人为地增加了维度从而增加了计算成本，但是我们发现在实践中，Graclus 留下的 singleton 节点数量非常少。
我们在最粗coarsest 的 level 上任意排列节点，然后将这个次序传播到最精细finestlevel $k$ $2k$ $2k+1$ 作为子节点，从而在最精细的 level 产生规则的次序regular ordering 。规则的意思是相邻节点在较粗的 level 上层次地合并。池化如此一个重排的图信号，类似于池化一个常规的一维信号（以步长为 2 ）。
下图显示了整个池化过程的示例。这种规则排列 regular arrangement 使得池化操作非常高效，并且满足并行架构（如 GPU），因为内存访问是局部的，即不需要 fetch 被匹配的节点。
池化的本质是：对每个节点多大范围内的邻域进行池化。
一个池化的例子如下图。带颜色的链接表示配对，红色圆圈表示未能配对顶点，蓝色圆圈表示 fake 顶点。
$\mathcal G_0$ $\mathbf{\vec x}\in \mathbb R^8$ 4 $\mathcal G_0$ level $n_0 = |\mathcal V_0| = 8$ 个顶点，以任意顺序。对于大小为 4 的池化，我们需要执行 2 次粗化操作（因为每次粗化都将顶点数除以2 ）：
- Graclus $\mathcal G_1$ $n_1 = |\mathcal V_1| = 5$ 。
- Graclus $\mathcal G_2$ $n_2 = |\mathcal V_2| = 3$ ，即最粗的level 。
$n_2= 3, n_1=6, n_0=12$ fake $\mathcal V_1$ （添加 1fake $\mathcal V_0$ （添加 4 个 fakesingelton $\mathcal V_2$ $\mathcal V_1$ $\mathcal V_0$ $\mathcal V_0$ $\mathbf{\vec x}\in \mathbb R^{12}$ 上执行一个常规的一维池化，使得：
$\vec{z} = [max (x_{0}, x_{1}), max (x_{4}, x_{5}, x_{6}), max (x_{8}, x_{9}, x_{10})] \in R^{3}$
$x_2,x_3,x_7,x_{11}$ 被设置为 neutral value。

3.2 实验

我们将 non-parametric 和non-localized 的 filterNon-Param $g_\theta(\mathbf\Lambda) = \text{diag}\left(\vec\theta\right)$ ），将《Spectral Networks and Deep Locally Connected Networks on Graphs》中提出的 filterSpline $g_\theta(\mathbf\Lambda) = \mathbf B\theta$ ），将我们提出的 filterChebyshev $g_\theta(\mathbf\Lambda) = \sum_{k=0}^{K-1}\theta_kT_k\left(\tilde{\mathbf \Lambda}\right)$ ）。
我们总是采用 Graclus 粗化算法，而不是 《Spectral Networks and Deep Locally Connected Networks on Graphs》 中提出的简单聚集算法agglomerative method。我们的动机是比较学到的 filter，而不是比较粗化算法。
FCk $k$ Pk $k$ GCK $k$ 个feature map 的图卷积层graph convolutional layerCk $k$ 个 feature map 的经典卷积层。
所有的FCk,GCk,Ck 都使用ReLUsoftmax $\mathcal L$ 是交叉熵损失，以及对所有 FCk 层权重的 l2mini-batch size $S=100$ 。
MNIST 实验：我们考虑将我们的方法应用于基准的 MNIST 分类数据集，它是欧氏空间的 case 。 MNIST 分类数据集包含 70000 张数字图片，每张图片是 28 x 28 的2D 网格。对于我们的图模型，我们构建了一个 2D8 $n=|\mathcal V|= 976$ $28^2=784$ 个像素，以及额外的 192fake $|\mathcal E|=3198$ 条边。遵从标准的做法，k-NN similarity graph 的权重（即人工构建的input graph 中，每条边的权重）计算为：
$W_{i, j} = \exp (- \frac{| | {\vec{z}}_{i} - {\vec{z}}_{j} | |_{2}^{2}}{σ^{2}})$
$\mathbf{\vec z}_i$ $i$ 的2D 坐标。
模型配置为（来自于 TensorFlow MNIST tutorial ）：LeNet-5-likedropout rate = 0.5 $5\times 10^{-4}$ ，初始学习率为0.03，学习率衰减系数 0.95，动量 0.95x5 $K=25$ ，二者尺寸相同。所有模型训练 20 个 epoch 。
本实验是我们模型的一项重要的健全性检查 sanity check，它必须能够在任何图上抽取特征，包括常规的 2D grid 。下表显示了我们的模型与具有相同架构的经典 CNN 模型的性能非常接近。
性能的差距可以用谱域滤波器的各向同性的特性isotropic nature来解释，即常规 graph 中的边不具有方向性，但是 MNIST 图片作为2D grid 具有方向性（如像素点的上下左右）。这是优势还是劣势取决于具体的问题。
性能差距的其它解释是：我们的模型缺乏架构设计经验，以及需要研究更合适的优化策略或初始化策略。
20NEWS 数据集的文本分类：为了验证我们的模型可应用于非结构化数据，我们将我们的技术应用于 20NEWS 数据集上的文本分类问题。20NEWS 数据集包含 18846 篇文档，分为20 个类别。我们将其中的 11314 篇文档用于训练、7532 篇文档用于测试。我们从所有文档的 93953 个单词中保留最高频的一万个单词。每篇文档使用词袋模型bag-of-word model 提取特征，并根据文档内单词的词频进行归一化。
为了测试我们的模型，我们构建了16 层图神经网络，图的构建方式为：
$W_{i, j} = \exp (- \frac{| | {\vec{z}}_{i} - {\vec{z}}_{j} | |_{2}^{2}}{σ^{2}})$
$\mathbf{\vec z}_i$ $i$ word2vec embedding $n=|\mathcal V|=10000$ $|\mathcal E|=132834$ 条边。
word2vec embedding 是在当前数据集上训练的？还是在更大的、额外的数据集上训练的？论文未说明。
所有模型都由 Adam 优化器训练 20 个 epoch0.001 $K=5$ 的GC32 。结果如下图所示，在这个小数据集上，虽然我们的模型未能超越Multinomial Naive Bayes 模型，但是它超越了所有全连接神经网络模型，而这些全连接神经网络模型具有更多的参数。
MNIST $K=25$ Spline $O(n)$ 个参数的Non-Param。
为了给出不同 filter 的收敛性，下图给出训练过程中这几种架构的验证集准确率、训练集损失，横轴表示迭代次数。
20NEWS $K=25$ $O(n)$ 《Spectral Networks and Deep Locally Connected Networks on Graphs》 $O(n^2)$ 。测量的运行时间是总训练时间除以梯度更新的 step 数（即每个mini-batch 的处理时间，其中batch-size = 100 ）。
我们在 MNIST 数据集上验证了不同网络架构的并行性。下表显式了从 CPU 迁移到 GPU 时，我们的方法与经典 CNN 类似的加速比。这体现了我们的模型提供的并行化机会。我们的模型仅依赖于矩阵乘法，而矩阵乘法可以通过NVIDA 的 cuBLAS 库高效的支持。
图质量的影响：要使任何 graph CNN 成功，数据集必须满足一定条件：图数据必须满足局部性locality、平稳性stationarity、组合性compositionality 的统计假设。因此，学到的滤波器的质量及其分类性能关键取决于图的质量。从MNIST 实验我们可以看到：从欧式空间的网格数据中基于 kNN 构建的图，这些图数据质量很高。我们基于这些图数据采用graph CNN 几乎获得标准CNN 的性能。并且我们发现，kNN 中 k 的值对于图数据的质量影响不大。
作为对比，我们从MNIST 中构建随机图，其中顶点之间的边是随机的。可以看到在随机图上，图卷积神经网络的准确率下降。在随机图中，数据结构发生丢失，因此卷积层提取的特征不再有意义。
但是为什么丢失了结构信息之后，准确率还是那么高？读者猜测是有一些非结构性的因素在生效，例如某些像素点级别的特性。
图像可以通过网格图来构成，但是必须人工地为 bag-of-wordfeature graph $\mathbf{\vec z}$ 的方法：将每个单词表示为一个 one-hot 向量、通过 word2vec 从数据集中学习每个单词的 embedding 向量、使用预训练的单词word2vec embedding 向量。对于较大的数据集，可能需要 approximate nearest neighbor: ANN 算法（因为当图的顶点数量较大时找出每个顶点的kNN 顶点的计算复杂度太大），这就是我们在学到的 word2vec embedding 上尝试 LSHForest 的原因。下表报告了分类结果，这突出了结构良好的图的重要性。其中：bag-of-words 表示 one-hot 方法，pre-learned 表示预训练的 embedding 向量，learned 表示从数据集训练 embedding 向量，approximate 表示对 learned 得到的 embedding 向量进行最近邻搜索时使用LSHForest 近似算法，random 表示对 learned 得到的 embedding 向量采用随机生成边而不是基于 kNN 生成边。

四、GCN[2016]

考虑在 graph（如，引文网络 citation network ）中对节点（如，文档）进行分类的问题，其中仅一小部分节点有 label 信息。这个问题可以被定义为基于图的半监督学习graph-based semi-supervised learning，其中 label 信息通过某种形式的 explicit graph-based regularization 在图上被平滑 smoothed ，例如在损失函数中使用图拉普拉斯正则化graph Laplacian regularization 项：
$\begin{matrix} L = L_{0} + λ \times L_{reg} \\ L_{reg} = \sum_{i, j} A_{i, j} {‖ f ({\vec{x}}_{i}) - f ({\vec{x}}_{j}) ‖}^{2} = f (X)^{⊤} Δ f (X) \end{matrix}$
其中：
- $\mathcal G=(\mathcal V,\mathcal E)$ $\mathcal V$ $\mathcal E$ $N$ 。
- $\mathbf A\in \mathbb R^{N\times N}$ $\mathbf D$ $D_{i,i} = \sum_j A_{i,j}$ $\Delta = \mathbf D- \mathbf A$ 为未归一化的拉普拉斯算子。
- $\mathcal L_0$ 表示图中有标签部分的监督损失：
  $L_{0} = \sum_{i \in Y_{L}} {‖ f ({\vec{x}}_{i}) - y_{i} ‖}^{2}$
  其中：
  - $\mathbf{\vec x}_i\in \mathbb R^{C}$ $i$ $C$ $\mathbf X\in \mathbb R^{N\times C}$ 为节点的特征向量拼接的矩阵。
  - $y_i$ $i$ $\mathcal Y_L$ 为带标签节点的集合。
  - $f(\cdot)\in \mathbb R$ $\mathbf{\vec x}_i$ $\hat y$ $f(\mathbf X)\in \mathbb R^N$ 。
- $\mathcal L_\text{reg}$ $\lambda$ 为正则化项系数。
  正则化项的物理意义为：
  - $A_{i,j}$ label $f(\mathbf{\vec x}_i)$ $f(\mathbf{\vec x}_j)$ 距离相近）。
  - $A_{i,j}$ 较小），则它们的预估 label 可以相似也可以不相似。
$\mathcal L$ 假设：graph 中相连的节点很可能共享相同的label 。然而，这种假设会限制模型的表达能力，因为图中的边不一定编码节点相似性，边也可能包含其它信息。
《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》 $f(\mathbf X,\mathbf A)$ $\mathcal L_0$ $f(\cdot)$ $\mathbf A$ $\mathcal L_0$ 中分配distribute梯度信息，并使得模型能够学习带标签节点的representation 和不带标签节点的 representation。
论文有两个贡献：
- 首先，论文为直接在图上运行的神经网络模型引入了一个简单且表现良好的 layer-wise 传播规则propagation rule，并展示了它是如何从谱图卷积spectral graph convolution的一阶近似中启发而来。
- 其次，论文展示了这种形式的基于图的神经网络模型如何用于对图中节点进行快速且可扩展的半监督分类。对多个数据集的实验表明，论文的模型在分类准确性和效率（以 wall-clock time 衡量）方面与 state-of-the-art 的半监督学习方法相比具有优势。
相关工作：相关工作：我们的模型主要受到 graph-based 半监督学习领域、最近在图上的神经网络等工作的启发。接下来我们简要概述了这两个领域的相关工作。
- graph-based 半监督学习：近年来人们已经提出了大量使用 graph representation 的半监督学习方法，其中大多数分为两类：使用某种形式的显式的图拉普拉斯正则化方法，以及基于 graph embedding 的方法。
  - 图拉普拉斯正则化的突出例子包括标签传播 label propagation、流形正则化 manifold regularization、以及深度半监督 embedding 。
  - 最近，人们的注意力已经转移到graph embedding 模型，其中 graph embedding 模型受 skip-gram 模型所启发。
    DeepWalk 通过预测节点的局部邻域local neighborhood来学习 embedding，其中局部邻域是通过图上的随机游走采样而来。LINE 和 node2vec 使用更复杂的随机游走方案来扩展了 DeepWalk 。
    然而，对于所有这些方法，都需要一个包含随机游走生成和半监督训练的 multistep pipeline ，其中每个 step 都必须单独优化。Planetoid 通过在学习 embedding 的过程中注入label 信息来缓解这个问题。
- 图上的神经网络：
  - 《A new model for learning in graph domains》 曾经介绍在图上运行的神经网络。《The graph neural network model》 将图神经网络作为循环神经网络的一种形式。他们的框架需要重复应用收缩映射 contraction map 作为传播函数 propagation function，直到 node representation 达到稳定的不动点 fixed point 。后来，《Gated graph sequence neural networks》 通过将循环神经网络的现代实践引入到原始图神经网络框架中，从而缓解了这种限制。
  - 《Convolutional networks on graphs for learning molecular fingerprints》 在图上引入了一种类似卷积的传播规则和方法，从而用于 graph-level 分类。他们的方法需要学习 node degree-specific 的权重矩阵，这些权重矩阵无法扩展到具有宽泛wide的 node degree 分布的大型图。相反，我们的模型每层使用单个权重矩阵，并通过对邻接矩阵进行适当的归一化从而处理变化的 node degree 。
  - 《Diffusion-convolutional neural networks》graph-based $O(N^2)$ 的复杂度，这限制了模型的应用范围。《Learning convolutional neural networks for graphs》 引入了一个不同但是相关related的模型，他们将图局部locally地转换为序列，然后馈入传统的一维卷积神经网络，而这需要在预处理步骤中定义节点排序node ordering。
  - 我们的方法基于谱图卷积神经网络 spectral graph convolutional neural network，该模型在 《Spectral networks and locally connected networks on graphs》 被引入，并由 《Convolutional neural networks on graphs with fast localized spectral filtering》 通过快速局部卷积fast localized convolution进行了扩展。
  与这些工作相比，我们在此考虑在大型网络中进行 transductive 的节点分类任务。我们表明，在这种情况下，可以将《Spectral networks and locally connected networks on graphs》 和 《Convolutional neural networks on graphs with fast localized spectral filtering》 的原始框架进行一些简化，从而提高大型网络的可扩展性和分类性能。

4.1 模型

4.1.1 图上卷积的快速近似

这里我们提供本文模型的理论动机。我们考虑具有以下 layer-wise 传播规则的一个多层 Graph Convolutional Network: GCN：
$H^{(l + 1)} = σ ({\tilde{D}}^{- 1 / 2} \tilde{A} {\tilde{D}}^{- 1 / 2} H^{(l)} Θ^{(l)})$
其中：
- $\tilde{\mathbf A} = \mathbf A + \mathbf I_N$ $\mathbf I_N$ $N$ $\tilde {\mathbf D}$ $\tilde D_{i,i} = \sum_j \tilde A_{i,j}$ 。
- $\mathbf H^{(l)}\in \mathbb R^{N\times d}$ $l$ $\mathbf H^{0} = \mathbf X$ $d$ $\mathbf \Theta^{(l)}\in \mathbb R^{d\times d}$ $l$ $\sigma(\cdot)$ 为激活函数。
接下来我们将展示这种传播规则可以通过图上局部谱滤波器localized spectral filters的一阶近似所启发而来。
$l+1$ 层中每个节点的representation 可以这样得到：
- $l$ representation $\tilde A_{i,j}/\tilde D_{i,i}$ ）。
- $\mathbf\Theta^{(l)}$ $\sigma(\cdot)$ 。

a. 谱图卷积

spectral convolution $\mathbf{\vec x}\in \mathbb R^N$ $\vec\theta\in \mathbb R^N$ $g_\theta=\text{diag}\left(\vec\theta\right)$ 的乘积，即：
$g_{θ} * \vec{x} = U g_{θ} U^{⊤} \vec{x}$
其中：
- $\mathbf U=\left[\mathbf{\vec u}_0,\cdots,\mathbf{\vec u}_{N-1}\right]\in \mathbb R^{N\times N}$ $\mathbf L = \mathbf I_N - \mathbf D^{-1/2}\mathbf A\mathbf D^{-1/2}$ $\mathbf{\vec u}_i$ $\mathbf L = \mathbf U\mathbf\Lambda \mathbf U^\top$ $\mathbf\Lambda=\text{diag}([\lambda_0,\cdots,\lambda_{N-1}])$ $\lambda_i$ 组成的对角矩阵。
- $\mathbf{\vec x}$ $\hat{\mathbf{\vec x}} = \mathbf U^\top \mathbf{\vec x}$ graph Fourier transform $\mathbf{\vec x}=\mathbf U\hat{\mathbf{\vec x}}$ 表示图傅里叶逆变换。
  $\mathbf{\vec x}\in \mathbb R^N$ $\mathbf{\vec x}_i\in \mathbb R^{C}$ $i$ 上。我们有：
  $\begin{matrix} X = {[{\vec{x}}_{1}, \dots, {\vec{x}}_{N}]}^{⊤} = [\begin{matrix} x_{1, 1} & x_{1, 2} & \dots & x_{1, C} \\ x_{2, 1} & x_{2, 2} & \dots & x_{2, C} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{N, 1} & x_{N, 2} & \dots & x_{N, d_{N}} \end{matrix}] \end{matrix}$
  $\mathbf X$ 有两种解读方式：
  - $i$ $i$ $C$ $1\le i\le N$ 。
  - $j$ $j$ $1\le j\le C$ 。
- $g_\theta$ $\mathbf L$ $g_\theta(\mathbf\Lambda)$ 。
$g_\theta*\mathbf{\vec x}$ $\mathbf U$ $O(N^2)$ $\mathbf L$ 《Aavelets on graphs via spectral graph theory》 $g_\theta(\mathbf\Lambda)$ $T_k(x)$ truncated expansion $K$ 阶）来很好地近似：
$g_{θ^{'}} (Λ) ≃ \sum_{k = 0}^{K} θ_{k}^{'} T_{k} (\tilde{Λ})$
其中：
- $\tilde{\mathbf\Lambda} = \frac{2}{\lambda_\max}\mathbf\Lambda - \mathbf I_N$ [-1,+1] $\lambda_\max$ $\mathbf L$ 最大的特征值。
- $\vec\theta^\prime=\left(\theta^\prime_0,\theta^\prime_1,\theta^\prime_2,\cdots,\theta^\prime_K\right) \in \mathbb R^{K+1}$ 为切比雪夫多项式系数。
- $T_k(x)$ $k$ 阶切比雪夫多项式，它递归地定义为：
  $\begin{matrix} T_{0} (x) = 1, T_{1} (x) = x \\ T_{k} (x) = 2 x T_{k - 1} (x) - T_{k - 2} (x) \end{matrix}$
$\mathbf{\vec x}$ $g_{\theta^\prime}$ 的卷积的定义，则我们有：
$g_{θ^{'}} * \vec{x} ≃ \sum_{k = 0}^{K} θ_{k}^{'} T_{k} (\tilde{L}) \vec{x}$
$\tilde{\mathbf L} = \frac{2}{\lambda_\max}\mathbf L - \mathbf I_N$ 为缩放后的拉普拉斯矩阵。
$\left(\mathbf U\mathbf\Lambda\mathbf U^\top\right)^k = \mathbf U\mathbf\Lambda^k\mathbf U^\top$ 。
$K$ K-localized $K$ K step $K$ 阶邻域）。
$g_{\theta^\prime} * \mathbf{\vec x}$ $O(|\mathcal E|)$ 的，即与边的数量呈线性关系。《Convolutional neural networks on graphs with fast localized spectral filtering》 使用这种 K-localized 卷积来定义图上的卷积神经网络。

4.1.2 Layer-wise 线性模型

$g_{\theta^\prime} * \mathbf{\vec x}$ 形式的卷积层从而构建基于图卷积的神经网络模型，每个 layer 后跟随一个 point-wise non-linearitylayer-wise $K=1$ $\mathbf L$ 的线性函数。
通过这种方式，我们仍然可以通过堆叠多个这种 layer 来恢复 recover 丰富类型的卷积滤波器函数，但是我们不限于由诸如切比雪夫多项式给出的显式参数化。对于具有非常宽泛 wide 的node degree 分布的图（如社交网络、引文网络、知识图谱、以及许多现实世界其它的图数据集），我们直观地期望这样的模型可以缓解图的局部邻域结构local neighborhood structure的过拟合问题。此外，对于固定的计算预算computational budget，这种 layer-wise 线性公式允许我们构建更深的模型。众所周知，更深的模型在很多领域可以提高模型容量。
GCN $\lambda_\max = 2$ ，因为我们可以预期神经网络参数将在训练期间适应这种 scale 的变化。
$\lambda_\max$ 2 $\frac{2}{\lambda_\max}$ 。
$g_{\theta^\prime} * \mathbf{\vec x}$ 简化为：
$g_{θ^{'}} * \vec{x} ≃ θ_{0}^{'} \vec{x} + θ_{1}^{'} (L - I_{N}) \vec{x} = θ_{0}^{'} \vec{x} - θ_{1}^{'} D^{- 1 / 2} A D^{- 1 / 2} \vec{x}$
free parameter $\theta_0^\prime,\theta_1^\prime$ $\theta_0^\prime,\theta_1^\prime$ successive application $k$ $k$ 为神经网络模型中卷积层的数量。
$\theta = \theta_0^\prime = -\theta_1^\prime$ ，现在只有一个参数：
$g_{θ^{'}} * \vec{x} ≃ θ (I_{N} + D^{- 1 / 2} A D^{- 1 / 2}) \vec{x}$
$\theta=\frac{1}{\beta}\theta_0^\prime = -\theta_1^\prime$ $\beta\ne 0$ 为超参数。则有：
$g_{θ^{'}} * \vec{x} ≃ θ (β I_{N} + D^{- 1 / 2} A D^{- 1 / 2}) \vec{x}$
renormalization $\tilde{\mathbf A}=\mathbf A + \beta\mathbf I_N$ $\beta$ $\mathbf A$ $\mathbf I_N$ $\beta$ 既可以作为模型参数来从数据中学习，也可以作为超参数由验证集调优得到。
$\mathbf I_N + \mathbf D^{-1/2}\mathbf A \mathbf D^{-1/2}$ 的特征值的取值范围是 [0, 2] 。因此，当在深度神经网络模型中重复应用该算子时，会导致数值不稳定和梯度爆炸/消失。为了缓解这个问题，我们引入以下 renormalization 技巧：
$\begin{matrix} I_{N} + D^{- 1 / 2} A D^{- 1 / 2} \to {\tilde{D}}^{- 1 / 2} \tilde{A} {\tilde{D}}^{- 1 / 2} \\ \tilde{A} = A + I_{N}, {\tilde{D}}_{i, i} = \sum_{j} {\tilde{A}}_{i, j} \end{matrix}$
$C$ $\mathbf X\in \mathbb R^{N\times C}$ $C$ $F$ 个滤波器（或 feature map）：
$Z = {\tilde{D}}^{- 1 / 2} \tilde{A} {\tilde{D}}^{- 1 / 2} X Θ$
其中：
- $\mathbf \Theta\in \mathbb R^{C\times F}$ 为滤波器参数组成的矩阵。
- $\mathbf Z\in \mathbb R^{N\times F}$ 为卷积后的 signal matrix 。
$O(|\mathcal E|FC)$ $\tilde{\mathbf A} \mathbf X$ 可以有效地实现为稀疏矩阵与稠密矩阵的乘积。

4.2 半监督节点分类

$f(\mathbf X,\mathbf A)$ $\mathbf X$ $\mathbf A$ $f(\mathbf X,\mathbf A)$ 来放松某些假设，这些假设常用于 graph-basedsetting $\mathbf A$ $\mathbf X$ 中不存在的信息的情况下特别强大，例如引文网络中文档之间的引用链接citation link、或者知识图谱中的关系relation 。整个模型是一个用于半监督学习的多层 GCN，如下图所示。
$\mathbf A$ 的图上用于半监督节点分类的两层 GCN 。我们首先在预处理步骤中计算：
$\hat{A} = {\tilde{D}}^{- 1 / 2} \tilde{A} {\tilde{D}}^{- 1 / 2}$
然后我们的前向计算采用简单的形式：
$Z = f (X, A) = softmax (\hat{A} relu (\hat{A} X Θ^{(0)}) Θ^{(1)})$
其中：
- $\mathbf \Theta^{(0)}\in \mathbb R^{C\times H}$ $H$ 个feature mapinput-to-hidden $\mathbf \Theta^{(1)}\in \mathbb R^{H\times F}$ 为 hidden-to-output 的权重矩阵。
- softmax $\text{softmax}(x_i) = \frac{\exp(x_i)}{\sum_j\exp(x_j)}$ 。
对于半监督多类分类，我们评估所有标记节点的交叉熵：
$L = - \sum_{l \in Y_{L}} \sum_{f = 1}^{F} Y_{l, f} \ln (Z_{l, f})$
$\mathcal Y_l$ 为具有 label 的节点索引集合。
$\mathbf \Theta^{(0)}$ $\mathbf \Theta^{(1)}$ 是通过梯度下降来训练的。在这项工作中，我们每次训练迭代使用完整数据集执行 batch gradient descentfit $\mathbf A$ $O(|\mathcal E|)$ ，即与边的数量呈线性关系。我们在训练过程中通过 dropout 引入随机性。我们将 mini-batch 随机梯度下降这个 memory-efficient 扩展留待未来工作。
在实践中，我们采用 TensorFlow 使用 sparse-denseGPU $\mathbf Z = f(\mathbf X,\mathbf A)$ $O(|\mathcal E|CHF)$ ，即与边的数量呈线性关系。

4.3 和 WL 算法的关系

4.3.1 WL 算法

理想情况下图神经网络模型应该能够学到图中节点的representation，该representation 必须能够同时考虑图的结构和节点的特征。
一维 Weisfeiler-Lehman:WL-1 算法提供了一个研究框架。给定图以及初始节点标签，该框架可以对节点标签进行唯一分配unique assignment。
注意，这里的“标签”不仅包括节点上的监督 label 信号，也包括节点上的属性信息。
WL-1 $h_i^{(t)}$ $v_i$ $t$ $\mathcal N_i$ $v_i$ $\text{hash}(\cdot)$ 为一个哈希函数。
- $\left\{h_1^{(0)},h_2^{(0)},\cdots,h_N^{(0)}\right\}$
- $\left\{h_1^{(T)},h_2^{(T)},\cdots,h_N^{(T)}\right\}$
- 算法步骤：
  - $t=0$ 。
  - $t=T$ 或者节点的标签到达稳定状态。迭代步骤为：
    - $v_i\in \mathcal V$ ，执行：
      $h_{i}^{(t + 1)} = hash (\sum_{j \in N_{i}} h_{j}^{(t)})$
    - $t = t+1$
  - 返回每个节点的标签。
hash $h_i$ 为向量，则有：
${\vec{h}}_{i}^{(l + 1)} = σ (\sum_{j \in N_{i}} \frac{1}{c_{i, j}} Θ^{(l)^{⊤}} {\vec{h}}_{j}^{(l)})$
$\mathbf{\vec h}_i^{(l)}$ $l$ $i$ vector of activations $\mathbf \Theta^{(l)}$ $l$ $\sigma(\cdot)$ $c_{i,j}$ $(v_i,v_j)$ 的正则化常数。
$c_{i,j} = \sqrt{D_iD_j}$ $D_i = |\mathcal N_i|$ $v_i$ 的度degree，则上式等价于我们 GCN 模型的传播规则。因此我们可以将 GCN 模型解释为图上 WL-1 算法的微分化differentiable的和参数化parameterized 的推广。

4.3.2 随机权重的 node embedding

通过与 WL-1 算法的类比，我们可以认为：即使是未经训练的、具有随机权重的 GCN 模型也可以充当图中节点的一个强大的特征提取器。如：考虑下面的一个三层GCN 模型：
$Z = \tanh (\hat{A} \tanh (\hat{A} \tanh (\hat{A} X Θ^{(0)}) Θ^{(1)}) Θ^{(2)})$
Xavier $\mathbf \Theta^{(k)}\sim \text{Uniform}\left[-\sqrt{\frac{6}{h_k+h_{k+1}}},\sqrt{\frac{6}{h_k+h_{k+1}}}\right]$ 。
我们将这个三层 GCN 模型应用于 Zachary 的 karate club network ，该网络包含34个节点、154 条边。每个节点都属于一个类别，一共四种类别。节点的类别是通过 modularity-based 聚类算法进行标注的。如下图所示，颜色表示节点类别。
$\mathbf X = \mathbf I_N$ ，即每个节点除了节点ID 之外不包含任何其它特征。另外节点的ID 是随机分配的，也不包含任何信息。我们选择隐层的维度为42 $\mathbf Y$ 能够直接视为二维数据点来可视化。
下图给出了未经训练的 GCN 模型（即前向传播）获得的node embedding，这些结果与从DeepWalk 获得的node embedding 效果相当，而DeepWalk 使用了代价更高的无监督训练过程。
因此可以将随机初始化的 GCN 作为 graph embedding 特征抽取器来使用，而且还不用训练。

4.3.3 半监督 node embedding

在karate club network数据集上，我们观察半监督分类任务期间 node embedding 如何变化。这种可视化效果提供了关于 GCN 模型如何利用图结构从而学到对于分类任务有益的node embedding 。
训练配置：
- 在上述三层GCN 之后添加一个 softmax 输出层，输出节点属于各类别的概率。
- 每个类别仅使用一个带标签的节点进行训练，一共有四个带标签的节点。
- 使用Adam 优化器，初始化学习率为 0.01。采用交叉熵损失函数。迭代 300 个 step。
下图给出多轮迭代中，node embedding 的演变。图中的灰色直线表示图的边，高亮节点（灰色轮廓）表示标记节点。可以看到：模型最终基于图结构以及最少的监督信息，成功线性地分离出了簇团。

4.4 实验

我们在多个任务中验证模型性能：在引文网络中进行半监督文档分类、在从知识图谱抽取的二部图中进行半监督实体分类。然后我们评估图的各种传播模型，并对随机图的rum-time进行分析。
数据集：
- 引文网络数据集：我们考虑 Citeseer,Cora,Pubmedbag-of-word: BOW $\mathbf A$ 。
  每个文档都有一个类别标签，每个类别仅包含 20个标记节点作为训练样本。
- NELL《Toward an architecture for never-ending language learning》 $(e_1,r,e_2)$ $\{e_1,e_2,r_1,r_2\}$ $(e_1,r_1)$ $(e_2,r_2)$ $r_1,r_2$ $r$ 得到的两个“拷贝”的关系节点relation node，它们之间不存在边。最终我们得到 55864 个关系节点和 9891 个实体节点。
  实体节点entity node 通过稀疏的特征向量来描述。我们为每个关系节点分配唯一的 one-hot 向量从而扩展 NELL 的实体特征向量，从而使得每个节点的特征向量为 61278 维稀疏向量。
  $i$ $j$ $A_{i,j} = 1$ 从而构建一个二元对称邻接矩阵。
  在节点的半监督分类任务中，我们为每个类别标记一个节点作为训练集，因此属于非常极端的情况。
- 随机图：我们生成各种规模的随机Graph 数据集，从而评估每个epoch 的训练时间。
  $N$ 个节点的图，我们创建一个随机图：
  - $2N$ 条边。
  - $\mathbf X = \mathbf I_N$ ，即每个节点除了其id 之外没有任何特征，且节点id 是随机分配的。
  - $y_i=1$ 。
各数据集的整体统计如下表所示。标记率label rate：表示监督的标记节点数量占总的节点数量的比例。
模型设置：除非另有说明，否则我们的GCN 模型就是前面描述的两层GCN 模型。
- 我们将数据集拆分为labled 数据、unlabled 数据、测试数据。其中我们在labled 数据和 unlabled 数据上学习，在测试数据上测试。我们选择测试数据包含 1000 个节点。
  注意，训练期间模型能够“看到”所有节点，但是无法知道测试节点的 label 信息。
  另外我们还使用额外的 500 个带标签的节点作为验证集，用于超参数优化。这些超参数包括：所有层的 dropout rateGCN $L_2$ 正则化系数、隐层的维度。
  注意：验证集的标签不用于训练。
- 对于引文网络数据集，我们仅在Cora 数据集上优化超参数，并对Citeseer 和 Pubmed 数据集采用相同的超参数。
- 所有模型都使用 Adam 优化器，初始化学习率为 0.01 。
- 所有模型都使用早停策略，早停的 epoch 窗口为 10。即：如果连续 10 个 epoch 的验证损失没有下降，则停止继续训练。所有模型最多训练 200 个 epoch 。
- Xavier $\mathbf \Theta^{(k)}\sim \text{Uniform}\left[-\sqrt{\frac{6}{h_k+h_{k+1}}},\sqrt{\frac{6}{h_k+h_{k+1}}}\right]$ 。
- 我们对输入的特征向量进行按行的归一化 row-normalize （即每个样本输入特征向量归一化为范数为 1 ）。
- 在随机图数据集上，我们选择隐层维度为 32dropout $L_2$ 正则化。
Baseline 模型：我们比较了《Revisiting semi-supervised learning with graph embeddings》 相同的 baseline 方法，即：标签传播算法label propagation: LP、半监督embedding 算法 semi-supervised embedding: SemiEmb 、流形正则化算法manifold regularization: MainReg 、基于skip-gram 的图嵌入算法DeepWalk 。我们忽略了 TSVM 算法，因为它无法扩展到类别数很大的数据集。
我们进一步与 《Link-based classification》 中提出的iterative classification algorithm: ICA 进行比较。我们还还比较了Planetoid 算法，我们总是选择他们表现最好的模型变体（transductive vs inductive ）作为 baseline 。
模型比较结果如下表所示。对于ICA ，我们随机运行 100 次、每次以随机的节点顺序训练得到的平均准确率。所有其它基准模型的结果均来自于 Planetoid 论文，Planetoid* 表示论文中提出的针对每个数据集的最佳变体。
我们在与《Revisiting semi-supervised learning with graph embeddings》 相同的数据集拆分上训练和测试了我们的模型，并报告随机权重初始化的 100 次的平均准确率（括号中为平均训练时间）。我们为 Citeseer,Cora,Pubmeddropout rate = 0.5 $L_2$ $5\times 10^{-4}$ 、隐层的维度为16 ；为 NELLdropout rate = 0.1 $L_2$ $1\times 10^{-5}$ ，隐层维度为 64 。
最后我们报告了10 次随机拆分数据集，每次拆分的labled 数据、unlabled 数据、测试数据比例与之前相同，然后给出GCN 的平均准确率和标准差（以百分比表示），记作 GCN(rand. splits) 。
前面七行是针对同一种数据集拆分，最后一行是不同的数据集拆分。
我们在引文网络数据集上比较了我们提出的逐层传播模型的不同变体，实验配置和之前相同，结果如下表所示。
我们原始的 GCN 模型应用了 renormalization 技巧（粗体），即：
$I + D^{- 1 / 2} A D^{- 1 / 2} \to {\tilde{D}}^{- 1 / 2} \tilde{A} {\tilde{D}}^{- 1 / 2}$
其它的GCN 变体采用Propagation model 字段对应的传播模型。
- 对于每一种变体模型，我们给出执行100次、每次都是随机权重初始化的平均分类准确率。
- $\mathbf{\mathbf \Theta}_k$ Chebyshev filter, 1st-order model $L_2$ 正则化。
我们在随机图上报告了 100 个 epoch 的每个 epoch 平均训练时间。我们在 Tensorflow 上比较了 CPU 和 GPU 实现的结果，其中 * 表示内存溢出错误Out Of Memory Error 。
最后我们考虑模型的深度对于性能的影响。这里我们报告对 Cora,Citeseer,Pubmed 数据集进行5 折交叉验证的结果。
除了标准的 GCN 模型之外，我们还报告了模型的一种变体：隐层之间使用了残差连接：
$H^{(l + 1)} = σ ({\tilde{D}}^{- 1 / 2} \tilde{A} {\tilde{D}}^{- 1 / 2} H^{(l)} Θ^{(l)}) + H^{(l)}$
在5 折交叉验证的每个拆分中，我们训练400 个 epoch 并且不使用早停策略。我们使用Adam 优化器，初始学习率为 0.01dropout rate = 0.5 $5\times 10^{-4}$ $L_2$ 正则化。GCN 的隐层维度选择为 16 。
结果如下图所示，其中标记点表示5 折交叉验证的平均准确率，阴影部分表示方差。
可以看到：
- 当使用两层或三层模型时，GCN 可以获得最佳效果。
- 当模型的深度超过七层时，如果不使用残差连接则训练会变得非常困难，表现为训练准确率骤降。因为每个节点的有效上下文会随着层深的增加而扩大。
- 当模型深度增加时，模型的参数数量也会增加，此时模型的过拟合可能会成为问题。

4.5 讨论

半监督模型：在这里展示的实验中，我们的半监督节点分类方法明显优于最近的相关方法。
- 基于图拉普拉斯正则化的方法很可能受到限制，因为它们假设边仅仅编码了节点的相似性。
- 另一方面，基于 skip-gram 的方法受限于它们难以优化的 multi-step pipeline 这一事实。
- 我们提出的模型可以客服这两个限制，同时在效率（以 wall-clock time 衡量）方面仍然优于相关方法。与仅聚合label信息的 ICA 等方法相比，在每一层中从相邻节点传播feature信息提高了分类性能。
- $\theta_0^\prime \mathbf{\vec x} - \theta_1^\prime \mathbf D^{-1/2}\mathbf A \mathbf D^{-1/2}\mathbf{\vec x}$ $\sum_{k=0}^K \theta_k^\prime T_k\left(\tilde{\mathbf L}\right) \mathbf{\vec x}$ $\tilde{\mathbf D}^{-1/2}\tilde{\mathbf A}\tilde{\mathbf D}^{-1/2}\mathbf X \mathbf\Theta$ 在许多数据集上提供了更高的效率（更少的参数和操作，如乘法操作或加法操作）以及更好的预测性能。
局限性和未来方向：我们的 Semi-GCN 模型存在一些局限，我们计划在将来克服这些局限性。
- 内存需求局限性：在full-batch 梯度下降算法中，内存需求随着数据集的大小线性增长。
  - 一种解决方式是：采用 CPU 训练来代替 GPU 训练。这种方式我们在实验中得到验证。
  - 另一种解决方式是：采用 mini-batch 随机梯度下降算法。
    但是mini-batchGCN $K$ GCN $K$ 阶邻域必须全部存储在内存中。对于节点数量庞大、节点链接很密集的图，这可能需要进一步的优化。
- 边类型的局限性：目前我们的模型不支持边的特征，也不支持有向图。
  通过NELL 数据集的实验结果表明：可以通过将原始的有向图转化为无向二部图来处理有向图以及边的特征。这通过额外的、代表原始图中的边的节点来实现。
- 假设的局限性：我们的模型有两个基本假设：
  - $K$ GCN $K$ 阶邻居，即模型的局部性locality。
  - 假设自链接和邻居链接同样重要。
    trade-off $\tilde{\mathbf A} = \mathbf A + \beta \mathbf I_N$ $\beta$
    平衡了自链接和邻居链接的重要性，它可以通过梯度下降来学习（也可以作为超参数来调优）。

五、神经图指纹[2015]

在材料设计领域的最新工作已经将神经网络用于材料筛选，其任务是通过学习样本来预测新型分子的特性。预测分子特性通常需要将分子图作为输入，然后构建模型来预测。在分子图中节点表示原子，边表示化学键。这个任务的一个难点在于：输入的分子图可以具有任意大小和任意形状，而大多数机器学习模型只能够处理固定尺寸、固定形状的输入。目前state of the art的方法是通过hash 函数对分子图进行预处理从而生成固定尺寸的指纹向量fingerprint vector，该指纹向量作为分子的特征灌入后续的模型中。在训练期间，分子指纹molecular fingerprint 被视为固定fixed的（即，固定指纹）。
论文《Convolutional Networks on Graphs for Learning Molecular Fingerprints》 提出了神经图指纹 neural graph fingerprint模型，该模型用一个可微的神经网络代替了分子指纹部分。神经网络以原始的分子图作为输入，采用卷积层来抽取特征，然后通过全局池化来结合所有原子的特征。这种方式使得我们可以端到端的进行分子预测。
相比较传统的固定指纹的方式，神经图指纹具有以下优势：
- 预测能力强：通过实验比较可以发现，神经图指纹比传统的固定指纹能够提供更好的预测能力。
- 模型简洁：为了对所有可能的子结构进行编码，固定指纹的必须维度非常高。而神经图指纹只需要对相关特征进行编码，模型的维度相对而言低得多，这降低了下游的计算量和正则化需求。
- 可解释性：传统的固定指纹对每个片段fragment 进行不同的编码，片段之间没有相似的概念。在神经图指纹中，每个特征都可以由相似但是不同的分子片段激活，这使得特征的representation 更具有意义。
  即，相似的片段具有相似的特征，相似的特征也代表了相似的片段。
相关工作：这项工作在精神上类似于神经图灵机 neural Turing machine: NTM，从某种意义上讲，我们采用现有的离散计算架构，并使每个部分可微从而进行 gradient-based 的优化。
- 卷积神经网络：卷积神经网络已被用于对图像、语音、时间序列进行建模。然而，标准卷积架构使用固定的、网格的 graph数据结构，这使得它很难应用于具有不同尺寸或结构的对象（如分子）。最近 《A convolutional neural network for modelling sentences》 开发了一种卷积神经网络架构，可用于对不同长度的句子进行建模。
- 神经指纹neural fingerprint：最密切相关的工作是 《Deep architectures and deep learning in chemoinformatics: the prediction of aqueous solubility for drug-like molecules》 ，它构建了一个具有 graph-valued 输入的神经网络。它的方法是删除所有的环 cycle 并将graph 构建为 tree 结构，选择一个原子作为 root，然后从叶节点到 root 节点运行 RNNrepresentation $N$ graph $N$ root $N$ 个可能的 graph 。最终的 descriptor 是所有不同的图计算的 representationsum $O(N^2F^2)$ $N$ $F$ 为特征向量维度，因此不太适合大分子。
- 定量构效关系quantitative structure-activity relationship: QSAR的神经网络：预测分子性质的现代标准是结合圆形指纹circular fingerprint以及全连接神经网络（或者其它回归方法）。
  - 《Multi-task neural networks for QSAR predictions》 使用圆形指纹作为神经网络、高斯过程、随机森林的输入。
  - 《Massively multitask networks for drug discovery》 使用圆形指纹（深度为 2）作为多任务神经网络的输入，并表明多任务有助于提高性能。
- fixed graph 上的神经网络：《Spectral networks and locally connected networks on graphs》 在图结构固定的情况下在图上引入卷积网络，每个训练样本的不同之处仅在于：在同一个图的不同节点具有不同的特征。相比之下，我们的网络解决了每个训练样本都是不同图的情况。
- input-dependent graph 上的神经网络：
  - 《The graph neural network model》 提出了一种用于图的、具有一个有趣训练过程的神经网络模型。前向传播包括运行消息传递方案message-passing scheme从而达到平衡，这一事实（即，不动点）允许在不存储整个前向计算的情况下计算反向梯度。他们将他们的模型应用于预测分子化合物的诱变性、以及网页排名。
  - 《Neural network for graphs: A contextual constructive approach》 还提出了一种用于图的神经网络模型。该模型具有一个 learning scheme ，其内循环优化的不是训练损失，而是每个新提出newly-proposed 的向量与训练误差残差之间的相关性。他们将他们的模型应用于 150 种分子化合物的沸点数据集上。
  我们的论文建立在这些思想的基础上，具有以下区别：我们的方法用简单的、gradient-based 的优化代替了复杂的训练算法，推广了现有的圆形指纹计算，并将这些神经网络应用于现代的 QSAR pipeline 上下文中（这些 pipeline 在指纹特征之上使用神经网络来增加模型容量）。
- 被展开unrolled的推断算法：《Deep unfolding: Model-based inspiration of novel deep architectures》 和其他人已经注意到迭代式的推断过程有时类似于 RNN 的前馈计算。这些想法的一个自然扩展是参数化每个 inference step ，并训练神经网络从而仅使用少量迭代来近似地 match 精确推断的输出。从这个角度来看，神经指纹类似于原始图上被展开的消息传递算法。

5.1 模型

5.1.1 圆形指纹算法

分子指纹molecular fingerprint的最新技术是扩展连接性圆形指纹 extended-connectivity circular fingerprints: ECFP 。ECFP 是对Morgan 算法的改进，旨在以无关于原子标记顺序atom-relabling的方式来识别分子中存在哪些子结构substructure。
ECFP 通过对前一层邻域的特征进行拼接，然后采用一个固定的哈希函数来抽取当前层的特征。哈希函数的结果视为整数索引，然后对节点 feature vector 在索引对应位置处填写 1 (即，登记某个特定的子结构是否出现) 。
不考虑hash 冲突，则指纹向量的每个索引都代表一个特定的子结构。索引表示的子结构的范围取决于网络深度，因此网络的层数也被称为指纹的“半径”。
ECFP 类似于卷积网络，因为它们都在局部采用了相同的操作，并且在全局池化中聚合信息。
ECFP 的计算框架如下图所示：首先通过分子结构构建分子图，其中节点表示原子、边表示化学键。在每一层，信息在邻域之间流动。图的每个节点在一个固定的指纹向量中占据一个bit。
其中这只是一个简单的示意图，实际上每一层都可以写入指纹向量。
$\mathbf{\vec f}$ 仅记录了每个子结构是否出现，但是无法记录这些子结构出现的频次。
圆形指纹算法：
- 输入：
  - 分子结构
  - $R$
  - $S$
- $\mathbf{\vec f}$
- 算法步骤：
  - 初始化指纹向量：
    $\vec{f} = (\underset{S}{\underset{⏟}{0, 0, \dots, 0}})^{⊤}$
  - $a$ $\mathbf{\vec r}_a^{(0)} = g(a)$ 。
  - $l, 1\le l\le R$ 层，迭代步骤为：
    - $a$ $a$ 计算：
      - $a$ $\mathbf{\vec r}_1^{(l-1)},\cdots,\mathbf{\vec r}_N^{(l-1)}$ $N$ 为邻域原子数量。
      - $a$ $\mathbf{\vec v}^{(l)} = \left[\mathbf{\vec r}_a^{(l-1)},\mathbf{\vec r}_1^{(l-1)},\cdots,\mathbf{\vec r}_N^{(l-1)}\right]$ 。
      - $a$ $\mathbf{\vec r}_a^{(l)} = \text{hash}\left(\mathbf{\vec v}^{(l)}\right)$ 。
      - $i = \text{mod}\left(\mathbf{\vec r}_a^{(l)},S\right)$ 。
      - $f_i = 1$ 。
  - $\mathbf{\vec f}$ 。

5.1.2 分子指纹GCN算法

我们选择类似于现有ECFP 的神经网络架构，用可微函数来代替 ECFP 中的每个离散操作：
- 哈希操作Hashing：在ECFP 算法中，应用于每一层的哈希函数的目的是为了组合关于每个原子及其邻域子结构的信息。这确保了 fragment 中的任何修改，无论多么小，都将导致激活不同的指纹索引 fingerprint index 。
  我们利用单层神经网络代替哈希运算。当分子的局部结构发生微小的变化时（神经网络是可微的，因此也是平滑的），这种平滑函数可以得到相似的激活值。
- 索引操作Indexing：在 ECFP 算法中，每一层采用索引操作的目的是将每个原子的特征向量组合成整个分子指纹。每个原子在其特征向量的哈希值确定的索引处，将指纹向量的单个比特位设置为1，每个原子对应一个1 。这种操作类似于池化，它可以将任意大小的graph 转换为固定大小的向量。当分子图比较小而指纹长度很大时，最终得到的指纹向量非常稀疏。
  我们使用softmax 操作视作索引操作的一个可微的近似。本质上这是要求将每个原子划分到一组类别的某个类别中。所有原子的这些类别向量的sum 得到最终的指纹向量。其操作也类似于卷积神经网络中的池化操作。
- 规范化Canonicalization：无论原子的邻域原子的顺序如何变化，圆形指纹是不变的。实现这种不变性的一种方式是：在算法过程中，根据相邻原子的特征和键特征对相邻原子进行排序。我们尝试了这种排序方案，并且还对局部邻域的所有可能排列应用了局部特征变换。
  另外，一种替代方案是应用排序不变函数permutation-invariant，如求和。为了简单和可扩展性，我们选择直接求和。
神经图指纹算法：
- 输入：
  - 分子结构
  - $R$
  - $S$
  - $\mathbf H_1^1,\cdots, \mathbf H_R^5$ $\mathbf W_1,\cdots,\mathbf W_R$ 。
    $1,2,3,4,5$ （最多五个键）。
    $\mathbf H$ 。
- $\mathbf{\vec f}$
- 算法步骤：
  - 初始化指纹向量：
    $\vec{f} = (\underset{S}{\underset{⏟}{0, 0, \dots, 0}})^{⊤}$
  - $a$ $\mathbf{\vec r}_a = g(a)$ 。
  - $l, 1\le l\le R$ 层，迭代步骤为：
    - $a$ $a$ 计算：
      - $a$ $\mathbf{\vec r}_1^{(l-1)},\cdots,\mathbf{\vec r}_N^{(l-1)}$ $N$ 为邻域原子数量。
      - $a$ $\mathcal N_a$ $\mathbf{\vec v}^{(l)} = \mathbf{\vec r}_a^{(l-1)}+\sum_{i=1}^N\mathbf{\vec r}_i^{(l-1)}$ 。
      - $\mathbf{\vec r}_a^{(l)} = \sigma\left(\mathbf H_l^N \mathbf{\vec v}^{(l)}\right)$ $N$ 为邻域节点数量。
      - $\mathbf{\vec i} = \text{softmax}\left(\mathbf W_l\mathbf{\vec r}_a^{(l)}\right)$ 。
      - $\mathbf{\vec f} = \mathbf{\vec f} + \mathbf{\vec i}$ 。
  - $\mathbf{\vec f}$ 。
$S$ $F$ $\mathbf W_{l}$ $O(F\times S)$ $\mathbf H_l^N$ $O(F\times F)$ 。
上述 ECFP 算法和神经图指纹算法将每一层计算得到的指纹叠加到全局指纹向量中。我们也可以针对每一层计算得到一个层级指纹向量，然后将它们进行拼接，而不是相加。以神经图指纹算法为例：
- $l$ $\mathbf{\vec i}^{(l)} = \text{softmax}\left(\mathbf W_l\mathbf{\vec r}_a^{(l)}\right)$ $\mathbf{\vec f} ^{(l)}= \mathbf{\vec f} ^{(l)}+ \mathbf{\vec i}^{(l)}$ 。
- $\mathbf{\vec f} = \left[\mathbf{\vec f}^{(1)} ,\mathbf{\vec f}^{(2)} ,\cdots,\mathbf{\vec f}^{(R)} \right]$ 。
ECFP 圆形指纹可以解释为具有较大随机权重的神经图指纹算法的特殊情况。
- $\sigma(\cdot)$ $\tanh(\cdot)$ 时，该激活函数接近阶跃函数。而级联的阶跃函数类似于哈希函数。
- 在较大的输入权重情况下，softmax 函数接近一个one-hot 的 argmax 操作，这类似于索引操作。

5.1.3 限制

计算代价：神经图指纹在原子数、网络深度方面与圆形指纹具有相同的渐进复杂度，但是由于在每一步都需要通过矩阵乘法来执行特征变换，因此还有附加的计算复杂度。
$F$ $S$ $R$ $N$ $O(RNFS + RNF^2)$ 。
在实践中，在圆形指纹上训练一个单隐层的神经网络只需要几分钟，而对神经图指纹以及指纹顶部的单隐层神经网络需要一个小时左右。
每层的计算限制：从网络的一层到下一层之间应该采取什么结构？本文采用最简单的单层神经网络，实际上也可以采用多层网络或者 LSTM 结构，这些复杂的结构可能效果更好。
$\frac N2$ $N$ 的图。
《Spectral networks and locally connected networks on graphs》 $\log N$ 层就可以在图上传播信息。这种方式需要解析分子为树结构，可以参考NLP 领域的相关技术。
无法区分立体异构体stereoisomers ：神经图指纹需要特殊处理来区分立体异构体，包括enantomers 对映异构体（分子的镜像）、cis/trans isomers 顺/反异构体（绕双键旋转）。大多数圆形指纹的实现方案都可以区分这些异构体。

5.2 实验

5.2.1 随机权重

分子指纹的一个用途是计算分子之间的距离。这里我们检查基于 ECFP 的分子距离是否类似于基于随机的神经图指纹的分子距离。
我们选择指纹向量的长度为 2048，并使用Jaccard 相似度来计算两个分子的指纹向量之间的距离：
$distance (\vec{x}, \vec{y}) = 1 - \frac{\sum_{i} min (x_{i}, y_{i})}{\sum_{i} max (x_{i}, y_{i})}$
$r=0.823$ 。
图中每个点代表：相同的一对分子，采用圆形指纹计算到的分子距离、采用神经图指纹计算得到的分子距离，其中神经图指纹模型采用大的随机权重。距离为1.0 代表两个分子的指纹（圆形指纹或神经图指纹）没有任何重叠，距离为0.0 代表两个分子的指纹圆形指纹或神经图指纹）完全重叠。
我们将圆形指纹、随机神经图指纹接入一个线性回归层，从而比较二者的预测性能。
- 圆形指纹、大的随机权重的随机神经图指纹，二者的曲线都有类似的轨迹。这表明：通过大的随机权重初始化的随机神经图指纹和圆形指纹类似。
- 较小随机权重初始化的随机神经图指纹，其曲线与前两者不同，并且性能更好。
  这表明：即使是未经训练的神经网络，它相对平滑的激活值也能够有助于模型的泛化。

5.2.2 可解释性

圆形指纹向量的特征（即某一组bit 的组合）只能够通过单层的单个fragment 激活（偶然发生的哈希碰撞除外），神经图指纹向量的特征可以通过相同结构的不同变种来激活，从而更加简洁和可解释。
为证明神经图指纹是可解释的，我们展示了激活指纹向量中每个特征对应的子结构类别。
- 溶解性特征：我们将神经图指纹模型作为预测溶解度的线性模型的输入来一起训练。下图展示了对应的fragment（蓝色），这些fragment可以最大程度的激活神经图指纹向量中最有预测能力的特征。
  - 上半图：激活的指纹向量的特征与溶解性具有正向的预测关系，这些特征大多数被包含亲水性R-OH 基团（溶解度的标准指标）的fragment所激活。
  - 下半图：激活的指纹向量的特征与溶解性具有负向的预测关系（即：不溶解性），这些特征大多数被非极性的重复环结构所激活。
- 毒性特征：我们用相同的架构来预测分子毒性。下图展示了对应的fragment（红色），这些fragment可以最大程度的激活神经图指纹向量中最有预测能力的特征。
  - 上半图：激活的指纹向量的特征与毒性具有正向的预测关系，这些特征大多数被包含芳环相连的硫原子基团的fragment所激活。
  - 下半图：激活的指纹向量的特征与毒性具有正向的预测关系，这些特征大多数被稠合的芳环（也被称作多环芳烃，一种著名的致癌物）所激活。

5.2.3 模型比较

数据集：我们在多个数据集上比较圆形指纹和神经图指纹的性能：
- 溶解度数据集：包含 1144 个分子，及其溶解度标记。
- 药物功效数据集：包含 10000 个分子，及其对恶行疟原虫（一种引发疟疾的寄生虫）的功效。
- 有机光伏效率数据集：哈佛清洁能源项目使用昂贵的 DFT 模拟来估算有机分子的光伏效率，我们从该数据集中使用 20000 个分子作为数据集。
配置：我们的 pipeline 将每个分子编码的 SMILES 字符串作为输入，然后使用 RDKit 将其转换为graph 。我们也使用 RDKit 生成的扩展圆形指纹作为 baseline 。这个过程中，氢原子被隐式处理。
我们的 ECFP 和神经网络中用到的特征包括：
- 原子特征：原子元素类型的 one-hot、原子的度degree、连接氢原子的数量、隐含价implicit valence、极性指示aromaticity indicator。
- 键特征：是否单键、是否双键、是否三键、是否芳族键、键是否共轭、键是否为环的一部分。
我们采用 Adam 优化算法，训练步数为 10000，batch size = 100 。我们还使用了 batch normalization 技术。
我们还对神经网络进行了 tanh 和 relu 激活函数的对比实验，我们发现relu 在验证集上一直保持优势并且优势不大。
我们还对神经网络进行了 drop-connect 实验，它是 dropout 的一个变种，其中权重被随机设置为零（而不是隐单元被随机设置为零）。我们发现这会导致更差的验证误差。
Random-Search $L_2$ $S$ $R$ （最深六层）、全连接网络层的维度、神经图指纹的隐层维度。
$k$ 折交叉验证来优化，其中每一折随机执行50 次。
我们比较了两种情况下圆形指纹和神经图指纹的性能：
- 第一种情况：一个线性层使用指纹向量作为输入来执行预测，即 linear layer。
- 第二种情况：一个单隐层的神经网络使用指纹向量作为输入来执行预测，即 neural net 。
结果如下图所示。可以看到在所有实验中，神经图指纹均达到或者超过圆形指纹的性能，并且使用神经网络层的方式（neural net ）超过了线性层的方式（linear layer）。

六、GGS-NN[2016]

许多实际应用都建立在图结构数据graph-structured data 之上，因此我们经常希望执行以 graph 为输入的机器学习任务。解决该问题的标准方法包括：设计关于输入图的自定义的特征工程feature engineering、graph kernel、以及根据图上的随机游走来定义 graph feature 的方法。与论文《Gated Graph Sequence Neural Networks》的目标更密切相关的是在图上学习特征的方法，包括图神经网络 Graph Neural Networks、谱网络 spectral networks、以及最近的用于学习化学分子 graph representation 来执行分类的 graph fingerprint 的工作。
论文 《Gated Graph Sequence Neural Networks》的主要贡献是输出序列的图神经网络的扩展。之前的用于图结构输入的 feature learning 的工作主要聚焦于在产生单一输出的模型上，例如 graph-level 分类，但是 graph input 的许多问题都需要输出序列。例如，图上的 path、具有所需属性的 graph nodes 的枚举。作者觉得现有的 graph feature learning 工作不适合这个问题。论文的 motivating application 来自于程序验证 program verification ，该应用需要输出逻辑公式，作者将其表述为序列输出sequential output问题。
论文的第二个贡献是：强调图神经网络（以及作者在这里开发的进一步扩展）是一类广泛有用的神经网络模型，适用于当前该领域面临的很多问题。
图上的 feature learning 有两种 setting：
- 学习输入图input graph的 representation。
- 在产生一系列输出的过程中学习内部状态internal state的 representation。
在这里，第一种 setting 是通过之前关于图神经网络的工作来实现的。作者对该框架进行了一些小的修改，包括将其更改为使用围绕 RNN 的现代实践。
第二种 setting 很重要，因为我们需要图结构问题的、不仅仅是单个分类的输出。在这些情况下，挑战在于如何学习图上的特征，从而编码已经产生的部分输出序列（例如，如果是输出 path，那么就是到目前为止的 path）、以及仍然需要产生的部分输出序列（例如，剩余的 path）。论文将展示 GNN 框架如何适配这些 setting，从而产生一种新的、graph-based 的神经网络模型，作者称之为 Gated Graph Sequence Neural Networks: GGS-NN 。
论文在 bAbI 任务、和阐明模型能力的 graph algorithm learning 任务的实验中说明这个通用模型的各个方面。然后作者提出一个 application 来验证计算机程序。当试图证明诸如内存安全（即，程序中不存在空指针解引用）等属性时，一个核心问题是找到程序中使用的数据结构的数学描述。遵循 《Learning to decipher the heap for program verification》 ，作者将其表述为一个机器学习问题，其中论文将学习从一组输入图（代表内存状态）映射到已实例化的数据结构的逻辑描述 logical description 。《Learning to decipher the heap for program verification》 依赖于大量的手工设计的特征，而论文表明该系统可以用 GGs-NN 来替代，而不会降低准确性。
相关工作：
- 最密切相关的工作是 GNN，我们在文中详细讨论。另一个密切相关的模型是 《Neural network for graphs: A contextual constructive approach》，它与 GNN 的主要区别在于输出模型。GNN 已在多个领域得到应用，但它似乎并未在 ICLR 社区中广泛使用。我们在这里的部分目标是将 GNN 宣传为一种有用的、且有趣的神经网络变体。
- 我们从 GNN 到 GG-NN 的适配，与 《Parameter learning with truncated message-passing》 到 《Empirical risk minimization of graphical model parameters given approximate inference, decoding, and model structure》 在结构化预测 setting 中的工作之间可以进行类比。信念传播 belief propagation （必须运行到接近收敛才能获得良好的梯度）被替代为截断的信念传播更新truncated belief propagation updates ，然后对模型进行训练使得 truncated iteration 在固定数量的迭代之后产生良好的结果。类似地，RNN 扩展到 Tree LSTM ，类似于我们在 GG-NN 中使用 GRU 更新而不是标准的 GNN 递归，目的是改善信息在图结构中的长期传播 long-term propagation 。
- 本文所表达的将特定问题的神经网络组装assembling成学习组件 learned components 的思想具有悠久的历史，至少可以追溯到 1988 年的《Representing part-whole hierarchies in connectionist networks》 关于根据一个 family tree 结构来组装神经网络的工作，以便预测人与人之间的关系。类似的思想出现在 《Neural methods for non-standard data》 和 《From machine learning to machine reasoning》 中。
- graph kernel 可用于具有图结构输入的各种 kernel-based learning 任务，但是我们没有发现关于学习 kernel 并且输出序列的工作。《Deepwalk: Online learning of social representations 》 通过在图上进行随机游走将图转换为序列，然后使用 sequence-based 方法来学习 node embedding 。《Supervised neural networks for the classification of structures》 将图映射到 graph vector，然后使用一个 output neural network 进行分类。
  有几种模型利用图结构上 node representation 的类似的propagation 。
  - 《Spectral networks and locally connected networks on graphs》 将卷积推广到图结构。他们的工作与 GNN 之间的差异类似于卷积网络和循环网络之间的差异。
  - 《Convolutional networks on graphs for learning molecular fingerprints》 也考虑了对图的类卷积convolutional like 操作，构建了一个成功的 graph feature 的可学习learnable、可微differentiable的变体。
  - 《Deep architectures and deep learning in chemoinformatics: the prediction of aqueous solubility for drug-like molecules》 将任意无向图转换为许多具有不同方向的不同 DAG ，然后将 node representation 向内传播到每个 root ，并训练许多模型的一个 ensemble 。
  在上述所有内容中，重点是 one-step 问题。
- GNN 和我们的扩展具有许多与指针网络 pointer network （《Pointer networks》）相同的理想特性。当使用节点选择的输出层node selection output layer时，可以选择输入中的节点作为输出。有两个主要区别：
  - 首先，在 GNN 中，图结构是显式的，这使得模型不太通用，但可能提供更强的泛化能力。
  - 其次，指针网络要求每个节点都具有属性（如，空间中的位置），而 GNN 可以表达仅由它们在图中的位置所定义的节点，这使得 GNN 更加通用。
- GGS-NN 在两个方面与 soft alignment and attentional models 相关：
  - $\mathbf{\vec h}_\mathcal G = \tanh\left(\sum_{v\in \mathcal V}\sigma\left(g_1\left(\mathbf{\vec h}_v^{(T)},\mathbf{\vec x}_v\right)\right)\odot \tanh\left( g_2\left(\mathbf{\vec h}_v^{(T)},\mathbf{\vec x}_v\right)\right)\right)$ 中的 graph representation 使用上下文将注意力集中在哪些节点对当前决策很重要。
  - 其次，在程序验证示例program verification example 中的节点注解 node annotation 会跟踪到目前为止已经解释了哪些节点，这提供了一种明确的机制来确保输入中的每个节点都已在producing an output 的序列中使用。

6.1 模型

6.1.1 GNN 回顾

GNN $\mathcal G=(\mathcal V, \mathcal E)$ $\mathcal V$ $\mathcal E$ $e=(v,v^\prime)\in \mathcal V\times \mathcal V$ pair $(v,v^\prime)$ $v\rightarrow v^\prime$ ，但是我们注意到 GNN 框架可以很容易地适配无向图。
$v$ node embedding $\mathbf{\vec h}_v\in \mathbb R^D$ node label $v$ node label $\vec l _v \in \mathbb R^{n_v}$ $n_v$ edge label $e$ edge label $\vec l_e\in \mathbb R^{n_E}$ $n_E$ 为边标签的维度。
GNN $\mathbf{\vec x}_v$ RNN $\mathbf{\vec h}_v$ 。
$\mathcal S$ node embedding $\mathbf{\vec h}_\mathcal S = \left\{\mathbf{\vec h}_v\mid v\in \mathcal S\right\}$ $\mathcal S$ edge label $\vec l_\mathcal S = \left\{\vec l_e\mid e\in \mathcal S\right\}$ 。
$\text{IN}(v) = \left\{v^\prime\mid (v^\prime,v)\in \mathcal E\right\}$ $v$ predecessor node $\text{OUT}(v) = \left\{v^\prime \mid (v,v^\prime)\in \mathcal E\right\}$ $v$ successor node $v$ $\text{NBR}(v) = \text{IN}(v)\cup \text{OUT}(v)$ $v$ 的所有边（包括 incoming edgeoutgoing edge $\text{Co}(v) = \left\{(v^\prime,v^{\prime\prime})\in \mathcal E\mid v=v^\prime \text{ or } v = v^{\prime\prime}\right\}$ 。
GNN $v$ 的节点集合。因此，原始 GNN 论文仅考虑入边。
GNN 通过两个步骤来得到输出：
- 首先通过转移函数transition functionrepresentation $\mathbf{\vec h}_v$ ，即 propagation step，其中转移函数也被称作传播模型propagation model 。
- output function $\mathbf{\vec o}_v$ ，其中输出函数也被称作输出模型 output model 。
该系统是端到端可微的，因此可以利用基于梯度的优化算法来学习参数。
传播模型：我们通过一个迭代过程来传播节点的状态。
$\mathbf h_v^{(1)}$ $t$ 表示时间步：
${\vec{h}}_{v}^{(t)} = f_{w} ({\vec{l}}_{v}, {\vec{l}}_{CO (v)}, {\vec{l}}_{NBR (v)}, {\vec{h}}_{NBR (v)}^{(t - 1)})$
$f_w(\cdot)$ 为转移函数，它有若干个变种，包括：non-positional form 和posistional form、线性和非线性。原始 GNN 论文建议按照 non-positional form 进行分解：
$f_{w} ({\vec{l}}_{v}, {\vec{l}}_{CO (v)}, {\vec{l}}_{NER (v)}, {\vec{h}}_{NBR (v)}^{(t - 1)}) = \sum_{v^{'} \in IN (v)} h_{w} ({\vec{l}}_{v}, {\vec{l}}_{v^{'}, v}, {\vec{l}}_{v^{'}}, {\vec{h}}_{v^{'}}^{(t - 1)}) + \sum_{v^{'} \in OUT (v)} h_{w} ({\vec{l}}_{v}, {\vec{l}}_{v, v^{'}}, {\vec{l}}_{v^{'}}, {\vec{h}}_{v^{'}}^{(t - 1)})$
$h_w(\cdot)$ $h_w(\cdot)$ $h_w(\cdot)$ 为：
$h_{w} ({\vec{l}}_{v}, {\vec{l}}_{v^{'}, v}, {\vec{l}}_{v^{'}}, {\vec{h}}_{v^{'}}^{(t)}) = A^{(v^{'}, v)} {\vec{h}}_{v^{'}}^{(t - 1)} + {\vec{b}}^{(v^{'}, v)}$
$\mathbf{\vec b}^{(v^\prime,v)}\in \mathbb R^D$ $\mathbf A^{(v^\prime,v)}\in \mathbb R^{D\times D}$ 分别由两个前馈神经网络的输出来定义，这两个前馈神经网络的参数对应于 GNN 的参数。
$\mathbf{\vec o}_v = g_w\left(\mathbf{\vec h}_v, \vec l_v\right)$ $g_w$ $\mathbf{\vec h}_v$ $\mathbf{\vec h}_v^{(T)}$ $T$ 为最大迭代次数。
为处理 graph-level 任务，GNN 建议创建一个虚拟的超级节点super node，该超级节点通过特殊类型的边连接到所有其它节点，因此可以使用 node-level 相同的方式来处理 graph-level 任务。
GNN 模型是通过 Almeida-Pineda 算法来训练的，该算法首先执行传播过程并收敛，然后基于收敛的状态来计算梯度。其优点是我们不需要存储传播过程的中间状态（只需要存储传播过程的最终状态）来计算梯度，缺点是必须限制参数从而使得传播过程是收缩映射contraction map。
$f_w(\cdot)$ $L_1$ 范数施加约束来实现收缩映射的条件：
$L_{w} = \sum_{i = 1}^{p} \sum_{j = 1}^{q_{i}} {‖ {\vec{t}}_{i, j} - φ_{w} (G_{i}, v_{i, j}) ‖}_{2}^{2} + β L ({‖ \frac{\partial F_{w}}{\partial \vec{x}} ‖}_{1})$
$p$ $q_i$ $i$ $\mathbf{\vec t}_{i,j}$ $i$ $j$ $\phi_w(G_i,v_{i,j})$ $i$ $j$ $L(\cdot)$ 为罚项：
$\begin{matrix} L (y) = {\begin{cases} | y - μ | & , if y > μ \\ 0 & , else \end{cases} \end{matrix}$
$\mu \in (0,1)$ 定义了针对转移函数的约束。
事实上一个收缩映射很难在图上进行长距离的信息传播。
$N$ 1 $h_w(\cdot)$ 为线性函数。为简化讨论，我们忽略了所有的节点标签信息向量、边标签信息向量，并且只考虑入边而未考虑出边。
$t$ $v$ $h_v^{(t)} = m_v\times h_{v-1}^{(t-1)} + b_v$ $m_v,b_v$ $v\le 0$ $h_v = h_{N+v}$ 。
$\mathbf{\vec h}^{(t)} = \left[h_1^{(t)},\cdots,h_N^{(t)}\right]^\top, \mathbf{\vec b} = \left[b_1,\cdots,b_N\right]^\top$ ，令：
$\begin{matrix} M = [\begin{matrix} 0 & 0 & 0 & \dots & 0 & m_{1} \\ m_{2} & 0 & 0 & \dots & 0 & 0 \\ 0 & m_{3} & 0 & \dots & 0 & 0 \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ & ⋮ \\ 0 & 0 & 0 & \dots & m_{N} & 0 \end{matrix}] \end{matrix}$
$\mathbf{\vec h}^{(t)} = \mathbf M\mathbf{\vec h}^{(t-1) } + \mathbf{\vec b}$ 。
$T\left(\mathbf{\vec h}^{(t-1)}\right) = \mathbf M\mathbf{\vec h}^{(t-1) } + \mathbf{\vec b}$ $T(\cdot)$ $\rho\le 1$ $\mathbf{\vec h},\mathbf{\vec h}^\prime$ ，满足:
$‖ T (\vec{h}) - T ({\vec{h}}^{'}) ‖ < ρ ‖ \vec{h} - {\vec{h}}^{'} ‖$
即：
$‖ M (\vec{h} - {\vec{h}}^{'}) ‖ < ρ ‖ \vec{h} - {\vec{h}}^{'} ‖$
$\mathbf{\vec h}^\prime = \mathbf{\vec 0}$ $\mathbf{\vec h} = (\underbrace{0,0,\cdots,0}_{v-2},1,0,\cdots,0)^\top$ $v-1$ 1 $|m_v|\lt \rho$ 。
$h_v^{(t)} = m_v\times h_{v-1}^{(t-1)} + b_v$ ，则有：
$\begin{matrix} h_{v}^{(t)} = m_{v} \times h_{v - 1}^{(t - 1)} + b_{v} \\ = m_{v} (m_{v - 1} h_{v - 2}^{(t - 2)} + b_{v - 1}) + b_{v} \\ = m_{v} m_{v - 1} (m_{v - 2} h_{v - 2}^{(t - 3)} + b_{v - 2}) + m_{v} b_{v - 1} + b_{v} \\ = m_{v} m_{v - 1} m_{v - 2} h_{v - 3}^{(t - 3)} + m_{v} m_{v - 1} b_{v - 2} + m_{v} b_{v - 1} + b_{v} \end{matrix}$
$|m_v|\lt \rho$ $j\rightarrow j+1 \rightarrow j+2\cdots \rightarrow v$ $\rho^\delta$ $\delta$ $j$ $v$ $j$ $v$ 的上游节点）。因此 GNN 无法在图上进行长距离的信息传播。
$h_w(\cdot)$ 为非线性函数时，收缩映射也很难在图上进行长距离的信息传播。令
$h_{v}^{(t)} = σ (m_{v} \times h_{v - 1}^{(t - 1)} + b_{v})$
$\sigma(\cdot)$ $T\left(\mathbf{\vec h}^{(t-1)}\right) = \sigma\left(\mathbf M\mathbf{\vec h}^{(t-1) } + \mathbf{\vec b}\right)$ $T(\cdot)$ $\rho\le 1$ $\mathbf{\vec h},\mathbf{\vec h}^\prime$ ，满足:
$‖ T (\vec{h}) - T ({\vec{h}}^{'}) ‖ < ρ ‖ \vec{h} - {\vec{h}}^{'} ‖$
$T\left(\mathbf{\vec h}\right)$ 的雅可比矩阵的每一项都必须满足：
$| \frac{\partial T_{i}}{\partial h_{j}} | < ρ, \forall i, \forall j$
- $\mathbf{\vec h},\mathbf{\vec h}^{\prime}$ ，其中：
  $\begin{matrix} \vec{h} = (h_{1}, \dots, h_{j - 1}, h_{j}, h_{j + 1}, \dots, h_{N}) \\ {\vec{h}}^{'} = (h_{1}, \dots, h_{j - 1}, h_{j} + Δ, h_{j + 1}, \dots, h_{N}) \end{matrix}$
  $\left\|T_i\left(\mathbf{\vec h}\right) - T_i\left(\mathbf{\vec h}^\prime\right)\right\|\le \left\|T\left(\mathbf{\vec h}\right) - T\left(\mathbf{\vec h}^\prime\right)\right\| \lt \rho |\Delta|$ ，则有：
  $‖ \frac{T_{i} (h_{1}, \dots, h_{j - 1}, h_{j}, h_{j + 1}, \dots, h_{N}) - T_{i} (h_{1}, \dots, h_{j - 1}, h_{j} + Δ, h_{j + 1}, \dots, h_{N})}{Δ} ‖ < ρ$
  $T_i\left(\mathbf{\vec h}\right)$ $T\left(\mathbf{\vec h}\right)$ $i$ 个分量。
  $\Delta\rightarrow 0$ $\left|\frac{\partial T_i}{\partial h_j}\right|$ $\left|\frac{\partial T_i}{\partial h_j}\right|\lt \rho, \forall i, \forall j$ 。
- $j= i-1$ $\left|\frac{\partial T_i}{\partial h_{i-1}}\right| \lt \rho$ $j\ne i-1$ $\frac{\partial T_i}{\partial h_j} = 0$ 。
  $t$ 的更新，则有：
  $| \frac{\partial h_{i}^{(t)}}{\partial h_{i - 1}^{(t - 1)}} | < ρ$
  $h_1^{(1)}$ $h_t^{(t)}$ 。考虑链式法则以及图的环状结构，则有：
  $\begin{matrix} | \frac{\partial h_{t}^{(t)}}{\partial h_{1}^{(1)}} | = | \frac{\partial h_{t}^{(t)}}{\partial h_{t - 1}^{(t - 1)}} \times \frac{\partial h_{t - 1}^{(t - 1)}}{\partial h_{t - 2}^{(t - 2)}} \times \dots \times \frac{\partial h_{2}^{(2)}}{\partial h_{1}^{(1)}} | \\ = | \frac{\partial h_{t}^{(t)}}{\partial h_{t - 1}^{(t - 1)}} | \times | \frac{\partial h_{t - 1}^{(t - 1)}}{\partial h_{t - 2}^{(t - 2)}} | \times \dots \times | \frac{\partial h_{2}^{(2)}}{\partial h_{1}^{(1)}} | < ρ \times ρ \times \dots \times ρ = ρ^{t - 1} \end{matrix}$
  $\rho \lt 1$ $\frac{\partial h_t^{(t)}}{\partial h_{1}^{(1)}}$ $t$ 的增加指数级降低到0 。这意味着一个节点对另一个节点的影响将呈指数级衰减，因此 GNN 无法在图上进行长距离的信息传播。
  $h_w(\cdot)$ $h_w(\cdot)$ 为非线性函数时，反向传播的信息以指数型速度衰减。

6.1.2 GG-NN 模型

门控图神经网络 Gated Graph Neural Networks:GG-NN 对 GNNGRU $T$ 个时间步进行循环展开，并使用 back propagation through time: BPTT 算法来计算梯度。这比Almeida-Pineda 算法需要更多的内存，但是它消除了约束参数以确保收敛的必要性。我们还扩展了底层的 representation 和 output model 。

a. node annotation

在 GNN 中节点状态的初始化值没有意义，因为不动点理论可以确保不动点独立于初始化值。但是在 GG-NNnode annotation $\mathbf{\vec x}$ 来表示。
节点的初始化状态可以视为节点的标签信息的一种。
节点的注解向量就是后来广泛使用的 node feature vector 。
$s$ $t$ $s,t$ ，因此我们定义注解向量为：
$\begin{matrix} {\vec{x}}_{v} = {\begin{cases} (1, 0)^{⊤}, & v = s \\ (0, 1)^{⊤}, & v = t \\ (0, 0)^{⊤}, & other \end{cases} \end{matrix}$
$s$ $t$ $\mathbf{\vec x}_v$ $\mathbf{\vec h}_v^{(1)}$ ：
${\vec{h}}_{v}^{(1)} = [x_{v, 0}, x_{v, 1}, 0, \dots, 0]^{⊤}$
$\mathbf{\vec h}_v^{(1)}$ $\mathbf{\vec x}_v$ 、后面的维度填充为零。
$s$ $s$ 1 $\mathbf{\vec h}_s^{(1)}$ $s$ $\mathbf{\vec h}_v^{(T)}$ 的第一维均为1 。
[1,1] $s$ $t$ 。

b.传播模型

$\mathbf{\vec h}_v^{(1)} = \left[\mathbf{\vec x}_v^\top,\mathbf{\vec 0}\right]^\top \in \mathbb R^D$ $D$ 为状态向量的维度。这一步将节点的注解信息拷贝到状态向量的前几个维度。
$\mathbf{\vec a}_v^{(t)} = \mathbf A_{v:}^\top\left[\mathbf{\vec h}_1^{(t-1)\top},\cdots,\mathbf{\vec h}_{|\mathcal V|}^{(t-1)\top} \right]^\top+ \mathbf{\vec b}_v$ ，它包含所有方向的边的激活值。
如下图所示 (a) 表示一个图，颜色表示不同的边类型（类型 B 和类型 C ）；(b)(c) $\mathbf A$ $B^\prime$ $B$ 的反向边，采用不同的参数。
$\mathbf A \in \mathbb R^{D|\mathcal V|\times 2D|\mathcal V|}$ $\mathbf A$ 的稀疏结构sparsity structureparameter tying $\mathbf A$ $\mathbf A^{(\text{out})}\in \mathbb R^{D|\mathcal V|\times D|\mathcal V|}$ $\mathbf A^{(\text{in})}\in \mathbb R^{D|\mathcal V|\times D|\mathcal V|}$ 组成，这两个子矩阵（通常都是稀疏矩阵）的参数由边的方向和类型决定。
$\mathbf A_{v:}\in \mathbb R^{D|\mathcal V|\times 2D}$ $\mathbf A^{(\text{out})},\mathbf A^{(\text{in})}$ $v$ $\mathbf{\vec b}_v \in \mathbb R^{2D}$ 。
GRU 更新状态：
$\begin{matrix} {\vec{z}}_{v}^{(t)} = σ (W^{z} {\vec{a}}_{v}^{(t)} + U^{z} {\vec{h}}_{v}^{(t - 1)}) \\ {\vec{r}}_{v}^{(t)} = σ (W^{r} {\vec{a}}_{v}^{(t)} + U^{r} {\vec{h}}_{v}^{(t - 1)}) \\ \tilde{{\vec{h}}_{v}^{(t)}} = \tanh (W {\vec{a}}_{v}^{(t)} + U ({\vec{r}}_{v}^{(t)} ⊙ {\vec{h}}_{v}^{(t - 1)})) \\ {\vec{h}}_{v}^{(t)} = (1 - {\vec{z}}_{v}^{(t)}) ⊙ {\vec{h}}_{v}^{(t - 1)} + {\vec{z}}_{v}^{(t)} ⊙ \tilde{{\vec{h}}_{v}^{(t)}} \end{matrix}$
GRU $\mathbf{\vec z}$ $\mathbf{\vec r}$ $\sigma(x) = 1/(1+e^{-x})$ sigmoid $\odot$ 为逐元素乘积。
我们最初使用普通的 RNN 来进行状态更新，但是初步实验结论表明：GRU 形式的状态更新效果更好。
$\mathbf{\vec h}_v^{(t-1)}$ $\mathbf{\vec a}_v^{(t)}$ 。
GG-NN $\mathbf{\vec a}_v^{(1)}$ 作为输入的 GRU 。

c. 输出模型

我们希望在不同的情况下产生几种类型的 one-step 输出。
- node-level $v\in \mathcal V$ $\mathbf{\vec o}_v = g\left(\mathbf{\vec h}_v^{(T)}, \mathbf{\vec x}_v\right)$ $\mathbf{\vec o}_v$ 应用一个 softmax 函数来得到每个节点在各类别的得分。
- graph-level 输出：定义graph-level 的 representation 向量为：
  ${\vec{h}}_{G} = \tanh (\sum_{v \in V} σ (g_{1} ({\vec{h}}_{v}^{(T)}, {\vec{x}}_{v})) ⊙ \tanh (g_{2} ({\vec{h}}_{v}^{(T)}, {\vec{x}}_{v})))$
  其中：
  - $\sigma\left(g_1\left(\mathbf{\vec h}_v^{(T)},\mathbf{\vec x}_v\right)\right)$ 起到 soft attentiongraph-level $\sigma(\cdot)$ 为 sigmoid 函数（ attention 系数取值是 0 ~ 1 之间）。
  - $g_1(\cdot),g_2(\cdot)$ $\mathbf{\vec h}_v^{(T)}$ $\mathbf{\vec x}_v$ 作为输入，输出一个实值向量。
  - $\tanh (\cdot)$ 函数也可以替换为恒等映射。
注意：这里的 GG-NN 给出的是非序列输出，实际上 GG-NN 支持序列输出，这就是下面介绍的 GGS-NN 模型。

6.1.3 GGS-NN 模型

门控图序列神经网络 Gated Graph Sequence Neural Networks :GGS-NNGG-NN $\mathbf{\vec o}^{(1)},\cdots, \mathbf{\vec o}^{(K)}$ $k$ 个输出：
- $\mathbf X^{(k)} = \left[\mathbf{\vec x}_1^{(k)},\cdots, \mathbf{\vec x}_{|\mathcal V|}^{(k)}\right]^\top\in \mathbb R^{|\mathcal V|\times D_a}$ $D_a$ 为注解向量的维度。
  $\mathbf O^{(k)} = \left[\mathbf{\vec o}_1^{(k)},\cdots,\mathbf{\vec o}_{|\mathcal V|}^{(k)}\right]^\top\in \mathbb R^{|\mathcal V|\times D_o}$ $D_o$ 为输出向量的维度。
- GG-NN $\mathcal F_{\mathcal O}^{(k)}$ $\mathcal F_{\mathcal X}^{(k)}$ $\mathcal F_{\mathcal O}^{(k)}$ $\mathbf X^{(k)}$ $\mathbf O ^{(k)}$ $\mathcal F_{\mathcal X}^{(k)}$ $\mathbf X^{(k)}$ $\mathbf X^{(k+1)}$ $\mathbf X^{(k+1)}$ output step $k$ $k+1$ 。
  $\mathcal F_{\mathcal O}^{(k)}$ $\mathcal F_{\mathcal X}^{(k)}$ $k$ $t$ 个时间步的状态矩阵分别为：
  $\begin{matrix} H_{O}^{(k, t)} = {[{\vec{h}}_{O, 1}^{(k, t)}, \dots, {\vec{h}}_{O, | V |}^{(k, t)}]}^{⊤} \in R^{| V | \times D_{O}} \\ H_{X}^{(k, t)} = {[{\vec{h}}_{X, 1}^{(k, t)}, \dots, {\vec{h}}_{X, | V |}^{(k, t)}]}^{⊤} \in R^{| V | \times D_{X}} \end{matrix}$
  $D_{\mathcal O},D_{\mathcal X}$ $\mathbf H^{(k,1)}$ $\mathbf X^{(k)}$ $\mathbf H^{(k,1)}_{\mathcal O} = \mathbf H^{(k,1)}_{\mathcal X}$ $\mathbf H^{(k,1)}$ 。
- $\mathcal F_{\mathcal O}^{(k)}$ $\mathcal F_{\mathcal X}^{(k)}$ $\mathcal F_{\mathcal O}^{(k)}$ $\mathcal F_{\mathcal X}^{(k)}$ 的传播行为不同，则这种变体难以适应。
- $\mathcal F_{\mathcal X}^{(k)}$ annotation output $\mathbf H^{(k,T)}_{\mathcal X}$ $\mathbf X^{(k+1)}$ $v$ 上利用神经网络独立的预测：
  ${\vec{x}}_{v}^{(k + 1)} = σ (g_{a} ({\vec{h}}_{X, v}^{(k, T)}, {\vec{x}}_{v}^{(k)}))$
  $g_a(\cdot)$ $\mathbf{\vec h}_{\mathcal X,v}^{(k,T)}$ $\mathbf{\vec x}_v^{(k)}$ $\sigma(\cdot)$ 为sigmoid 函数。
$\mathbf H^{(k,1)}_{\mathcal O} = \mathbf H^{(k,1)}_{\mathcal X}$ $\mathbf H^{(k,1)}$ 。
节点注解充当 LSTM 中 input feature 的作用，只不过节点注解可能是预测得到的（也可能是直接收集到的）。
GGS-NN $\mathcal G$ 拷贝多次，每个拷贝运行一个 GG-NN，后一个GG-NN 的 input 由前一个 GG-NN 来生成。
GGS-NNs 的训练有两种方式：
- $\mathbf X^{(1)}$ ，然后执行端到端的模型训练。这种方式更为通用。
  $\mathbf X^{(k)},k\gt 1$ 视为网络的隐变量，然后通过反向传播算法来联合训练。
- $\mathbf X^{(1)},\mathbf X^{(2)},\cdots,\mathbf X^{(K)}$ 。当我们已知关于中间注解向量的信息时，这种方式可以提高性能。
  考虑一个图的序列输出任务，其中每个输出都仅仅是关于图的一个部分的预测。为了确保图的每个部分有且仅被预测一次，我们需要记录哪些节点已经被预测过。我们为每个节点指定一个bit 作为注解，该比特表明节点到目前为止是否已经被“解释”过。因此我们可以通过一组注解来捕获输出过程的进度。
  label $\mathbf X^{k}$ ）作为模型的额外输入。因此我们的 GGS-NN 模型中，GG-NN 和给定的注解是条件独立的。
  - 训练期间序列输出任务将被分解为单个输出任务，并作为独立的 GG-NN 来训练。
  - $k$ $\widehat{\mathbf X}^{(k)}$ $k+1$ 个输出的网络输入。

6.2 实验

bAbI 任务旨在测试 AI 系统应该具备的推理能力。在 bAbI suite 中有20 个任务来测试基本的推理形式，包括演绎、归纳、计数和路径查找。
- 我们定义了一个基本的转换过程 transformation procedure 从而将 bAbI 任务映射成 GG-NN 或者 GGS-NN 任务。
  我们使用已发布的 bAbI 代码中的 --symbolic 选项从而获取仅涉及entity 实体之间一系列关系的story 故事，然后我们将每个实体映射为图上的一个节点、每个关系映射为图上的一条边、每个story 被映射为一张图。
- Question 问题在数据中以 evalhas_fear $i$ $i$ 位设置为 1 。
  如问题eval E > A true ，则：问题类型为 > ，问题参数为E, A ，节点的注解向量为：
  $\begin{matrix} {\vec{x}}_{v} = {\begin{cases} (1, 0)^{⊤}, & v = E \\ (0, 1)^{⊤}, & v = A \\ (0, 0)^{⊤}, & other \end{cases} \end{matrix}$
  问题的监督标签为true 。
- bAbI 任务15 （Basic Deduction 任务）转换的符号数据集symbolic dataset 的一个示例：
```
xxxxxxxxxx
D is A
B is E
A has_fear F
G is F
E has_fear H
F has_fear A
H has_fear A
C is H
eval B has_fear H
eval G has_fear A
eval C has_fear A
eval D has_fear F
```
  - 前8 行描述了事实 fact，GG-NN 将基于这些事实来构建Graph 。每个大写字母代表节点，is 和 has_fear 代表了边的label （也可以理解为边的类型）。
  - 最后4 行给出了四个问题，has_fear 代表了问题类型。
  - 每个问题都有一个输入参数，如 eval B has_fear H 中，节点 B 为输入参数。节点 B 的初始注解为标量1 （只有一个元素的向量就是标量）、其它节点的初始注解标量为 0 。
- 某些任务具有多个问题类型，如bAbI 任务 4 具有四种问题类型：e,s,w,n 。对于这类任务，我们为每个类型的任务独立训练一个 GG-NN 模型。
  论文训练四个二元分类模型，而不是单个多分类模型。实际上也可以训练单个多分类模型。
- 在任何实验中，我们都不会使用很强的监督标签，也不会给GGS-NN 任何中间注解信息。
我们的转换方式虽然简单，但是这种转换并不能保留有关story 的所有信息，如转换过程丢失了输入的时间顺序。这种转换也难以处理三阶或者更高阶的关系，如 “昨天 John 去了花园” 则难以映射为一条简单的边。
注意：将一般化的自然语言映射到符号是一项艰巨的任务，因此我们无法采取这种简单的映射方式来处理任意的自然语言。
即使是采取这种简单的转化，我们仍然可以格式化描述各种bAbI 任务，包括任务19（路径查找任务）。我们提供的 baseline 表明：这种符号化方式无助于 RNN/LSTM 解决问题，但是GGS-NN 可以基于这种方式以少量的训练样本来解决问题。
bAbI 任务19 为路径查找 path-finding 任务，该任务几乎是最难的任务。其符号化的数据集中的一个示例：
```
xxxxxxxxxx
E s A
B n C
E w F
B w E
eval path B A w,s
```
- 开始的4 行描述了四种类型的边，s,n,w,e 分别表示东，南，西，北 。在这个例子中，e 没有出现。
- 最后一行表示一个路径查找问题：path 表示问题类型为路径查找；B, A 为问题参数；w,s 为答案序列，该序列是一个方向序列。该答案表示：从B 先向西（到达节点E）、再向南可以达到节点 A 。
我们还设计了两个新的、类似于 bAbI 的任务，这些任务涉及到图上输出一个序列。这两个任务包括：最短路径问题和欧拉回路问题。
- 最短路径问题需要找出图中两个点之间的最短路径，路径以节点的序列来表示。
  我们首先生成一个随机图并产生一个 story，然后我们随机选择两个节点 A 和 B ，任务是找出节点 A 和 B 之间的最短路径。
  为了简化任务，我们限制了数据集生成过程：节点A 和 B 之间存在唯一的最短路径，并且该路径长度至少为 2 (即 A 和 B 的最短路径至少存在一个中间结点)。
- 如果图中的一个路径恰好包括每条边一次，则该路径称作欧拉路径。如果一个回路是欧拉路径，则该回路称作欧拉回路。
  对于欧拉回路问题，我们首先生成一个随机的、2-regular 连接图，以及一个独立的随机干扰图。然后我们随机选择两个节点A 和 B 启动回路，任务是找出从 A 到 B 的回路。
  为了增加任务难度，这里添加了干扰图，这也使得输出的回路不是严格的“欧拉回路”。
  正则图是每个节点的degree 都相同的无向简单图，2-regular 正则图表示每个节点都有两条边。
对于RNN 和 LSTM 这两个 baseline，我们将符号数据集转换为 token 序列：
```
xxxxxxxxxx
n6 e1 n1 eol n6 e1 n5 eol n1 e1 n2 eol n4 e1 n5 eol n3 e1 n4
eol n3 e1 n5 eol n6 e1 n4 eol q1 n6 n2 ans 1
```
其中 n<id> 表示节点、e<id> 表示边、q<id> 表示问题类型。额外的 token 中，eol 表示一行的结束end-of-line、ans 代表答案answer 、最后一个数字1 代表监督的类别标签。
我们添加ans 从而使得 RNN/LSTM 能够访问数据集的完整信息。
训练配置：
- 本节中的所有任务，我们生成 1000 个训练样本（其中有 50 个用于验证，只有 950 个用于训练）、1000 个测试样本。
- 在评估模型时，对于单个样本包含多个问题的情况，我们单独评估每个问题。
- 由于数据集生成过程的随机性，我们为每个任务随机生成10 份数据集，然后报告了这10 份数据集上评估结果的均值和标准差。
- 我们首先以 50 个训练样本来训练各个模型，然后逐渐增加训练样本数量为100、250、500、950 （最多950 个训练样本）。
  由于 bAbI 任务成功的标准是测试准确率在 95% 及其以上，我们对于每一个模型报告了测试准确率达到 95% 所需要的最少训练样本，以及该数量的训练样本能够达到的测试准确率。
- 在所有任务中，我们展开传播过程为 5 个时间步。
- 对于 bAbI 任务4、15、16、18、19GG-NN $\mathbf{\vec h}_v^{(t)}$ 的维度分别为 4、5、6、3、6 。
  GG-NN $\mathbf{\vec h}_v^{(t)}$ 维度为 20 。
- GGS-NN $\mathcal F_{\mathcal O}^{(k)},\mathcal F_{\mathcal X}^{(k)}$ 共享同一个传播模型。
- 所有模型都基于 Adam 优化器训练足够长的时间，并使用验证集来选择最佳模型。

6.2.1 bAbI 任务

单输出任务：bAbI的任务4（Tow Argument Relations）、任务15（Basic Deduction）、任务16（Basic Induction）、任务18（Size Reasoning）这四个任务都是单输出任务。
- 对于任务4、15、16，我们使用 node-level GG-NN；对于任务 18 我们使用 graph-level GG-NN 。
- 所有 GG-NN 模型包含少于 600 个参数。
- 我们在符号化数据集上训练 RNN 和 LSTM 模型作为 baseline。 RNN 和 LSTM 使用 50 维的embedding 层和 50 维的隐层，它们在序列末尾给出单个预测输出，并将输出视为分类问题。
  这两个模型的损失函数为交叉熵，它们分别包含大约5k 个参数（RNN）和30k 个参数（LSTM ）。
预测结果如下表所示。对于所有任务，GG-NN 仅需要50 个训练样本即可完美的预测（测试准确率 100%）；而 RNN/LSTM 要么需要更多训练样本（任务4）、要么无法解决问题（任务15、16、18）。
对于任务4，我们进一步考察训练数据量变化时，RNN/LSTM 模型的性能。可以看到，尽管 RNN/LSTM 也能够几乎完美的解决任务，但是 GG-NN 可以使用更少的数据达到 100% 的测试准确率。
序列输出任务：所有 bAbI 任务中，任务19（路径查找任务）可以任务是最难的任务。我们以符号数据集的形式应用 GGS-NN 模型，每个输出序列的末尾添加一个额外的 end 标签。在测试时，网络会一直预测直到预测到 end 标签为止。
另外，我们还对比了最短路径任务和欧拉回路任务。
下表给出了任务的预测结果。可以看到 RNN/LSTM 都无法完成任务， GGS-NN 可以顺利完成任务。另外 GGS-NN 仅仅利用 50 个训练样本就可以达到比 RNN/LSTM 更好的测试准确率。
为什么RNN/LSTM 相对于单输出任务，在序列输出任务上表现很差？
欧拉回路任务是 RNN/LSTM 最失败的任务，该任务的典型训练样本如下：
```
xxxxxxxxxx
3 connected-to 7
7 connected-to 3
1 connected-to 2
2 connected-to 1
5 connected-to 7
7 connected-to 5
0 connected-to 4
4 connected-to 0
1 connected-to 0
0 connected-to 1
8 connected-to 6
6 connected-to 8
3 connected-to 6
6 connected-to 3
5 connected-to 8
8 connected-to 5
4 connected-to 2
2 connected-to 4
eval eulerian-circuit 5 7       5,7,3,6,8
```
这个图中有两个回路 3-7-5-8-6和 1-2-4-0，其中 3-7-5-8-6 是目标回路，而 1-2-4-0 是一个更小的干扰图。为了对称性，所有边都出现两次，两个方向各一次。
对于 RNN/LSTM，上述符号转换为 token 序列：
```
xxxxxxxxxx
n4 e1 n8 eol n8 e1 n4 eol n2 e1 n3 eol n3 e1 n2 eol n6 e1 n8 eol
n8 e1 n6 eol n1 e1 n5 eol n5 e1 n1 eol n2 e1 n1 eol n1 e1 n2 eol
n9 e1 n7 eol n7 e1 n9 eol n4 e1 n7 eol n7 e1 n4 eol n6 e1 n9 eol
n9 e1 n6 eol n5 e1 n3 eol n3 e1 n5 eol q1 n6 n8 ans 6 8 4 7 9
```
注意：这里的节点ID 和原始符号数据集中的节点 ID 不同。
- RNN/LSTM 读取整个序列，并在读取到 ans 这个token 的时候开始预测第一个输出。然后在每一个预测步，使用ans 作为输入，目标节点ID (视为类别标签) 作为输出。这里每个预测步的输出并不会作为下一个预测步的输入。
  GGS-NN $\mathbf X^{(k)}$ 延续到下一个预测步，因此和 RNN/LSTM 的比较仍然是公平的。这使得我们的 GGS-NN 有能力得到前一个预测步的信息。
  一种改进方式是：在RNN/LSTM/GGS-NN 中，每个预测步可以利用前一个预测步的结果。
  实际上对于 BERT 等著名的模型，解码期间可以利用前一个预测步的结果。
- 这个典型的样本有 80 个 token，因此我们看到 RNN/LSTM 必须处理很长的输入序列。如第三个预测步需要用到序列头部的第一条边3-7，这需要 RNN/LSTM 能够保持长程记忆。RNN 中保持长程记忆具有挑战性，LSTM 在这方面比 RNN 更好但是仍然无法完全解决问题。
- 该任务的另一个挑战是：输出序列出现的顺序和输入序列不同。实际上输入数据并没有顺序结构，即使边是随机排列的，目标节点的输出顺序也不应该改变。bAbI 任务19 路径查找、最短路径任务也是如此。
  GGS-NN 擅长处理此类“静态”数据，而RNN/LSTM 则不然。实际上 RNN/LSTM 更擅长处理动态的时间序列。如何将 GGS-NN 应用于动态时间序列，则是将来的工作。

6.2.2 Program Verification

我们在 GGS-NN 上的工作受到程序验证program verification中的实际应用的启发。自动程序验证的一个关键步骤是推断程序不变量program invariant，它逼近 approximate 程序执行中可达到的程序状态program state 的集合。寻找关于数据结构的不变量是一个悬而未决的问题。
具体实验细节参考原始论文。

6.2.3 讨论

思考GG-NN 正在学习什么是有启发性的。为此我们观察如何通过逻辑公式解决bAbI 任务15 。为此考虑回答下面的问题：
```
xxxxxxxxxx
B is E
E has_fear H
eval B has_fear
```
story $\text{is}(x,y)\land \text{has-fear}(y,z) \rightarrow \text{has-fear}(x,z)$ 。
我们对任务的编码简化了将 story 解析为Graph 的过程，但是它并不提供任何背景知识。因此可以将 GG-NN 模型视为学习背景知识的方法，并将结果存储在神经网络权重中。
论文中的结果表明：GGS-NN 在一系列具有固有图结构的问题上有理想的归纳偏置 inductive bias，我们相信在更多情况下 GGS-NN 将是有用的。然而，需要克服一些限制才能使得它们更广泛地使用。我们之前提到的两个限制是 bAbI 任务翻译不包含输入的时序 temporal order、也不包含三阶或更高阶的关系。我们可以想象解除这些限制的几种可能性，如拼接一系列的 GG-NN，其中每条边都有一个 GG-NN 并将高阶关系表示为因子图 factor graph 。
一个更重大的挑战是如何处理less structured 的 input representation 。例如，在 bAbI 任务中，最好不要使用 symbolic 形式的输入。一种可能的方法是在我们的 GGS-NN 中融合 less structured 的输入和 latent vector 。但是，需要进行实验从而找到解决这些问题的最佳方法。
当前的 GG-NN 必须在读取所有 fact 事实之后才能回答问题，这意味着网络必须尝试得出所见事实的所有后果，并将所有相关信息存储到其节点的状态中。这可能并不是一个理想的形式，最好将问题作为初始输入，然后动态地得到回答问题所需要的事实。
我们对 GGS-NN 的进一步应用保持乐观态度。我们对继续开发端到端的可学习系统特别感兴趣，这些系统可以学习程序的语义属性，可以学习更复杂的图算法，并将这些思想应用于需要对知识库和数据库进行推理的问题。更一般而言，我们认为这些图神经网络代表了迈向如下模型的一步：这些模型可以将结构化的 representation 与强大的深度学习算法相结合，目的是在学习和推断inferring如何推理reason 和扩展这些 representation 的同时利用已知结构。

七、PATCHY-SAN[2016]

论文 《Learning Convolutional Neural Networks for Graphs》 的目标是：让卷积神经网络能够解决一大类 graph-based 的学习问题。我们考虑以下两个问题：
- 给定 graph 的一个集合，学习一个函数，该函数可用于针对 unseen graph 的分类问题或回归问题。任意两个graph之间的结构不一定是相同的。例如，graph集合中每个graph都可以建模一种化合物，输出可以是一个函数从而将 unseen 的化合物映射到它们对癌细胞活性抑制的 level 。
- 给定一个大型的graph，学习graph 的 representation，该 representation 可用于推断 unseen 的图属性（如节点类型、或missing edge）。
该论文提出了一个用于有向图或无向图的 learning representation 框架。graph 可能具有离散属性或连续属性的节点和边（甚至有多个属性），并且可能具有多种类型的边。类似于图像的卷积神经网络，论文从输入图 input graph 构建局部连接locally connected的邻域。这些邻域是有效生成的，并且作为卷积架构的感受野receptive field，从而允许框架学习有效的 graph representation 。
所提出的方法建立在用于图像的卷积神经网络的概念之上，并将卷积神经网络扩展到任意的graph 。下图说明了用于图像的 CNN 的局部连接感受野。如下图所示，黑色/白色节点表示不同的像素值（黑色像素值为1、白色像素值为0 ），红色节点表示当前卷积核的中心位置。(a) 图给出了一个 3x3 卷积核在一个 4x4 图像上的卷积过程，其中步幅为1、采用非零填充。图像可以表示为正方形的网格图 square grid graph ，其节点代表像素。现在，可以将 CNN 视为遍历节点序列（如下图(a)中的节点 1,2,3,4），并为每个节点生成固定大小的邻域子图 neighborhood subgraph （如下图 (b) 中的 3x3 网格）。邻域子图用作感受野从而读取像素值。由于像素的隐式空间顺序 implicit spatial order，节点序列（如下图 (a) 中的节点 1,2,3,4）从左到右、从上到下是唯一确定的。对于 NLP 问题也是如此，其中每个句子（及其解析树 parse-tree）确定了单词序列。然而，对于许多graph 集合，缺少特定于问题的顺序 problem-specific ordering（空间的、时间的、或其它的顺序），并且graph 的节点不存在对应关系（即，两个graph 之间的结构不相等）。在这种情况下，必须解决两个问题：
- 确定节点序列，其中我们要对序列中的节点创建邻域子图。
- 计算邻域子图的归一化，即从graph 到排序空间的唯一映射 unique mapping 。
  子图的归一化指的是对子图节点进行某种特定顺序的排序。
所提出的方法，称作 PATCHY-SAN，解决了任意graph 的这两个问题：
- 对于每个输入graph ，PATCHY-SAN 首先确定需要创建邻域子图的节点（及其访问顺序）。
- PATCHY-SAN $k$ 个节点组成的邻域子图，即该邻域子图被唯一地映射到具有固定线性顺序fixed linear order的空间。归一化的邻域子图用作所考虑节点的感受野。
- 最后，feature learning 组件（如卷积层、稠密层）与归一化的邻域子图（作为 CNN 的感受野）相结合。
PATCHY-SAN $k=5$ 。
PATCHY-SAN 与现有方法相比具有几个优点：
- 首先，它高效、可并行化，并且适用于大型graph 。
- 其次，对于很多application（从计算生物学到社交网络分析），可视化学到的网络主题 network motif 很重要。PATCHY-SAN 支持特征可视化feature visualization，从而提供对图结构属性 structural property 的洞察。
- 第三，PATCHY-SAN 无需制作另一个 graph kernel，而是学习 application dependent 的特征而无需进行特征工程。
论文的理论贡献是：
- 定义graph 上的归一化问题 normalization problem ，以及该问题的复杂度。
- 一种用于graph 集合的方法，该方法对比了 graph labeling 方法。
- 实验结果表明，PATCHY-SAN 推广了用于图像的 CNN。在标准的 benchmark 数据集上，论文证明与 state-of-the-art 的 graph kernel 相比，学到的用于graph的 CNN 既高效efficient又有效 effective。
相关工作：
- graph kernel：graph kernel 允许kernel-based 的学习方法，如直接在graph 上工作的 SVM 。graph 上的 kernel 最初被定义为single graph 上的节点的相似函数 similarity function。两类具有代表性的 kernel 是skew spectrum kernel 和 kernel based on graphlet 。后者与我们的工作有关，因为它基于固定大小的子图来构建 kernel 。这些子图，通常被称作 motif 或 graphlet，反映了功能性的网络的属性 functional network property 。然而，由于子图枚举subgraph enumeration的组合复杂性 combinatorial complexity，graphlet kernel 仅限于具有少量节点的子图。
  Weisfeiler-Lehman (WL) kernel 是一类有效的 graph kenerl 。然而，WL kernel 仅支持离散特征，并且在测试阶段使用与训练样本数量成线性关系的内存（而不是与测试样本数量成线性关系）。PATCHY-SAN 使用 WL 作为一种可能的 labeling 过程来计算感受野。
  deep graph kernel 和 graph invariant kernel 根据诸如最短路径shortest path、graphlet、子树subtree、以及其它的图不变量 graph invariant 等小型子结构的存在或数量来比较图 compare graph 。相反，PATCHY-SAN 从graph 数据中学习子结构，并且不限于预定义 predefined的一组主题motif。
  此外，所有 graph kernel 的训练复杂度至少是graph 数量的二次方关系，这对于大型graph 而言是不可行的，但是 PATCHY-SAN 的训练复杂度是graph 数量的线性关系。
- graph neural network: GNN ：GNN 是图上定义的循环神经网络recurrent neural network: RNN架构。GNN 将循环神经网络应用于图结构上的游走 walk，传播 node representation，直到达到一个不动点 fixed point 。然后将生成的 node representation 用作分类和回归问题中的特征。GNN 仅支持离散特征，并在每次学习迭代过程中执行与图的边和节点数量一样多的反向传播操作。
  注：GNN 理论上也支持连续特征。
  Gated Graph Sequence Neural Network: GGSNN 修改 GNN 以使用门控循环单元gated recurrent unit: GRU并输出序列。
- 最近的工作将 CNN 扩展到不同于低维网格结构的拓扑。然而，所有这些方法都假设一个全局的图结构，即，跨graph 的节点的对应关系correspondence。
  《Convolutional networks on graphs for learning molecular fingerprints》 对graph 执行卷积类型的操作，开发了一个 specific graph feature 的可微变体differentiable variant。

7.1 基础概念

7.1.1 CNN

CNN 受到早期工作的启发，该工作表明：动物的视觉皮层包含复杂的细胞排列，它们负责检测视野 visual field 的小局部区域small local region 中的光。CNN 是在 1980 年代开发的，并已应用于图像、语音、文本、以及药物发现问题。CNN 的前身是 Neocognitron。典型的 CNN 由卷积层、稠密层dense layer 组成。第一个卷积层的目的是提取在输入图像的局部区域内发现的常见模式。CNN 对输入图像利用学到的 filter 执行卷积运算，并将卷积结果输出为张量，输出的 depth 是 filter 的数量。

7.1.2 Graph Kernel（读者补充）

目前现有的大多数 Graph Kernel 算法都是基于 R-Convolution 理论构建而来，其理论思想是：设计一种图的分解算法，两个图的核函数和图分解后的子结构的相似程度有关。
$G_1(V_1,E_1),G_2(V_2,E_2)$ $\mathcal F(\cdot)$ ，则分解后的子结构为：
$\begin{matrix} F (G_{1}) = {S_{1, 1}, S_{1, 2}, \dots, S_{1, n_{1}}} \\ F (G_{2}) = {S_{2, 1}, S_{2, 2}, \dots, S_{2, n_{2}}} \end{matrix}$
$G_1$ $G_2$ 的核函数可以表示为：
$k_{R} (G_{1}, G_{2}) = \sum_{i = 1}^{n_{1}} \sum_{j = 1}^{n_{2}} δ (S_{1, i}, S_{2, j})$
其中：
$\begin{matrix} δ (S_{a}, S_{b}) = {\begin{cases} 1, & S_{a} 同构 S_{b} \\ 0, & else \end{cases} \end{matrix}$
$\mathcal F(\cdot)$ $\delta(\cdot)$ 的组合都可以定义一种新的 Graph Kernel ，常见的主要分为三类：
- 基于游走的Graph Kernel，如 Random Walk Kernel。
- 基于路径的 Graph Kernel，如 Shortest-Path Kernel 。
- 基于子树subtree 或者子图 subgraph 的 Graph Kernel ，如 Weisfeiler-Lehman Subtree Kernel。
另外，除了 R-Convolution 系列之外，还有其它的 Graph Kernel 。
Random Walk Kernel：随机游走Kernel 的基本思想是：统计两个输入图中相同的随机游走序列的数量。
$G_1(V_1,E_1),G_2(V_2,E_2)$ $v$ label $l_v$ direct product graph $G_{\times}$ $G_{\times} = (V_{\times},E_{\times})$ ，其中：
$\begin{matrix} V_{\times} (G_{1} \times G_{2}) = {(v_{1}, w_{1}) \in V_{1} \times V_{2}} ∣ l_{v_{1}} = l_{w_{1}}} \\ E_{\times} (G_{1} \times G_{2}) = {((v_{1}, w_{1}), (v_{2}, w_{2})) \in V_{\times} \times V_{\times} ∣ (v_{1}, v_{2}) \in E_{1}, \\ (w_{1}, w_{2}) \in E_{2}, l_{(v_{1}, v_{2})} = l_{(w_{1}, w_{2})}} \end{matrix}$
其中：
- $l_v$ $v$ label $l_{(v_1,v_2)}$ $(v_1,v_2)$ 的 label 。注意，这里的 label 其实是属性，而不是监督学习中的监督信号。
- $V_\times$ $G_1,G_2$ 中相同 label 的节点组成的 pair 对。
- $E_\times$ $G_1,G_2$ 中相同 label 的边组成的 pair 对，且边的对应节点的 label 分别相同。
$G_\times$ label $G_\times$ 中的边代表：
- 起点背后的两个子节点，在各自图中具有相同的 label。
- 终点背后的两个子节点，在各自图中具有相同的 label。
- 起点和终点背后的两对子边，在各自图中具有相同的 label。
$G_{\times}$ $\mathbf A_{\times}$ ，则随机游走 kernel 定义为：
$k_{\times} (G_{1}, G_{2}) = \sum_{i, j = 1}^{| V_{\times} |} {[\sum_{n = 0}^{\infty} λ_{n} A_{\times}^{n}]}_{i, j}$
$\lambda_n$ $k_\times$ 的收敛性。
$\sum_{i,j=1}^{|V_{\times}|}\left[ \mathbf A^n_{\times}\right]_{i,j}$ $G_1$ $G_2$ $n$ 的、特定条件的路径的数量，该路径满足以下条件：路径的节点label 序列完全相同、路径的边label 序列完全相同。
Shortest-Path Kernel：随机游走Kernel 的基本思想是：统计两个输入图中相同标签之间的最短路径。
$G_1(V_1,E_1),G_2(V_2,E_2)$ ：
- Floyd $G_1^F\left(V_1,E_1^F\right),G_2^F\left(V_2,E_2^F\right)$ $E_1^F$ $V_1$ $E_2^F$ $V_2$ 的两两节点之间最短路径。
- 计算：
  $k_{s h o r t e s t - p a t h} (G_{1}, G_{2}) = \sum_{e_{1} \in E_{1}^{F}} \sum_{e_{2} \in E_{2}^{F}} k_{w a l k}^{(1)} (e_{1}, e_{2})$
  $k_{walk}^{(1)}$ 为一个定义在长度为1 的 edge walk 上的正定核。
Weisfeiler-Lehman Subtree Kernel ：它基于 Weisfeiler-Lehman 算法。
- label $G$ $v$ $v$ $\mathcal N_v$ hash $v$ 的新label：
  $l_{v} \leftarrow hash (l_{v}, l_{N_{v}})$
  $l_v$ $v$ label $l_{\mathcal N_v}$ $\mathcal N_v$ 的 label 集合。
  更新后的新label 包含了其直接邻域的节点信息。因此如果两个节点更新后的 label 相同，我们可以认为其邻域结构是同构的。
- $K$ $G^\prime$ 。
  $v$ 的 label 就包含了更大规模的邻域的节点信息，最终每个节点的 label 编码了图的全局结构信息。
- $G_1,G_2$ Weisfeiler-Lehman $G^\prime_1,G_2^\prime$ 的节点label 集合的相似性（如 Jaccard 相似性）来得到核函数：
  $k_{W L} (G_{1}, G_{2}) = \frac{| l_{V_{1}} ⋂ l_{V_{2}} |}{| l_{V_{1}} ⋃ l_{V_{2}} |}$
  $l_{V}$ 为所有节点的label 集合。
一旦定义了 Graph Kernel，则我们可以使用基于核技巧的方法，如 SVM 来直接应用在图上。

7.2 模型

$G=(V,E)$ $V=\{v_1,\cdots,v_n\}$ $E\sube V\times V$ $|V|=n$ $|E|=m$ 。
- $\mathbf A\in \mathbb R^{n\times n}$ 为：
  $\begin{matrix} A_{i, j} = {\begin{cases} 1, & (v_{i}, v_{j}) \in E \\ 0, & else \end{cases} \end{matrix}$
- 每个节点以及每条边可以包含一组属性，这些属性可以为离散的，也可以为连续的。这里我们用 “属性” 而不是 “标签” 来避免概念的混淆。
- 定义一个游走序列 walk 是由连续的边组成的一个节点序列。定义一条路径 path 是由不重复节点构成的walk 。
- $d(u,v)$ $u$ $v$ $u$ $v$ 之间的最短路径距离。
- $\mathcal N_1(v)$ $v$ $v$ 直连的所有节点构成。
Labeling and Node Partitions：PATCHY-SAN 利用了graph labeling 对节点进行排序。
- graph labeling：如果图的节点自带label，则我们可以直接用该label 。如果节点没有labelgraph labeling $F_l: V\rightarrow S$ label $S$ $\mathbb R$ $\mathbb Z$ ）。 graph labeling 过程计算输入图的 graph labeling。
  graph labeling 的例子包括：通过节点的度degree 计算label、通过节点的中介中心性between centralitylabel $v$ $v$ 的最短路径占所有最短路径的比例。
- ranking：一个排序 rankingcoloring $F_r: V\rightarrow \{1,2,\cdots,|V|\}$ graph labeling $F_l(u)\gt F_l(v)$ $F_r(u)\lt F_r(v)$ label $G$ labeling $F_l$ $G$ $\mathbf A^l(G)$ ，它定义为：
  $\begin{matrix} A^{l} (G) = \begin{array}{clrc} r_{1} & r_{2} & r_{3} & r_{4} & \dots & r_{n} \\ v_{1} : F_{r} (v_{1}) = 1 & 1 & 0 & 0 & 0 & \dots & 0 \\ v_{2} : F_{r} (v_{2}) = 4 & 0 & 0 & 0 & 1 & \dots & 0 \\ v_{3} : F_{r} (v_{3}) = 3 & 0 & 0 & 1 & 0 & \dots & 0 \\ v_{4} : F_{r} (v_{4}) = 2 & 0 & 1 & 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ v_{n} : F_{r} (v_{n}) = n & 0 & 0 & 0 & 0 & \dots & 1 \end{array} \end{matrix}$
  $v$ $\mathbf A^l(G)$ $F_r(v)$ 决定。
  行代表节点，列代表排名。
- 划分 partitiongraph labeling $V$ $\{V_1,\cdots,V_K\}$ $K$ label $u,v\in V_i$ $F_l(u) = F_l(v)$ 。
  Weisfeiler-Lehman 算法是一种划分图节点的过程，它也被称作 color refinement 和 naive vertex classification 。该算法在机器学习社区中引起了相当广泛的兴趣，因为它可以应用于图模型的加速推断、以及作为一种计算 graph kernel 的方法。
PATCHY-SAN 使用这些 graph labeling 过程来对图的节点施加顺序，从而替代缺失的、application-dependent 的顺序（如时间顺序，空间顺序）。
同构和规范化Isomorphism and Canonicalization：在很多应用领域存在的一个计算问题是：确定两个图是否是同构曲面。图同构问题 graph isomorphism (GI) problem 是 NP 的，但是不知道是属于 P 还是 NP-hard 。在一些温和的限制下，图同构问题是 P 的，例如对于有界 degree 的图。
$G$ $G^\prime$ $G$ $G$ 的整个同构族isomorphism class 。在实践中，图规范化工具 NAUTY 表现出了卓越的性能。
当 CNN 应用于图像时，感受野（正方形网格）以特定的步长在图像上移动。感受野为每个通道读取一次像素值，并为每个通道创建一批数值。由于图像的像素具有隐式排列（即，空间顺序），因此感受野总是从左到右、从上到下移动。此外，空间顺序唯一地确定了每个感受野的节点以及这些节点映射到排序空间方式。因此，当且仅当像素的结构角色 structural role （它们在感受野内的空间位置）相同时，使用两个不同绝对位置的感受野读取到的两个像素值被分配到同一个相对位置。
为了展示 CNN 和 PATCHY-SAN 之间的联系，我们把图像上的 CNN 视为一种框架：首先识别正方形网格图（代表图像）中的节点序列，然后为该序列中的每个节点建立一个归一化的邻域子图neighborhood graph（即，感受野）。
对于缺少 application-dependent 节点顺序并且任何两个图的节点尚未对齐的图集合，我们需要为每个图确定：
- 一个节点序列，其中我们即将为序列中的每个节点创建邻域子图。
- 从图结构到向量 representation 的唯一映射，使得相似的邻域子图具有相似的向量representation 。
我们通过graph labeling 过程来解决这些问题。如果来自两个不同图的节点在图中的结构角色相似，那么它们被分配到各自邻接矩阵中的相似的相对位置。给定一组图，PATCHY-SAN 对每个图执行以下操作：
- 采用 Node Sequence Selection 算法从图中选择一个固定长度的节点序列。
- 采用 Neighborhood Assembly 算法为节点序列中的每个节点组装一个固定大小的邻域。
- 通过 Graph Normalization 对每个邻域子图进行归一化处理，从而将无序的图转换为有序的、长度固定的节点序列。
- 利用CNN 学习邻域的 representation。

7.2.1 Node Sequence Selection

节点序列选择node sequence selection是为每个输入图识别需要创建感受野的节点序列的过程。
- 首先，输入图的节点根据给定的 graph labeling 进行排序。
- $s$ $w$ 个感受野为止。
  $w$ 决定了卷积运算输出 feature map 的尺寸，它对应于一维CNN 中的序列长度。
$s$ $w$ ，则算法创建全零的感受野，用于填充。也可以采用其它节点序列选择方法，如根据 graph labeling 进行深度优先遍历。
$w$ $s$ $w$ 个感受野（即一维卷积中的序列长度对齐）。
Select Node Sequence 算法：
- 算法输入：
  - graph labeling $F_l(\cdot)$
  - $G=(V,E)$
  - $s$ $w$ $k$
- 算法输出：被选择的节点序列，以及对应的感受野
- 算法步骤：
  - $F_l(\cdot)$ $V$ top $w$ $V_\text{sort}$ 。
  - $i=1,j=1$ 。
  - $j\ge w$ 停止迭代。迭代步骤为：
    - $i\le |V_\text{sort}|$ $i$ $f=\text{CreateReceptiveField}(V_\text{sort}[i],k)$ $f=\text{ZeroReceptiveField}(k)$ 。
    - $f$ 应用到每个输入通道。
      因为节点的特征可能是一个向量，表示多维度属性。
    - $i = i+s,\quad j=j+1$ 。
  - 返回访问到的节点序列，以及创建的感受野序列。

7.2.2 Neighborhood Assembly

对于被选择的节点序列，必须为其中的每个节点构建一个感受野。创建感受野的算法首先调用邻域组装算法来构建一个局部邻域，邻域内的节点是感受野的候选节点。
$v$ $k$ BFS $v$ $\mathcal N_v$ $k$ $\mathcal N_v$ BFS $\mathcal N_v$ $k$ $\mathcal N_v$ $k$ 。
$k$ 个最近邻的节点（包括它自身）。
$\mathcal N_v$ $v$ 的距离）。所以，如果这里能够保存距离信息，是否会更有利？
Neighborhood Assembly 算法：
- $v$ $k$
- $v$ $\mathcal N_v$
- 算法步骤：
  - $\mathcal N_v = [v], \mathcal B=[v]$ $\mathcal B$ 存放BFS 遍历到的节点。
    $v$ 也是它自身的邻居。
  - $|\mathcal N_v|\ge k$ $|\mathcal B|=0$ 停止迭代。迭代步骤：
    - BFS $\mathcal B = \bigcup_{w\in \mathcal B}\mathcal N_w^{(1)}$ $\mathcal N_w^{(1)}$ $w$ 的一阶邻域集合。
    - BFS $\mathcal N_v = \mathcal N_v\bigcup \mathcal B$ 。
  - $\mathcal N_v$ 。

7.2.3 Graph Normalization

子图归一化是对邻域子图的节点施加一个顺序，使得节点从无序的图空间映射到线性顺序的排序空间。子图归一化的基本思想是利用 graph labeling，对于不同子图中的节点，当且仅当节点在各自子图中的结构角色相似时，才给它们分配到各自邻接矩阵中的相似的相对位置similar relative position。
为了形式化该思想，我们定义了一个 Optimal Graph Normalization 问题，该问题的目标是找到给定的图集合的最佳 labeling 。
Optimal Graph Normalization $\mathcal G$ $k$ $F_l(\cdot)$ graph labeling $d_G(\cdot,\cdot)$ $k$ $d_A(\cdot,\cdot)$ $k\times k$ $\hat F_l(\cdot)$ ，使得：
${\hat{F}}_{l} = \arg min_{F_{l}} E_{G} [| d_{A} (A^{l} (G), A^{l} (G^{'})) - d_{G} (G, G^{'}) |]$
$\mathcal G$ $F_l$ 得到的邻接矩阵）的距离与图空间的距离的差距最小。
图的最优归一化问题是经典的图规范化问题graph canonicalization problem 的推广。但是经典的labeling 算法仅针对同构图isomorphic graphlabeling $d_G(G,G^\prime)$ 来衡量。
- 关于图的最优归一化问题，这里给出了两个定理：
  - 定理一：图的最优归一化问题是 NP-hard 。
    证明：通过从子图同构进行规约 reduction 。
    PATCHY-SAN 无法完全解决图的最优归一化问题，它只是比较了不同的 graph labeling 方法，然后选择其中表现最好的那个。
  - $\mathcal G$ $(G_1,G_1^\prime),\cdots,(G_N,G_N^\prime)$ $\mathcal G$ 中独立随机均匀采样的一对图的序列。令：
    $\begin{matrix} {\hat{θ}}_{l} = \frac{1}{N} \sum_{i = 1}^{N} d_{A} (A^{l} (G_{i}), A^{l} (G_{i}^{'})) \\ θ_{l} = E_{G} [| d_{A} (A^{l} (G), A^{l} (G^{'})) - d_{G} (G, G^{'}) |] \end{matrix}$
    $d_A\left(\mathbf A^l(G),\mathbf A^l(G^\prime)\right) \ge d_G(G,G^\prime)$ $\theta_{l_1}\lt \theta_{l_2}$ $\mathbb E_\mathcal G\left[\hat \theta_{l_1}\right]\lt \mathbb E_{\mathcal G}\left[\hat\theta_{l_2}\right]$ $l_1,l_2$ 表示采用不同的 graph labeling 。证明见论文。
    $\hat\theta_l$ graph labeling $\hat\theta_l$ 最小的graph labeling 。
    edit distance $\mathbf A^l(G)$ $d_A\ge d_G$ 成立。
    另外，上述结论不仅对无向图成立，对于有向图也成立。
图的归一化问题，以及针对该问题的合适的graph labelingPATCHY-SAN $v$ label $u,w$ $d(u,v) \lt d(w,v)$ $F_r(u) \lt F_r(w)$ $v$ $v$ 的排名总是1（即排名最靠前）。
注意，PATCHY-SAN 中应用了两种 graph labeling 函数：
- graph labeling $F_l(\cdot)$ ，用于选择节点序列，即 Select Node Sequence 算法。
- 第二种 graph labeling 函数就是这里的距离函数，用于图的归一化问题，即 Graph Normalization 算法。
由于大多数 labeling 方法不是单射的，因此有必要打破 same-label 节点之间的联系。为此，我们使用 NAUTY。NAUTY 接收先验的 node partition 作为输入，并通过选择字典顺序最大的邻接矩阵来打破剩余的联系 remaining ties 。
$v$ $\mathcal N_v$ $v$ 距离相等的邻居节点，因此距离函数作为 graph labeling 函数不是单射的。
degree $k$ 是一个常数，因此图的归一化算法可以在多项式时间内求解。我们的实验证明：图的邻域计算graph labeling 的过程仅产生一个微不足道的开销。
Graph Normalization 算法：
- 算法输入：
  - $v$ $\mathcal N_v$
  - graph labeling $F_l^{^\prime}(\cdot)$ （注意，它可能与 Select Node Sequencegraph labeling $F_l(\cdot)$ 有所不同）
  - $k$
- 输出：归一化的邻域子图
- 算法步骤：
  - $\mathcal N_v$ $F_l^{^\prime}(\cdot)$ $v$ 的排名，使得：
    $\forall u, w \in N_{v} : d (u, v) < d (w, v) \to F_{r} (u) < F_{r} (w)$
  - $|\mathcal N_v|\gt k$ ranking $\mathcal N_v$ 中的 top k 个节点，对所选择的节点再执行一次labeling 以及 ranking 的过程。
    $F_r(\cdot)$ 在筛选出的较小的节点集合上重新计算，因为新的结构导致了新的 labeling 分布。
  - $|\mathcal N_v|\lt k$ $k-|\mathcal N_v|$ 个断开的虚拟节点。
  - $k$ 个节点的排名来归一化这些节点，并返回归一化的结果。
$v$ $k=9$ 。首先利用graph labeling 对节点进行排序，然后创建归一化的邻域。
$k\times k$ ，边的不同属性对应不同的输入通道。
$\mathcal N_v$ $v$ $v$ 的距离。
$k\times k$ ）。
创建感受野的 Create Receptive Field 算法：
- $v$ $F_l^\prime(\cdot)$ $k$
- $v$ 的感受野
- 算法步骤：
  - $v$ $\mathcal N_v=\text{NeighborhoodAssembly}(v,k)$ 。
  - $G_{norm} = \text{GraphNormalization}(\mathcal N_v,v,F_l,k)$ 。
  - $G_{norm}$ 。
我们可以将 PATCHY-SAN 与图像的 CNN 相关联。
PATCHY-SAN $k=(2b-1)^2$ $s$ 、非零填充以及采用 1-WLCNN $2b-1$ $s$ 、非零填充的卷积层。
证明：如果输入图为一个正方形网格，则为节点构造的 1-WL 归一化的感受野始终是具有唯一节点顺序的正方形网格。

7.2.4 PATCHY-SAN 架构

PATCHY-SAN 既能处理节点，也能处理边；它既能处理离散属性，也能处理连续属性。
PATCHY-SAN $G$ $w$ $k$ $a_v$ $a_e$ $w\times k\times a_v$ $w\times k\times k \times a_e$ $a_v$ $a_e$ 都是输入通道的数量。
reshape $wk\times a_v$ $wk^2\times a_e$ $k$ $k$ $k^2$ $k^2$ 的一维卷积层。剩下的结构可以任意结合 CNN 的组件。另外我们可以利用融合层来融合来自节点的卷积输出feature map 和来自边的卷积输出 feature map 。

7.2.5 算法复杂度

PATCHY-SAN 的创建感受野算法非常高效。另外，由于这些感受野的生成是相互独立的，因此感受野生成过程原生支持并行化。
$N$ $k$ $w$ $O(f_l(n,m))$ $n$ $m$ 条边的图的 graph labelingPATCHY-SAN $O(N\times w\times [f_l(n,m)+n\log n +\exp(k)])$ 。
证明见论文。
当采用Weisfeiler-Lehmangraph labeling $O((n+m)\log n)$ $w\ll n,k \ll n$ PATCHY-SAN $N$ $m$ $n$ 的准线性。

7.3 实验

7.3.1 运行时分析

我们通过将PATCHY-SAN 应用于实际的图来评估其计算效率，评估指标为感受野的生成速度。我们将 PATCHY-SAN 生成感受野的速度，与 state-of-the-art 的 CNN 执行学习的速度进行比较。
数据集：所有输入图都来自 Python 模块 GRAPHTOOL 。
- torus 图：具有10k 个节点的周期性晶格。
- random10 $p(k)\propto 1/k$ $k_{\max}=3$ 。
- power 图：美国电网拓扑网络。
- polbooks：2004年美国总统大选期间出版的有关美国政治书籍的 co-purchasing 网络。
- preferential：一个 preferential attachment network，其中最新添加的节点的degree 为 3 。
- astro-ph：天体物理学 arxiv 上作者之间的 co-authorship 网络。
- email-enron：一个由大约 50万 封已发送 email 生成的通信网络。
我们的PATCHY-SAN 采用 1-dimensional Weisfeiler-Lehman:1-WL 算法来归一化邻域子图。下图给出了每个输入图每秒产生感受野的速度。所有实验都是在单台 2.8 GHZ GPU、64G 内存的机器上执行。
- $k=5/k=10$ ，除了在 email-eron 上的速度为 600/s 和 320/s 之外，在其它所有图上PATCHY-SAN 创建感受野的速度超过 1000/s 。
- $k=50$ ，PATCHY-SAN 创建感受野的速度至少为 100/s 。
对于一个经典的带两层卷积层、两层 dense 层的 CNN 网络，我们在相同机器上训练速度大概是 200-400 个样本/秒，因此PATCHY-SAN 感受野的生成速度足以使得下游 CNN 组件饱和。

7.3.2 可视化

可视化实验的目的是定性研究 restricted boltzman machine: RBM 等流行模型是否可以与 PATCHY-SAN 结合从而用于无监督特征学习。我们将 PATCHY-SAN 学到的尺寸为9 的归一化感受野使用 restricted boltzman machine:RBM 进行无监督学习，RNM 所学到的特征对应于重复出现的感受野模式。其中：
- PATCHY-SAN 采用 1-WL 算法进行邻域子图归一化。
- 采用单层RBM ，隐层包含 100 个隐单元。
- RBM 采用对比散度算法contrastive divergence: CD 训练 30 个 epoch，学习率设为 0.01 。
下图给出了从四张图中得到的样本和特征。我们将RBM 学到的特征权重可视化（像素颜色越深，则对应权重重大）。另外我们还采样了每种模式对应的三个节点的归一化邻域子图，黄色节点表示当且节点（排序为1）。
左上角为 torus 周期性晶格图、左下角为 preferential attachment 图、右上角为 co-purchasing 图、右下角为随机图。

7.3.3 图的分类

图分类任务是将每个图划分到若干类别之一。我们采用6 个标准 benchmark 数据集来比较不同图分类模型的分类准确性和运行时间。
- MUTAG 数据集：由188 种硝基化合物组成的数据集，其类别表明该化合物是否对细菌具有诱变 mutagenic 作用。
- PTC 数据集：由 344 种化合物组成的数据集，其类别表明是否对老鼠具有致癌性。
- NCI1 和 NCI109 数据集：筛选出的抑制 non-small 肺癌细胞和卵巢癌细胞活性的化合物。
- PROTEIN：一个图的数据集，其中图的节点表示次级结构元素 secondary structure element，边表示氨基酸序列中的相邻关系，或者三维空间中的氨基酸相邻关系。其类别表示酶或者非酶。
- D&D：由 1178 种蛋白质组成的数据集，其类别表明是酶还是非酶。
我们将PATCHY-SAN 和一组核方法比较，包括shortest-path kernel: SP 、random walk kernel: RW、graphlet count kernel: GK，以及 Weisfeiler-Lehman sbutree kernel: WL 。
- 对于核方法，我们使用 LIB-SVM 模型来训练和评估核方法的效果。我们使用10 折交叉验证，其中9-fold 用于训练，1-fold 用于测试。我们重复10 次并报告平均准确率和标准差。
  类似之前的工作，我们设置核方法的超参数为：WL 的高度参数设置为2 ，GK 的尺寸参数设置为 7RW $\{10^{-6},10^{-5},\cdots,10^{-1}\}$ 中进行挑选。
- 对于 PATCHY-SAN: PSCN1-dimensional WL $w$ $k=5$ $k=10$ $k=10$ $k=10^E$ 。
  所有 PSCN 都使用了具有两个卷积层、一个dense 层、一个 softmax 层的网络结构。其中：
  - 第一个卷积层有 168 $s=1$ $k=10$ 。
  - dense 层有 128 个隐单元（relu 激活函数），采用dropout = 0.5 的 dropout。我们采用一个较小的隐单元数量以及 dropout 从而避免模型在小数据集上过拟合。
  所有卷积层和 dense 层的激活函数都是 reLU 。模型的优化算法为 RMSPROP 优化算法，并基于Keras 封装的 Theno 实现。
  所有 PSCN 需要优化的超参数为 epoch 数量以及 batch-size 。
  $k=10$ 时，我们也对 PATCHY-SAN 抽取的感受野应用一个逻辑回归分类器 PSLR 。
实验结果：这些模型在 benchmark 数据集上的结果如下表所示。其中前三行给出了各数据集的属性，包括图的最大节点数Max、图的平均节点数Avg、图的数量Graphs 。我们忽略了 NCI109 的结果，因为它几乎和 NCI1 相同。
- 尽管使用了非常普通的CNN 架构，PSCNgraph kernel $k=10$ 的 PSCN 具有最佳的分类准确性。
- PSCN 这里的预测方差较大，这是因为：benchmark 数据集较小，另外 CNN 的一些超参数（epoch 和 batch-size 除外）没有针对具体的数据集进行优化。与图像和文本数据的体验类似，我们预期 PATCHY-SAN 在大型数据集上的表现更好。
- PATCHY-SAN 的运行效率是graph kernel 中最高效的 WL 方法的 2到 8 倍。我们预计具有大量 graph 的数据集上，PATCHY-SAN 的性能优势会更加明显。
- PATCHY-SAN + 逻辑回归的效果较差，这表明 PATCHY-SAN 更适合搭配 CNN 。CNN 学到了归一化感受野的非线性特征组合，并在不同感受野之间共享权重。
- 采用中介中心性归一化 betweeness centrality normalization 结果也类似（未在表中体现），除了它的运行时间大约增加了 10% 。
$\text{PSCN } k =10^E$ 的效果优于 PSCN k=10，这表明保留邻域子图的距离信息的有效性。
我们在较大的社交网络图数据集上使用相同的配置进行实验，其中每个数据集最多包含 12k 个图，每个图平均 400 个节点。我们将 PATCHY-SAN 和之前报告的 graphlet count: GK、deep graplet count kernel: DGK 结果相比。
我们使用归一化的节点degree 作为节点的属性，这突出了PATCHY-SAN 的优势之一：很容易地包含连续特征。
可以看到 PSCN 在六个数据集的四个中明显优于其它两个核方法，并且在剩下两个数据集也取得了很好的性能。

八、GraphSAGE[2017]

在大型图中节点的低维向量 embedding 已被证明作为特征输入非常有用，可用于各种预测和图分析graph analysis 任务。node embedding 方法背后的基本思想是：使用降维技术将关于节点的 graph neighborhood 的高维信息蒸馏成稠密的、低维的向量 embedding 。然后可以将这些 node embedding 馈入到下游机器学习系统，并帮助完成节点分类、节点聚类、以及链接预测等任务。
然而，以前的工作集中在从单个固定图a single fixed graph上的节点的 embedding ，许多实际 application 需要为 unseen 的节点、或全新的图快速生成 embedding 。这种归纳能力 inductive capability 对于高吞吐量、生产型的机器学习系统至关重要，其中这些机器学习系统在不断演变的图上运行并不断遇到 unseen 的节点（如 Reddit 上的帖子、Youtube 上的用户和视频）。生成 node embedding 的归纳方法 inductive approach 还有助于跨具有相同形式特征的图进行泛化：例如，可以在源自模型器官 model organism 的 protein-protein 交互图上训练一个 embedding generator ，然后使用经过训练的 embedding generator 轻松地为在新器官上收集的数据生成 node embedding 。
与直推式配置 transductive setting 相比，归纳式inductive 的 node embedding 问题特别困难，因为泛化到 unseen 的节点需要将新观察到的子图observed subgraph 与算法已经优化的 node embedding 进行对齐 aligning 。归纳式框架 inductive framework 必须学会识别节点领域的结构属性，这些属性揭示了节点在图中的局部角色local role 及其全局位置global position。
大多数现有的生成 node embedding 的方法本质上都是直推式的。这些方法中的大多数使用基于矩阵分解的目标直接优化每个节点的 embedding ，并且无法自然地泛化到 unseen 的数据，因为它们在单个固定图上对节点进行预测。这些方法可以被修改从而在归纳式配置中运行，但是这些修改往往在计算上代价很大，需要额外的梯度下降轮次才能作出新的预测。最近还有一些使用卷积算子来学习图结构的方法，这些方法提供了作为 embedding 方法的承诺（《Semi-supervised classification with graph convolutional networks》）。到目前为止，图卷积网络 graph convolutional network: GCN 仅应用于具有固定图 fixed graph 的直推式配置。在论文《Inductive Representation Learning on Large Graphs》 中，作者将 GCN 泛化到归纳式无监督学习的任务，并提出了一个框架，该框架泛化了 GCN 方法从而使用可训练的聚合函数（超越了简单的卷积）。
《Semi-supervised classification with graph convolutional networks》 提出的 GCN 要求在训练过程中已知完整的图拉普拉斯算子，而测试期间 unseen 的节点必然会改变图拉普拉斯算子，因此该方法也是直推式的。
论文的工作：
- 作者提出了一个通用框架，称作 GraphSAGE（SAmple and aggreGatE），用于归纳式 node embedding。与基于矩阵分解的 embedding 方法不同，GraphSAGE 利用节点特征（如，文本属性、节点画像node profile信息、节点 degree ）来学习一个 embedding 函数，该embedding 函数可以泛化到 unseen 的节点。通过在学习算法中加入节点特征，GraphSAGE 同时学习了每个节点邻域的拓扑结构、以及该邻域内节点特征的分布。虽然GraphSAGE 聚焦于特征丰富的 graph（如，具有文本属性的引文数据，具有功能标记/分子标记的生物数据），但是GraphSAGE 还可以利用所有图中存在的结构特征（如，节点 degree）。因此，GraphSAGE 也可以应用于没有节点特征的图。
- GraphSAGE 不是为每个节点训练一个distinct的 embedding 向量，而是训练一组聚合器函数 aggregator function ，这些函数学习从节点的局部邻域来聚合特征信息（如下图所示）。每个聚合器函数聚合来自远离给定节点的不同 hop 数（或搜索深度）的信息。在测试或推断时，GraphSAGE 通过应用学到的聚合函数为 unseen 的节点生成 embedding 。
  遵从之前的 node embedding 工作，作者设计了一个无监督损失函数，允许在没有task-specific 监督信息的情况下训练 GraphSAGE 。作者还表明 GraphSAGE 可以通过完全监督的方式进行训练。
- 作者在三个关于节点/图分类 benchmark 上评估GraphSAGE ，这些 benchmark 测试了 GraphSAGE 在 unseen 数据上生成有效 embedding 的能力。作者使用基于引文数据和 Reddit 帖子数据（分别预测论文类别和帖子类别）的两个不断演变的文档图，以及基于 protein-protein 交互的数据集（预测蛋白质功能）的多图泛化multigraph generalization实验。
  使用这些 benchmark，作者表明GraphSAGE 能够有效地为 unseen 的节点生成 representation，并大大优于相关 baseline ：跨所有这些不同的领域，与单独使用节点特征相比，GraphSAGE 的监督方法将分类 F1 分数平均提高了 51%，并且 GraphSAGE 始终优于强大的直推式的 baseline ，并且该 baseline 需要 100 轮迭代甚至更长的时间才能预测 unseen 的节点。
  作者还表明，与受图卷积网络（《Semi-supervised classification with graph convolutional networks》）启发的聚合器相比，论文提出的新聚合器架构提供了显著的增益（平均增益 7.4%）。
  最后，作者探讨了GraphSAGE 的表达能力expressive capability，并通过理论分析表明：GraphSAGE 能够学到有关节点在图中的角色的结构信息，尽管它本质上是基于特征的。
相关工作：我们的算法在概念上与之前的 node embedding 方法、图上学习的通用监督方法general supervised approache、以及将卷积神经网络应用于图结构数据的最新进展等等相关。
- 基于分解的 embedding 方法：最近有许多 node embedding 方法使用随机游走统计和基于矩阵分解的学习目标来学习低维 embedding （GraRep, node2vec, Deepwalk, Line, SDNE）。这些方法还与更经典的谱聚类spectral clustering方法、多维缩放multi-dimensional scaling、以及 PageRank 算法密切相关。
  由于这些 embedding 算法直接为单个节点individual node 训练 node embedding，因此它们本质上是直推式的，并且至少需要昂贵的额外训练（如，通过随机梯度下降）来对 unseen 节点进行预测。此外，对于大多数这些方法，目标函数对于 embedding 的正交变换是不变的，这意味着 embedding 空间不会自然地在图之间泛化，并且在 re-training 期间可能会漂移 drift 。
  $\mathbf{\vec v}_i\cdot \mathbf{\vec v}_j$ 是 embedding 空间的正交不变的，即：将 embeddign 空间旋转任意角度，原始内积函数和新内积函数的结果是相等的。
  这一趋势的一个显著例外是 Planetoid-I 算法，它是一种归纳式的、基于 embedding 的半监督学习方法。但是，Planetoid-I 在推断过程中不使用任何图结构信息，相反，它在训练期间使用图结构信息作为正则化的一种形式。
  与先前的这些方法不同，我们利用特征信息来训练模型从而为 unseen 节点生成 embedding 。
- 图上的监督学习：除了 node embedding 方法之外，还有大量关于图结构数据的监督学习的工作。这包括各种各样的 kernel-based 方法，其中图的特征向量来自于各种 graph kernel 。最近还有许多神经网络方法可以对图结构数据进行监督学习。我们的方法在概念上受到大多数这些算法的启发。然而，这些方法试图对整个图（或子图）进行分类，但是我们这项工作的重点是为每个节点生成有用的 representation 。
- 图卷积网络：近年来，人们已经提出了几种用于图上学习的卷积神经网络架构。这些方法中的大多数无法扩展到大型图、或者设计用于整个图的分类。然而，我们的方法与 《Semi-supervised classification with graph convolutional networks》 提出的图卷积网络 graph convolutional network: GCN 密切相关。原始的 GCN 算法是为直推式setting 的半监督学习而设计的，确切 exact 的算法要求在训练期间知道整个图的拉普拉斯算子。我们算法的一个简单变体可以视作 GCN 框架对归纳式setting 的扩展，我们将在正文部分重新讨论这一点。

8.1 模型

我们方法背后的关键思想是：我们学习如何从节点的局部邻域聚合特征信息（如，邻域节点的 degree 或文本属性）。我们首先描述 GraphSAGE 的 embedding 生成（即，前向传播）算法，该算法在假设 GraphSAGE 模型参数已经学到的情况下为节点生成 embedding 。然后，我们描述了如何使用标准随机梯度下降和反向传播技术来学习 GraphSAGE 模型参数。

8.1.1 前向传播

embedding $K$ $\text{AGG}_k,k\in \{1,2,\cdots,K\}$ $K$ $\mathbf W^{(k)},k\in \{1,2,\cdots,K\}$ $K$ 也称作搜索深度，或 layer 层数。
GraphSAGE 的embedding 生成算法为：
- 输入：
  - $\mathcal G(\mathcal V,\mathcal E)$ $\left\{\mathbf{\vec x}_v\mid v\in \mathcal V\right\}$ $K$ $\mathcal N(\cdot)$
  - $K$ $\mathbf W^{(k)}$ $K$ $\text{AGG}_k$ $k\in \{1,\cdots,K\}$
  - $\sigma(\cdot)$
- embedding $\left\{\mathbf{\vec z}_v\mid v \in \mathcal V \right\}$
- 算法步骤：
  - $\mathbf{\vec h}_v^{(0)} = \mathbf{\vec x}_v, v\in \mathcal V$
  - $k=1,2,\cdots,K$ 。迭代步骤：
    - $v\in \mathcal V$ ，执行：
      $\begin{matrix} {\vec{h}}_{N (v)}^{(k - 1)} = {AGG}_{k} ({{\vec{h}}_{u}^{(k - 1)} ∣ u \in N (v)}) \\ {\vec{h}}_{v}^{(k)} = σ (W^{(k)} concat ({\vec{h}}_{v}^{(k - 1)}, {\vec{h}}_{N (v)}^{(k - 1)})) \end{matrix}$
      其中 concat() 表示向量拼接。
      这里是拼接融合，也可以考虑其它类型的融合方式。
    - $v$ 的隐向量归一化：
      ${\vec{h}}_{v}^{(k)} = \frac{{\vec{h}}_{v}^{(k)}}{{‖ {\vec{h}}_{v}^{(k)} ‖}_{2}}, v \in V$
  - $\mathbf{\vec z}_v= \mathbf{\vec h}_v^{(K)}$
GraphSAGE 前向传播算法的背后直觉是：在每次迭代或搜索深度，节点都会聚合来自其局部邻域的信息；并且随着这个过程的迭代，节点将从图的更远范围逐渐获取越来越多的信息。
step $k$ current step $\mathbf{\vec h}^{(k)}$ 表示该 step 中的 node representation ：
- $v\in \mathcal V$ representation $\left\{\mathbf{\vec h}_u^{(k-1)}\mid u\in \mathcal N(v)\right\}$ $\mathbf{\vec h}_{\mathcal N(v)}^{(k-1)}$ $k-1$ node representation $\mathbf{\vec h}^{(k-1)}$ $k=0$ representation $\mathbf{\vec x}$ 。
  邻域 representation 可以通过各种聚合器架构（以 AGGREGATE 占位符来表达）来完成，接下来我们会讨论不同的架构选择。
- 然后，在聚合邻域特征向量之后，GraphSAGErepresentation $\mathbf{\vec h}_v^{(k-1)}$ $\mathbf{\vec h}_{\mathcal N(v)}^{(k-1)}$ $\sigma(\cdot)$ 的全连接层。这个全连接层的输出就是下一个 steprepresentation $\mathbf{\vec h}^{(k)}$ 。
  大多数节点 embedding 方法将学到的 embedding 归一化为单位向量，这里也做类似处理。
$K$ final representation $\mathbf{\vec z}_v=\mathbf{\vec h}_v^{(K)},\forall v\in \mathcal V$ 。

a. mini-batch 训练

为了将算法扩展到 mini-batch settingforward sample $K$ $k$ 所需的 representation （而不是所有节点的 representation ）。
为了使用随机梯度下降算法，我们需要对GraphSAGE 的前向传播算法进行修改，从而允许mini-batch 中每个节点能够执行前向传播、反向传播。
即：确保前向传播、反向传播过程中用到的节点都在同一个 mini-batch 中。
GraphSAGE mini-batch $\mathcal B$ 包含了我们想要为其生成 representation 的节点）：
- 算法输入：
  - $\mathcal G(\mathcal V,\mathcal E)$ $\left\{\mathbf{\vec x}_v\mid v\in \mathcal B\right\}$ $K$ $\mathcal N(\cdot)$
  - $K$ $\mathbf W^{(k)}$ $K$ $\text{AGG}_k$ $k\in \{1,\cdots,K\}$
  - $\sigma(\cdot)$
- embedding $\left\{\mathbf{\vec z}_v\mid v \in \mathcal B\right\}$
- 算法步骤：
  - $\mathcal B^{(K)} = \mathcal B$
  - $k=K,\cdots,1$ ，迭代步骤为：
    - $\mathcal B^{(k-1)} = \mathcal B^{(k)}$
    - $u\in \mathcal B^{(k)}$ $\mathcal B^{(k-1)} = \mathcal B^{(k-1)}\bigcup \mathcal N_k(u)$
  - $\mathbf{\vec h}_v^{(0)} = \mathbf{\vec x}_v， v\in \mathcal B^{(0)}$
  - $k=1,2,\cdots,K$ 。迭代步骤：
    - $v\in \mathcal B^{(k)}$ ，执行：
      $\begin{matrix} {\vec{h}}_{N_{k} (v)}^{(k - 1)} = {AGG}_{k} ({{\vec{h}}_{u}^{(k - 1)} ∣ u \in N_{k} (v)}) \\ {\vec{h}}_{v}^{(k)} = σ (W^{(k)} concat ({\vec{h}}_{v}^{(k - 1)}, {\vec{h}}_{N_{k} (v)}^{(k - 1)})) \end{matrix}$
      $\mathcal N_k(v)$ $v$ $k$ 都不相同，依赖于前向采样的结果。
    - $v$ 的隐向量归一化：
      ${\vec{h}}_{v}^{(k)} = \frac{{\vec{h}}_{v}^{(k)}}{{‖ {\vec{h}}_{v}^{(k)} ‖}_{2}}, v \in V$
  - $\mathbf{\vec z}_v = \mathbf{\vec h}_v^{(K)},v\in \mathcal B$
mini-batch $\mathcal B^{(k-1)}$ $k$ representation $\mathcal B^{(k)} \sube \mathcal B^{(k-1)}$ $\mathbf{\vec h}_v^{(k)}$ $\mathbf{\vec h}_v^{(k-1)}$ $k-1$ $k$ 轮需要计算 representation 的节点更少，这避免计算不必要的节点。
然后计算目标节点的 representation，这一步和 batch 前向传播算法相同。
mini-batch 前向传播和 batch 前向传播的主要区别在于：mini-batch 前向传播还有一个前向采样的步骤。
$\mathcal N_k(\cdot)$ $k$ 来表明：不同层之间使用独立的 random walk 采样。这里我们使用均匀采样，并且当节点邻域节点数量少于指定数量时采用有放回的采样，否则使用无放回的采样。
有一些算法聚焦于如何更好地进行采样，从而优化最终效果。
mini-batchbatch $K$ representation $K-1$ $K=2$ ：
- batch $k=1$ $S_1$ $k=2$ $S_2$ 个节点。
- mibi-batch $k= 2$ $S_2$ $k=1$ $S_1\times S_2$ 个节点。
  $\mathcal B$ 中包含 mibi-batch 所需要计算的所有节点。

b. 和 WL-Test 关系

GraphSAGE $K=|\mathcal V|$ $\mathbf W^{(k)} = \mathbf I$ ，并选择合适的hash 函数来作为聚合函数，同时移除非线性函数，则该算法是 Weisfeiler-Lehman:WL 同构性检验算法的一个特例，被称作 naive vertex refinement 。
node representation $\left\{\mathbf{\vec z}_v,v\in \mathcal V\right\}$ 在两个子图是相等的，则 WL-test 算法认为这两个子图是同构的。虽然在某些情况下该检验会失败，但是大多数情况下该检验是有效的。
GraphSAGE 是 WL test 算法的一个continous 近似，其中GraphSAGE 使用可训练的神经网络聚合函数代替了不连续的哈希函数。虽然 GraphSAGE 的目标是生成节点的有效embedding 而不是检验图的同构性，但是GraphSAGE 和 WL test 之间的联系为我们设计学习节点邻域拓扑结构的算法提供了理论背景。
可以证明：即使我们提供的是节点特征信息，GraphSAGE 也能够学到图的结构信息。参考 “理论分析” 部分。

c. 邻域定义

在GraphSAGEbatch $\mathcal N(v)$ $\{u\mid u\in \mathcal V,(u,v)\in \mathcal E\}$ $k$ 中采样不同的邻域。
batch $O(|\mathcal V|)$ batch $O(\prod_{k=1}^KS_k)$ $S_k$ $k$ $K$ $S_k$ $K=2, S_1\times S_2\le 500$ 时的效果较好。
$K$ $S_k$ 依赖于具体的数据集和任务。

8.1.2 模型学习

为了在完全无监督的环境中学习有用的、预测性的 representation，我们将一个 graph-basedoutput representation $\mathbf{\vec z}_u,\forall u\in \mathcal V$ ，并且通过随机梯度下降来学习模型参数。这个 graph-based 损失函数鼓励临近的节点具有相似的 representation，同时迫使不相近的节点具有高度不相似的 representation ：
$J_{G} ({\vec{z}}_{u}) = - \log (sigmoid ({\vec{z}}_{u} \cdot {\vec{z}}_{v})) - Q \times E_{v_{n} \sim P_{n} (v)} \log (sigmoid (- {\vec{z}}_{u} \cdot {\vec{z}}_{v_{n}}))$
其中：
- $v$ $u$ $l$ 的 random walk 上共现的节点。
- sigmoid(.) 为sigmoid 函数。
- $P_n(\cdot)$ $v_n$ negative node $Q$ 为负采样的样本数。
重要的是，与之前的 embedding 方法不同，GraphSAGErepresentation $\mathbf{\vec z}_u$ 是从节点局部邻域中包含的特征而生成的，而不是通过 embedding look-up 而生成的。
可以看到，GraphSAGE 和 DeepWalk 类似，也依赖于图上的随机游走过程。为了提高训练效率，通常在训练之前执行一次随机游走过程（避免在训练的每轮迭代中进行随机游走）。
以无监督方式学到的节点 embedding 可以作为通用 service 来服务于下游的机器学习任务。但是如果仅在特定的任务上应用，则可以简单地将特定于任务的监督学习损失替代或增强原始的无监督损失。
通过结合监督损失和无监督损失，那么可以同时利用 labeled 数据和 unlabeled 数据，即半监督学习。

8.1.3 聚合函数

和网格型数据（如文本、图像）不同，图的节点之间没有任何顺序关系，因此算法中的聚合函数必须能够在无序的节点集合上运行。理想的聚合函数是对称的，同时可训练并保持较高的表达能力。这种对称性可以确保我们的神经网络模型可以用于任意顺序的节点邻域的训练和测试。
对称性是指：对于给定的一组节点集合，无论它们以何种顺序输入到聚合函数，聚合后的输出结果不变。
聚合函数有多种形式，我们检查了三种主要的聚合函数：均值聚合函数mean aggregator、LSTM聚合函数LSTM aggregator 、池化聚合函数 pooling aggregator。
mean aggregator：简单的使用邻域节点的特征向量的逐元素均值来作为聚合结果。这几乎等价于直推式 GCN 框架中的卷积传播规则。
具体而言，如果我们将前向传播：
$\begin{matrix} {\vec{h}}_{N (v)}^{(k - 1)} = {AGG}_{k} ({{\vec{h}}_{u}^{(k - 1)} ∣ u \in N (v)}) \\ {\vec{h}}_{v}^{(k)} = σ (W^{(k)} concat ({\vec{h}}_{v}^{(k - 1)}, {\vec{h}}_{N (v)}^{(k - 1)})) \end{matrix}$
替换为：
${\vec{h}}_{v}^{(k)} = σ (W^{(k)} MEAN ({{\vec{h}}_{v}^{(k - 1)}} ⋃ {{\vec{h}}_{u}^{(k - 1)} ∣ u \in N (v)}))$
则这得到直推式 GCN 的一个 inductive 变种，我们称之为基于均值聚合的卷积 mean-based aggregator convolutional 。它是局部谱卷积localized spectral convolution的一个粗糙的线性近似。
GCN 的前向传播为：
$H^{(k)} = W^{(k)} ({\tilde{D}}^{- 1 / 2} \tilde{A} {\tilde{D}}^{- 1 / 2} H^{(k - 1)})$
$\tilde{\mathbf A} = \mathbf A + \mathbf I$ $\mathbf A$ $\tilde{\mathbf D}$ $\tilde{\mathbf A}$ 的 degree 矩阵。
因此有：
${\vec{h}}_{v}^{(k)} = σ (W^{(k)} MEAN ({{\vec{h}}_{v}^{(k - 1)}} ⋃ {{\vec{h}}_{u}^{(k - 1)} ∣ u \in N (v)}))$
GCN $\mathbf{\vec h}_v^{(0)}$ embedding look-up $\mathbf{\vec x}_v$ ）。
$\mathbf{\vec h}_v^{(k-1)}$ $\mathbf{\vec h}_{\mathcal N(v)}^{(k-1)}$ 拼接起来）。这种拼接操作可以视为 GraphSAGE 算法的不同 search depth （或 layer）之间的 skip connection 的一种简单形式，它可以显著提高性能。
事实上其它聚合器在拼接操作之后执行了带非线性激活函数的投影，因此破坏了这种 skip connection。是否修改为以下形式更好？
${\vec{h}}_{v}^{(k)} = {\vec{h}}_{v}^{(k - 1)} + σ (W^{(k)} {\vec{h}}_{N (v)}^{(k - 1)})$
LSTM aggregator ：和均值聚合相比，LSTM 具有更强大的表达能力。但是 LSTM 原生的是非对称的（即，LSTM 不是 permutation invariant 的），它依赖于节点的输入顺序。因此我们通过简单地将 LSTM 应用于邻域节点的随机排序，从而使得 LSTM 可以应用于无序的节点集合。
pooling aggregator ：池化聚合器是对称的、可训练的。在这种池化方法中，邻域每个节点的特征向量都通过全连接神经网络独立馈入，然后通过一个逐元素的最大池化来聚合邻域信息：
${\vec{h}}_{N (v)}^{(k - 1)} = max ({σ (W_{p o o l} {\vec{h}}_{u}^{(k - 1)} + {\vec{b}}_{p o o l}) ∣ u \in N (v)})$
其中 maxmax $\sigma(\cdot)$ 是非线性激活函数。
理论上可以在最大池化之前使用任意深度的多层感知机，但是我们这里专注于简单的单层网络结构。直观上看，可以将多层感知机视为一组函数，这组函数为邻域集合内的每个节点representation 计算特征。通过将最大池化应用到这些计算到的特征上，模型可以有效捕获邻域集合的不同方面 aspect。
理论上可以使用任何的对称向量函数（如逐元素均值）来替代 max 运算符。但是我们在实验中发现最大池化和均值池化之间没有显著差异，因此我们专注于最大池化。

8.1.4 理论分析

这里我们将探讨 GraphSAGE 的表达能力，以便深入了解 GraphSAGE 如何学习图结构，即使它本质上是基于特征的。作为案例研究，我们考虑 GraphSAGE 是否可以学习预测节点的聚类系数 clustering coefficient，即：在节点的 1-hop 邻域内，闭合的三角形占所有三角形（闭合的和未闭合的）的比例。聚类系数是衡量节点局部邻域聚类程度的常用指标，它可以作为许多更复杂的结构主题structural motif 的 building block。可以证明：GraphSAGE 算法能够将聚类系数逼近到任意精度。
$\mathbf{\vec x}_v\in \mathbb U,v\in \mathcal V$ GraphSAGE $\mathcal G=(\mathcal V,\mathcal E)$ $\mathbb U$ $\mathbb R^d$ compact subset $C\in \mathbb R^+$ $\left\|\mathbf{\vec x}_v - \mathbf{\vec x}_{v^\prime}\right\|_2\gt C$ pair $(v,v^\prime)$ $\epsilon \gt 0$ setting $\mathbf \Theta^*$ GraphSAGE $K=4$ 轮迭代之后有：
$| z_{v} - c_{v} | \leq ϵ, \forall v \in V$
$z_v\in \mathbb R$ 为 GraphSAGEfinal output $c_v$ 为节点的聚类系数。
注意，这里假设 output representation 是一维的。
上述定理指出：对于任意的图，GraphSAGE 算法都存在一个参数 setting，如果每个每个节点的特征都是不同的（并且如果模型足够高维），那么算法可以将图的聚类系数逼近到任意精度。证明见原始论文。
注意：作为该定理的推论，GraphSAGE 可以了解局部图结构，即使节点特征输入是从连续随机分布中采样的（因此特征输入与图结构无关）。
证明背后的基本思想是：如果每个节点都有一个 unique 的特征，那么我们可以学习将节点映射到 indicator 向量并识别节点邻域。定理的证明依赖于池化聚合器的一些属性，这也提供了为什么 GraphSAGE-pool 优于 GCN 、以及 mean-based 聚合器的洞察。

8.2 实验

我们在三个 benchmark 任务上检验 GraphSAGE 的效果：Web of Science Citation 数据集的论文分类任务、Reddit 数据集的帖子分类任务、PPI 数据集的蛋白质分类任务。
前两个数据集是对训练期间unseen 的节点进行预测，最后一个数据集是对训练期间unseen 的图进行预测。
数据集：
- Web of Science Cor Collection 数据集：包含 2000 年到 2005 年六个生物学相关领域的所有论文，每篇论文属于六种主题类别之一。数据集包含 302424 个节点，节点的平均degree 为 9.15 。其中：
  - Immunology 免疫学的标签为NI，节点数量 77356 。
  - Ecology 生态学的标签为 GU，节点数量 37935 。
  - Biophysics 生物物理学的标签为DA，节点数量 36688 。
  - Endocrinology and Metabolism 内分泌与代谢的标签为 IA ，节点数量 52225 。
  - Cell Biology 细胞生物学的标签为 DR，节点数量84231。
  - Biology(other) 生物学其它的标签为 CU，节点数量 13988 。
  任务目标是预测论文主题的类别。我们根据 2000-2004 年的数据来训练所有算法，并用 2005 年的数据进行进行测试（其中 30% 用于验证）。
  我们使用节点degree 和文章的摘要作为节点的特征，其中节点摘要根据Arora 等人的方法使用 sentence embedding 方法来处理文章的摘要，并使用Gensim word2vec 的实现来训练了300 维的词向量。
- Reddit 数据集：包含2014 年 9 月Reddit 上发布帖子的一个大型图数据集，节点标签为帖子所属的社区。我们采样了 50 个大型社区，并构建一个帖子到帖子的图。如果一个用户同时在两个帖子上发表评论，则这两个帖子将链接起来。数据集包含 232965 个节点，节点的平均degree 为 492 。
  为了对社区进行采样，我们按照每个社区在 2014 年的评论总数对社区进行排名，并选择排名在 [11,50]（包含）的社区。我们忽略了最大的那些社区，因为它们是大型的、通用的默认社区，会严重扭曲类别的分布。我们选择这些社区上定义的最大连通图largest connected component 。
  任务的目标是预测帖子的社区community。我们将该月前20 天用于训练，剩下的天数作为测试（其中 30% 用于验证）。
  我们使用帖子的以下特征：标题的平均embedding、所有评论的平均 embedding、帖子评分、帖子评论数。其中embedding 直接使用现有的 300 维的 GloVe CommonCral 词向量，而不是在所有帖子中重新训练。
- PPI 数据集：包含Molecular Signatures Dataset 中的图，每个图对应于不同的人类组织，节点标签采用gene ontology sets ，一共121 种标签。平均每个图包含 2373 个节点，所有节点的平均 degree 为 28.8 。
  任务的目的是评估模型的跨图泛化的能力。我们在 20 个随机选择的图上进行训练、2 个图进行验证、 2 个图进行测试。其中训练集中每个图至少有 15000 条边，验证集和测试集中每个图都至少包含 35000 条边。注意：对于所有的实验，验证集和测试集是固定选择的，训练集是随机选择的。我们最后给出测试图上的 micro-F1 指标。
  我们使用positional gene sets、motif gene sets 以及 immunological signatures 作为节点特征。我们选择至少在 10% 的蛋白质上出现过的特征，低于该比例的特征不被采纳。最终节点特征非常稀疏，有 42% 的节点没有非零特征（即，42% 的节点的特征全是空的），这使得节点之间的链接非常重要。
Baseline 模型：
- 随机分类器。
- 基于节点特征的逻辑回归分类器（完全忽略图的结构信息）。
- 代表因子分解方法的 DeepWalk 算法+逻辑回归分类器（完全忽略节点的特征）。
- 拼接了 DeepWalk 的 embedding 以及节点特征的方法（融合图的节点特征和结构特征）。
我们使用了不同聚合函数的 GraphSAGE 的四个变体。由于卷积的变体是 GCN 的 inductive 扩展，因此我们称其为 GraphSAGE-GCN 。
我们使用了 GraphSAGE 的无监督版本，也直接使用分类交叉熵作为损失的有监督版本。
模型配置：
- GrahSage：
  - 所有GraphSAGE 模型都在 Tensorflow 中使用 Adam 优化器实现，而 DeepWalk 在普通的随机梯度优化器中表现更好。
  - 为防止 GraphSAGE 聚合函数的效果比较时出现意外的超参数hacking，我们对所有 GraphSAGE 版本进行了相同的超参数配置：根据验证集的性能为每个版本提供最佳配置。
  - GraphSAGE $K=2$ $S_1=25, S_2= 10$ 。
  - 对于所有的 GraphSAGE ，我们对每个节点执行以该节点开始的 50 轮长度为 5 的随机游走序列，从而得到pair 节点对。我们的随机游走序列生成完全基于 Python 代码实现。
  - 由于节点 degree 分布的长尾效应，我们将 GraphSAGE 算法中所有图的边执行降采样预处理。经过降采样之后，使得没有任何节点的 degree 超过 128 。由于我们每个节点最多采样 25 个邻居，因此这是一个合理的权衡。
- 为公平比较，所有模型都采样相同的 mini-batch 迭代器、损失函数（当然监督损失和无监督损失不同）、邻域采样器。
- 对于原生特征模型，以及基于无监督模型的 embedding 进行预测时，我们使用 scikit-learn 中的 SGDClassifier 逻辑回归分类器，并使用默认配置。
- 在所有配置中，我们都对学习率和模型的维度以及batch-size 等等进行超参数选择：
  - DeepWalk $\{0.01,0.001,0.0001\}$ $\{2\times 10^{-6},2\times 10^{-7},2\times 10^{-8}\}$ 。
    最初实验表明 DeepWalkDeepWalk $\{0.2,0.4,0.8\}$ 。
  - 我们测试了每个GraphSAGE模型的big 版本和 small 版本。
    - 对于池化聚合函数，big 模型的池化层维度为 1024，small 模型的池化层维度为 512 。
    - 对于 LSTM 聚合函数，big 模型的隐层维度为 256，small 模型的隐层维度为 128 。
    注意，这里设置的是聚合器的维度，而不是 hidden representation 的维度。
  - GraphSAGE $\mathbf{\vec h}_i^{(k)}$ 的维度设置为 256。
  - 所有的 GraphSAGE 以及 DeepWalk 的非线性激活函数为 ReLU 。
  - 对于无监督 GraphSAGE 和 DeepWalk 模型，我们使用 20 个负采样的样本，并且使用 0.75 的平滑参数对节点的degree 进行上下文分布平滑。
  - 对于监督 GraphSAGE，我们为每个模型运行 10 个 epoch 。
  - 我们对 GraphSAGE 选择 batch-size = 512。对于 DeepWalk 我们使用 batch-size=64，因为我们发现这个较小的 batch-size 收敛速度更快。
硬件配置：
- DeepWalk 在CPU 密集型机器上速度更快，它的硬件参数为 144 core 的 Intel Xeon CPU(E7-8890 V3 @ 2.50 GHz) ，2T 内存。
- 其它模型在单台机器上实验，该机器具有 4 个 NVIDIA Titan X Pascal GPU( 12 Gb 显存, 10Gbps 访问速度)， 16 core 的Intel Xeon CPU(E5-2623 v4 @ 2.60GHz)，以及 256 Gb 内存。
所有实验在共享资源环境下大约进行了3 天。我们预期在消费级的单 GPU 机器上（如配备了 Titan X GPU ）的全部资源专用，可以在 4 到 7 天完成所有实验。
DeepWalk 测试阶段：
- 对于 Reddit 和引文数据集，我们按照 Perozzi 等人的描述对 DeepWalk 执行 oneline 训练。对于新的测试节点，我们进行了新一轮的 SGD 优化，从而得到新节点的 embedding 。
  现有的 DeepWalk 实现仅仅是 word2vec 代码的封装，它难以支持 embedding 新节点以及其它变体。这里我们根据 tensorflow 中的官方 word2vec 教程实现了 DeepWalk 。为了得到新节点的 embedding，我们在保持已有节点的 embedding 不变的情况下，对每个新的节点执行 50 个长度为 5 的随机游走序列，然后更新新节点的 embedding 。
  我们还测试了两种变体：一种是将采样的随机游走“上下文节点”限制为仅来自已经训练过的旧节点集合，这可以缓解统计漂移；另一种是没有该限制。我们总数选择性能最强的那个。
  尽管 DeepWalk 在 inductive 任务上的表现很差，但是在 transductive 环境下测试时它表现出更强的竞争力。因为在该环境下 DeepWalk 可以在单个固定的图上进行持续的训练。我们观察到在 inductive 环境下 DeepWalk 的性能可以通过进一步的训练来提高。并且在某种情况下，如果让它比其它方法运行的时间长 1000 倍，则它能够达到与无监督 GraphSAGE （而不是有监督 GraphSAGE ）差不多的性能。但是我们不认为这种比较对于 inductive 是有意义的。
- 在 PPI 数据集中我们无法应用 DeepWalk，因为在不同的、不相交的图上运行 DeepWalk 算法生成的 embedding 空间可以相对于彼此任意旋转。参考最后一小节的证明。
GraphSAGE 及 baseline 在这三个任务上的表现如下表所示。这里给出的是测试集上的 micro-F1 指标，对于 macro-F1 结果也有类似的趋势。其中 Unsup 表示无监督学习，Sup 表示监督学习。
- GraphSAGE 的性能明显优于所有的 baseline 模型。
- 根据 GraphSAGE 不同版本可以看到：与GCN 聚合方式相比，可训练的神经网络聚合函数具有明显的优势。
  注意，这里的 GraphSAGE-mean 是将 GraphSAGE-pool 的 max 函数替换为 mean 得到。
- 尽管LSTM 这种聚合函数是为有序数据进行设计而不是为无序 set 准备的，但是通过随机排列的方式，它仍然表现出出色的性能。
- 和监督版本的 GraphSAGE 相比，无监督 GraphSAGE 版本的性能具有相当竞争力。这表明我们的框架无需特定于具体任务就可以实现强大的性能。
通过在 Reddit 数据集上不同模型的训练和测试的运行时间如下表所示，其中 batch size = 512，测试集包含 79534 个节点。可以看到：
- 这些方法的训练时间相差无几，其中 GraphSAGE-LSTM 最慢。
- 除了 DeepWalk 之外，其它方法的测试时间也相差无几。由于 DeepWalk 需要采样新的随机游走序列，并运行多轮SGD 随机梯度下降来生成unseen 节点的 embedding，这使得 DeepWalk 在测试期间慢了 100~500 倍。
GraphSAGE $K=1$ $K=2$ 10%~15% $K$ 增加到 2 以上时会导致性能的回报较低（0~5%），但是运行时间增加到夸张的 10~100 倍，具体取决于采样邻域的大小。
另外，随着采样邻域大小逐渐增加，模型获得的收益递减。因此，尽管对邻域的采样引起了更高的方差，但是 GraphSAGEGraphSAGE-mean $K=2$ $S_1=S_2$ 。
总体而言我们发现就平均性能和超参数而言，基于 LSTM 聚合函数和池化聚合函数的表现最好。为了定量的刻画这种比较优势，我们将三个数据集、监督学习/无监督学习两种方式一共六种配置作为实验，然后使用 Wilcoxon Signed-Rank Test 来量化不同模型的性能。
结论：
- 基于 LSTM 聚合函数和池化聚合函数的效果确实最好。
- 基于LSTM 聚合函数的效果和基于池化聚合函数的效果相差无几，但是由于 GraphSAGE-LSTM 比 GraphSAGE-pool 慢得多（大约2 倍），这使得基于池化的聚合函数总体上略有优势。

8.3 DeepWalk Embedding 旋转不变性

DeepWalk,node2vec 以及其它类似的 node embedding 方法的目标函数都有类似的形式：
$L = α \sum_{i, j \in A} f ({\vec{z}}_{i} \cdot {\vec{z}}_{j}) + β \sum_{i, j \in B} f ({\vec{z}}_{i} \cdot {\vec{z}}_{j})$
其中：
- $f(\cdot),g(\cdot)$ 为平滑、连续的函数。
- $\mathbf{\vec z}_i$ 为直接优化的 node embedding （通过 embedding 的 look up 得到）。
- $\mathcal A,\mathcal B$ 为满足某些条件的节点 pair 对。
$\mathbf Z^\top\mathbf Z \simeq \mathbf M \in \mathbb R^{|\mathcal V|\times |\mathcal V|}$ ，其中：
- $\mathbf Z\in \mathbb R^{d\times |\mathcal V|}$ 的每一列代表一个节点的 embedding 。
- $\mathbf M\in \mathbb R^{|\mathcal V|\times |\mathcal V|}$ 是一个包含某些随机游走统计量的矩阵。
这类方法的一个重要结果是：embedding 可以通过任意单位正交矩阵变换，从而不影响矩阵分解：
${(Q^{⊤} Z)}^{⊤} (Q^{⊤} Z) = Z^{⊤} Q Q^{⊤} Z = Z^{⊤} Z ≃ M$
$\mathbf Q\in \mathbb R^{d\times d}$ 为任意单位正交矩阵。所以整个embedding 空间在训练过程中可以自由旋转。
embedding 矩阵可以在 embedding 空间可以自由旋转带来两个明显后果：
- 如果我们在两个单独的图 AB $\mathcal L$ 来训练 embedding 方法，如果没有一些明确的惩罚机制来强制两个图的节点对齐，则两个图学到的 embedding 空间将相对于彼此可以任意旋转。因此，对于在图 A 的节点 embedding 上训练的任何节点分类模型，如果直接灌入图 B 的节点 embedding ，这这等效于对该分类模型灌入随机数据。
  如果我们有办法在图之间对齐节点，从而在图之间共享信息，则可以缓解该问题。研究如何对齐是未来的方向，但是对齐过程不可避免地在新数据集上运行缓慢。
  而 GraphSAGE 完全无需做额外地节点对齐，它可以简单地为新节点生成 embedding 信息。
- $t$ A $\mathcal L$ 来训练 embeddingembedding $t+1$ ，图 A 添加了一批新的节点，并通过运行新一轮的随机梯度下降来更新所有节点的 embedding ，则这会导致两个问题：
  - 首先，类似于上面提到的第一点，如果新节点仅连接到少量的旧节点，则新节点的 embedding 空间实际上可以相对于原始节点的 embedding 空间任意旋转。
  - 其次，如果我们在训练过程中更新所有节点的 embedding，则相比于我们训练分类模型所依赖的原始 embedding 空间相比，我们新的 embedding 空间可以任意旋转。
这类embedding 空间旋转问题对于依赖成对节点距离的任务（如通过 embedding 的点积来预测链接）没有影响。
因为不管 embedding 空间怎么旋转，节点之间的距离不变（如通过内积的距离，或通过欧式距离的距离）。
缓解这类统计漂移问题（即embedding 空间旋转）的一些方法为：
- 为新节点训练 embedding 时，不要更新已经训练的 embedding 。
- 在采样的随机游走序列中，仅保留旧节点为上下文节点，从而确保 skip-gram 目标函数中的每个点积操作都是一个旧节点和一个新节点。
我们尝试了这两种方式，并始终选择效果最好的 DeepWalk 变体。
从经验来讲，DeepWalk 在引文网络上的效果要比 Reddit 网络更好。因为和引文网络相比，Reddit 的这种统计漂移更为严重：Reddit 数据集中，从测试集链接到训练集的边更少。在引文网络中，测试集有 96% 的新节点链接到训练集；在 Reddit 数据集中，测试集只有 73% 的新节点链接到训练集。

九、GAT[2017]

卷积神经网络Convolutional Neural Network: CNN 已经成功应用于图像分类、语义分割以及机器翻译之类的问题，其底层数据结构为网格状结构grid-like structure 。这些架构通过将它们应用于所有的 input position 从而有效地 reuse 具有可学习参数的局部滤波器 local filter 。
然而，许多人们感兴趣的任务涉及的数据无法以网格状结构来表达，而是位于不规则域irregular domain 。例如，3D mesh、社交网络、电信网络、生物网络、脑连接组brain connectome 等等。这些数据通常可以通过 graph 的形式来表达。
有一些文献尝试扩展神经网络从而处理任意结构的图。
- 早期的工作使用递归神经网络 recursive neural network: RNN 来处理 graph domain 中表示为有向无环图的数据。
- 《A new model for learning in graph domains》 和 《The graph neural network model》 提出了图神经网络 Graph Neural Network: GNN 作为 RNN 的泛化，从而可以直接处理更通用的 graph 类型，如：循环图、有向图、无向图。
  GNN 包含一个迭代过程，该迭代过程传播节点状态直到达到平衡。然后是一个神经网络，它根据每个节点的状态为每个节点生成一个输出。
- 这个思想被 《Gated graph sequence neural networks》 所采纳和改进，该方法提出在传播过程中使用门控循环单元 gated recurrent unit: GRU 。
然而，人们将卷积推广到 graph domain 的兴趣越来越大。这个方向的进展通常分为谱方法 spectral approach 和非谱方法 non-spectral approach 。
- 一方面，谱方法与图的谱表示 spectral representation 一起工作，并已成功应用于节点分类的 context 中。
  - 在 《Spectral networks and locallyconnected networks on graphs》 中，卷积运算是通过计算图拉普拉斯矩阵graph Laplacian 的特征分解eigen decomposition从而在傅里叶域 Fourier domain中定义的，这导致潜在的稠密计算以及非空间局部化的滤波器 non-spatially localized filter 。这些问题在随后的工作中得到解决。
  - 《Deep convolutional networks on graph-structured data》 引入了具有平滑系数的谱滤波器spectral filter的参数化parameterization，使得滤波器在空间上局部化。
  - 后来，《Convolutional neural networks on graphs with fast localized spectral filtering》 提出通过图拉普拉斯矩阵的切比雪夫展开来近似滤波器，从而无需计算图拉普拉斯矩阵的特征向量从而生成空间局部化的滤波器。
  - 最后，《Semi-supervised classification with graph convolutional networks》 通过限制滤波器仅操作每个节点周围的 1-step 邻域内来简化之前的方法。
  然而，在所有上述谱方法中，学到的滤波器依赖于拉普拉斯矩阵的特征基Laplacian eigenbasis ，而这个特征基依赖于图结构。因此，在特定图结构上训练的模型无法直接应用于具有不同结构的其它的图。
- 另一方面，我们有非谱方法，该方法直接在图上定义卷积从而操作空间近邻的节点集合。这些方法的挑战之一是：定义一个与不同规模的邻域一起工作，并能保持 CNN 的权重共享属性的算子。
  - 在某些情况下，这需要为每个节点 degree 学习一个特定的权重矩阵（《Convolutional networks on graphs for learning molecular fingerprints》），或者需要使用转移矩阵transition matrix 的幂来定义邻域并同时针对每个输入通道和邻域 degree 来学习权重（《Diffusion-convolutional neural networks》），或者需要抽取和归一化邻域从而包含固定数量节点（《Learning convolutional neural networksfor graphs》）。
  - 《Geometric deep learning on graphs and manifolds using mixture model cnns》 提出了 mixture model CNN （MoNet），这是一种空间方法，可以将 CNN 架构统一泛化到图。
  - 最近，《representation learning on largegraphs》 提出了 GraphSAGE，这是一种以归纳式的方式计算 node representation 的方法。该技术通过对每个节点采样固定尺寸邻域，然后该邻域执行特定的聚合器（如，均值池化聚合器，或 LSTM 聚合器）。GraphSAGE 在多个大规模归纳式 benchmark 中取得了令人印象深刻的性能。
    GAT 无需对邻域进行采样，能够处理可变邻域。
在许多 sequence-based 任务中，注意力机制几乎已经成为事实上的标准。注意力机制的好处之一是：注意力机制允许处理可变尺寸的输入，并聚焦于输入中最相关的部分从而作出决策。当使用注意力机制来计算单个序列的 representation 时，它通常被称作 self-attention 或 intra-attention 。与 RNN 或卷积一起，self-attention 已被证明对机器阅读、sentence representation 学习等任务很有用。而且，《Attention is all you need》 表明：self-attention 不仅可以改进基于 RNN 或卷积的方法，而且足以构建一个强大的模型并且在机器翻译任务上获得 state-of-the-art 的性能。
受最近这项工作的启发，论文《GRAPH ATTENTION NETWORKS》 引入了一种 attention-based 架构来执行图结构数据的节点分类。基本思想是：遵从 self-attention 策略，可以通过 attend 节点的邻居来计算图中每个节点的 hidden representation 。注意力架构有几个有趣的特性：
- 操作是高效的，因为它可以跨 node-neighbor pair 进行并行化。
- self-attention 通过给邻居赋予可学习的、任意的权重，从而可以应用于具有不同 degree 的图节点。
- 该模型直接适用于归纳式的学习问题，包括模型必须泛化到完全 unseen 的图的任务。
作者在四个具有挑战性的 benchmark 上验证了所提出的方法，实现或接近 state-of-the-art 的结果。实验结果凸显了 attention-based 模型在处理任意结构的图时的潜力。
注：inductive learning 和 transductive learning的区别：
- inductive learning 是从具体样本中总结普适性规律，然后泛化到训练中 unseen 的样本。
- transductive learning 是从具体样本中总结具体性规律，它用于预测训练集中已经出现过的unlabelled 样本，常用于半监督学习。
相关工作：
- 正如 《Semi-supervised classification with graph convolutional networks》 和 《Diffusion-convolutional neural networks》 一样，我们的工作也可以重新表述为 MoNet 的一个特定实例。
- 此外，我们跨 edge 共享神经网络计算neural network computation 的方法让人联想起关系网络relational network （《A simple neural network module for relational reasoning》）和 VAIN （《Vain: Attentional multi-agent predictive modeling》）的公式，其中 object 或 agent 之间的relation 是通过采用一种共享机制来 pair-wise 聚合的。
- 同样地，我们提出的注意力模型可以与 《One-shot imitation learning》 和 《Programmable agents》 等工作联系起来，它们使用邻域注意力操作neighborhood attention operation来计算环境中不同对象之间的注意力系数。
- 其它相关方法包括局部线性嵌入 locally linear embedding: LLE、记忆网络 memory network 。
  - LLE 在每个 data point 周围选择固定数量的邻居，并为每个邻居学习一个权重系数，从而将每个 point 重构为其邻居的加权和。然后第二步优化是抽取 point 的 feature embedding 。
  - memory network也与我们的工作有一些联系。具体而言，如果我们将节点的邻域解释为 memory，那么该 memory 被用于通过 attend memory 的 values 来计算 node feature （READ 过程），然后通过将新的特征存储在 node 对应的位置从而进行更新（WRITE 过程）。

9.1 模型

这里我们介绍用于构建任意 graph attention network: GAT 的 building block layer（通过堆叠该层），即 graph attentional layer: GAL 。然后我们概述与神经图处理neural graph processing 领域的先前工作相比，这种 layer 的理论和实践上的优势和局限性。

9.1.1 Graph Attentional Layer

我们将从描述单个 graph attentional layer: GAL 开始，其中GAL 作为我们实验中使用的 GAT 架构中使用的唯一一种 layer 。我们使用的特定的 attentional setup 与 《Neural machine translation by jointly learning to align and translate》 的工作密切相关，但是 GAT 框架与注意力机制的特定选择无关。
GAL $\mathbb H= \left\{\mathbf{\vec h}_1,\cdots,\mathbf{\vec h}_N\right\} ,\mathbf{\vec h}_i\in \mathbb R^F$ $N$ $F$ 为节点的representation 维度。GALrepresentation $\mathbb H^\prime = \left\{\mathbf{\vec h}_1^\prime,\cdots,\mathbf{\vec h}_N^\prime\right\},\quad \mathbf{\vec h}_i^\prime\in \mathbb R^{F^\prime}$ $F^\prime$ representation $F$ 不同）。
为了获得足够的表达能力expressive power 从而将 input feature 转化为 higher-level featurestep $\mathbf W \in \mathbb R^{F^\prime \times F}$ self-attention $a$ attentional mechanism $\mathbb R^{F^\prime }\times \mathbb R^{F^\prime} \rightarrow \mathbb R$ ，来计算attention 系数：
$e_{i, j} = a (W {\vec{h}}_{i}, W {\vec{h}}_{j})$
$e_{i,j}$ $j$ $i$ 的重要性。
理论上讲，我们允许每个节点关注图中所有其它的节点，因此这可以完全忽略所有的图结构信息。实际上，我们采用 masked attentionattention $i$ attention $e_{i,j},j\in \mathcal N_i$ $\mathcal N_i$ $i$ $\mathcal N$ $i$ 在内）。
$\mathcal N_i$ $i$ $e_{i,i}$ 。
softmax $j$ 进行归一化：
$α_{i, j} = {softmax}_{j} (e_{i, j}) = \frac{\exp (e_{i, j})}{\sum_{k \in N_{i}} \exp (e_{i, k})}$
$a$ $\mathbf{\vec a}\in \mathbb R^{2F^\prime}$ LeakyReLU $\beta = 0.2$ 。完全展开后，注意力机制计算的系数可以表示为（如下图所示）：
$α_{i, j} = {softmax}_{j} (e_{i, j}) = \frac{\exp (LeakyReLU (\vec{a} \cdot [W {\vec{h}}_{i} | | W {\vec{h}}_{j}]))}{\sum_{k \in N_{i}} \exp (LeakyReLU (\vec{a} \cdot [W {\vec{h}}_{i} | | W {\vec{h}}_{k}])))}$
$||$ 表示向量拼接操作。
$i$ query $\mathcal N_i$ 内节点作为 keyquery $i$ 的representation 和每个 key 的 representation 进行拼接。
一旦得到归一化的注意力得分，我们就可以用它对相应的邻居节点的特征进行加权线性组合，从而得到每个节点的final output feature：
${\vec{h}}_{i}^{'} = σ (\sum_{j \in N_{i}} α_{i, j} W {\vec{h}}_{j})$
$\mathbf W\in \mathbb R^{F^\prime \times F}$ ，它就是前面计算注意力得分的矩阵。
$\mathbf W$ ，此时模型容量会得到进一步提升。
我们使用 multi-head attentionself-attention $K$ 个 head，然后将它们的输出拼接在一起：
$\begin{matrix} {\vec{h}}_{i}^{' (1)} = σ (\sum_{j \in N_{i}} α_{i, j}^{(1)} W^{(1)} {\vec{h}}_{j}) \\ ⋮ \\ {\vec{h}}_{i}^{' (K)} = σ (\sum_{j \in N_{i}} α_{i, j}^{(K)} W^{(K)} {\vec{h}}_{j}) \\ {\vec{h}}_{i}^{'} = [{\vec{h}}_{i}^{' (1)} | | \dots | | {\vec{h}}_{i}^{' (K)}] \end{matrix}$
其中：
- $\alpha_{i,j}^{(k)}$ $k$ 个head 的归一化的注意力得分。
- $\mathbf W^{(k)}$ $k$ 个 head 的权重矩阵。
$\mathbf{\vec h}^\prime$ $KF^\prime$ $F^\prime$ ）。
但是，如果 GAL 是网络最后一层（即输出层），我们对 multi-head 的输出不再进行拼接，而是直接取平均，因为拼接没有意义。同时我们延迟使用最后的非线性层，对分类问题通常是 softmax 或者 sigmoid ：
${\vec{h}}_{i}^{'} = σ (\frac{1}{K} \sum_{k = 1}^{K} \sum_{j \in N_{i}} α_{i, j}^{(k)} W^{(k)} {\vec{h}}_{j})$
GAL $K=8$ 个 attention head 。
multi head = 3 $i=1$ 。不同颜色的箭头表示不同的 head 。

9.1.2 和相关工作的比较

GAL 解决了现有的、基于神经网络对图结构数据建模的方法的问题。
- GAL 计算高效：
  - self-attentional layer 的操作可以跨所有 edge 并行化，输出特征的计算可以跨所有节点并行化。
    self-attention $e_{i,j}$ 的操作可以并行化。不同节点之间计算 self-attention 也可以并行化。
  - 不需要特征分解eigen decomposition或类似的昂贵矩阵计算。
  - attention head $F^\prime$ $O(|V|\times F\times F^\prime + |E|\times F^\prime)$ $F$ $|V|$ $|E|$ 为图中边的数量。这种复杂度和一些baseline 方法（如 GCN ）差不多。
    - $\mathbf W \mathbf{\vec h}_i$ $O(|V|\times F\times F^\prime)$ 。
    - $\mathbf{\vec a}\cdot [\mathbf W\mathbf{\vec h}_i,\mathbf W\mathbf{\vec h}_j]$ $O(|E|\times F^\prime)$ 。
    - $\alpha_{i,j}$ $O(|V|\times \bar d)$ $\bar d = \frac{|E|}{|V|}$ degree $\alpha_{i,j}$ $O(|E|)$ 。
    $|V|\times F\times F^\prime + |E| \times F^\prime$ 。
  - multi-head attention $K$ 倍，而各个 head 的计算是完全独立的并且可以并行化。
- GCN：和 GCN 相比，GAT 模型允许为同一个邻域内的节点分配不同的重要性，从而实现模型容量model capacity的飞跃。另外，和机器翻译领域一样，对学到的注意力权重进行分析可能会带来可解释性的好处。
- 注意力机制以共享的方式应用于图的所有边，因此它不需要预先得到整个图结构或者所有节点（这是许多现有技术的局限性）。这有几个理想的含义：
  - $j\rightarrow i$ $\alpha_{i,j}$ 。
  - GAT 可以直接应用到归纳式学习 inductinve learning ：模型可以预测那些在训练期间中 unseen 的图。
- GraphSAGE ：最近发表的归纳式方法 GraphSAGE 对每个节点采样固定大小的邻域，从而保持计算足迹 computational footprint的一致性。这使得模型无法在测试期间访问整个邻域。
  注意：由于训练期间训练多个 epoch，则 GraphSAGE 可能访问到节点的整个邻域。
  此外，当使用 LSTM-based 邻域集合器时，GraphSAGE 取得了一些最强的结果。LSTM 假设在邻域之间存在一致的节点排序，并且作者通过向 LSTM 持续地提供随机排序的序列来使用 LSTM 。
  GAT 没有这两个问题：GAT 作用在完整的邻域上，并且不假设邻域内有任何节点的排序。
  注意：虽然 GATmini-batch $\mathcal B$ $\mathcal B$ $v\in \mathcal B$ GAT $L$ $\mathcal B$ $L$ 阶邻域。
  如果使用完整的邻域，那么每个 mini-batch 所需要的节点可能就是整个大图。这对于大型图而言是无法接受的（空间复杂度太高）。
- MoNet：如前所述，GAT 可以重写表述为 MoNet 的特定实例。更具体而言：
  - pseudo-coordinate function $u\left(x,y\right) = f\left(x\right)|| f\left(y\right)$ $f\left(x\right)$ $x$ MLP $||$ 表示特征拼接。
  - $w_j(u) = \text{softmax}(\text{MLP}(u))$ ，在节点的整个邻域上执行 softmax 。
  此时，这种 MoNet 的补丁算子 patch operator 将类似于我们的方法。
  然而，应该注意的是：与这个 MoNet 实例相比，我们的模型使用节点特征来计算相似性，而不是节点的结构属性（假设预先知道图结构）。
我们可以使用一种利用稀疏矩阵操作的 GAL 层，它可以将空间复杂度下降到节点和边的线性复杂度，从而使得模型能够在更大的图数据集上运行。但是我们的 tensor 计算框架仅支持二阶tensor 的稀疏矩阵乘法，这限制了当前版本的 batch 处理能力，特别是在具有很多图的数据集上。解决该问题是未来一个重要的方向。另外，根据现有图结构的规律，在稀疏矩阵的情况下，GPU 的运算速度并不会比 CPU 快多少因此无法提供主要的性能优势。
还应该注意的是，我们模型的感受野 receptive field 的大小是网络深度的上限（类似于 GCN 或类似的模型）。然而，诸如 skip connection 之类的技术可以解决该问题，从而允许 GAT 使用更深的网络。
最后，跨图中所有 edge 的并行化，尤其是以分布式方式，可能会涉及大量冗余计算，因为图中邻域通常高度重叠。

9.1.3 未来工作

一些有待改进的点：
- 如何处理更大的 batch size 。
- 如何利用注意力机制对模型的可解释性进行彻底的分析。
- 如何执行graph-level 的分类，而不仅仅是node-level 的分类。
- 如何利用边的特征，而不仅仅是节点的特征。因为边可能蕴含了节点之间的关系，边的特征可能有助于解决各种各样的问题。

9.2 实验

9.2.1 Transductinve Learning

数据集：三个标准的引文网络数据集Cora, Citeseer,Pubmed。
每个节点表示一篇文章、边（无向）表示文章引用关系。每个节点的特征为文章的 BOW representation。每个节点有一个类别标签。
- Cora 数据集：包含2708 个节点、5429 条边、7 个类别，每个节点 1433 维特征。
- Citeseer 数据集：包含3327 个节点、4732 条边、6 个类别，每个节点 3703 维特征。
- Pubmed 数据集：包含19717 个节点、44338 条边、3 个类别，每个节点 500 维特征。
对每个数据集的每个类别，我们使用20 个带标签的节点来训练，然后在 1000 个测试节点上评估模型效果。我们使用额外的 500 个带标签节点作为验证集（与 GCN 论文中使用的相同）。
注意：训练算法可以利用所有节点的结构信息和特征信息，但是只能利用每个类别 20 个节点的标签信息。
Baseline 模型：
- 我们对比了论文 《Semi-supervised classification with graph convolutional networks》 中指定的相同的 baseline 。包括：标签传播模型label propagation: LP、半监督嵌入模型 semi-supervised embedding: SemiEmb、流型正则化模型 manifold regularization: ManiReg、基于SkipGram 的graph embeding 模型（如 DeepWalk）、迭代式分类算法模型 iterative classification algorithm: ICA ，Planetoid 模型。
- 我们也直接对比了 GCN模型、利用高阶切比雪夫的图卷积模型Chebyshev filter-based（《Convolutional neural networks on graphs with fast localized spectral filtering》）、以及 MoNet 模型。
- 我们还提供了每个节点共享 MLP 分类器的性能，该模型完全没有利用图的结构信息。
参数配置：
- 我们使用一个双层的 GAT 模型，它的架构超参数已经在 Cora 数据集上进行了优化，然后被 Citeseer 复用。
  - $K=8$ 个 attention headhead $F^\prime = 8$ 个特征，总计 64 个特征。第一层后面接一个exponential linear unit: ELU 非线性激活层。
  - attention head $C$ $C$ 为类别数量，然后使用 softmax 激活函数。
- 当处理小数据集时，我们在模型上施加正则化：
  - $L_2$ $\lambda = 0.0005$ 。
  - normalized attention coefficient $p=0.6$ （遗忘比例）的 dropout 。即每轮迭代时，每个节点需要随机采样邻居（因为有些邻居被 dropout 了）。
- 对于60 个样本的 Pubmd 数据集，我们需要对 GAT 架构进行微调：
  - $K=8$ 个 attention head ，而不是一个。
  - $L_2$ $\lambda = 0.001$ 。
  除此之外都和 Cora/Citeseer 的一样。
- 所有模型都采用 Glorot 初始化方式来初始化参数，优化目标为交叉熵，使用 Adam SGD 优化器来优化。初始化学习率为：Pubmed 数据集为 0.01，其它数据集为 0.005 。
  我们在所有任务上执行早停策略，在验证集上的交叉熵和accuracy 如果连续 100 个 epoch 没有改善，则停止训练。
我们报告了 GAT 随机执行 100 次实验的分类准确率的均值以及标准差，也使用了 GCN 和 Monet 报告的结果。
$K=2,K=3$ 阶过滤器的最佳结果。
我们进一步评估了 GCN 模型，其隐层为 64 维，同时尝试使用 ReLU 和 ELU 激活函数，并记录执行 100 次后效果最好的那个（实验表明 ReLU 在所有三个数据集上都最佳），记作 GCN-64* 。
结论：GAT 在 Cora 和 Citeseer 上超过 GCN 分别为 1.5%, 1.6% ，这表明为邻域内节点分配不同的权重是有利的。

9.2.2 Inductinve learning

数据集：protein-protein interaction: PPI 数据集，该数据集包含了人体不同组织的蛋白质的24 个图。其中20 个图为训练集、2 个图为验证集、2 个图为测试集。至关重要的是，这里测试的图在训练期间完全未被观测到。
我们使用 GraphSAGE 提供的预处理数据来构建图，每个图的平均节点数量为 2372 个，每个节点50 维特征，这些特征由 positional gene sets, motif gene sets, immunological signatures 组成。
从 Molecular Signatuers Database 收集到的gene ontology 有 121 种标签，这里每个节点可能同时属于多个标签。
Baseline 模型：我们对比了四个不同版本的监督 GraphSAGE 模型，它们提供了多种方法来聚合采样邻域内的节点特征：
- GraphSAGE-GCN：将图卷积方式的操作扩展到归纳式 setting 。
- GraphSAGE-mean：取特征向量的逐元素均值来聚合。
- GraphSAGE-LSTM：通过将邻域特征馈入 LSTM 来聚合。
- GraphSAGE-pool ：采用共享非线性多层感知机转换后的特征向量的逐元素最大池化来聚合。
剩下的 transductinve 方法要么完全不适用于inductive 的情形，要么无法应用于在训练期间完全看不到测试图的情形，如 PPI数据集。
我们还提供了每个节点共享 MLP 分类器的性能，该模型完全没有利用图的结构信息。
参数配置：
- 我们使用一个三层GAT 模型：
  - $K=4$ 个 attention headhead $F^\prime = 256$ 个特征，总计 1024 个特征。第一层后面接一个exponential linear unit:ELU 非线性激活层。
  - 第二层和第一层配置相同。
  - $K=6$ 个 attention head ，每个 head 得到 121 个特征。
    我们对所有 head 取平均，并后接一个 sigmoid 激活函数。
- $L_2$ 正则化或者 dropout 。
- 我们在 attention layer 之间应用 skip connection 。
- 训练的 batch size = 2 ，即每批2 个 graph 。
- attention $a(x,y) = 1$ ），其它结构不变。
- 所有模型都采用 Glorot 初始化方式来初始化参数，优化目标为交叉熵，使用 Adam SGD 优化器来优化。初始化学习率为：Pubmed 数据集为 0.01，其它数据集为 0.005 。
  我们在所有任务上执行早停策略，在验证集上的交叉熵和micro-F1 如果连续 100 个 epoch 没有改善，则停止训练。
我们报告了模型在测试集（两个从未见过的 Graph ）上的 micro-F1 得分。我们随机执行10 轮 “训练--测试”，并报告这十轮的均值。对于其它基准模型，我们使用 GraphSAGE 报告的结果。具体而言，由于我们的 setting 是有监督的，我们将与有监督的 GraphSAGE 方法进行比较。
为了评估聚合整个邻域的好处，我们进一步提供了GraphSAGE 架构的最佳结果，记作 GraphSAGE* 。这是通过一个三层GraphSAGE-LSTM 得到的，三层维度分别为 [512,512,726]，最终聚合的特征为 128 维。
最后，我们报告常数的注意力系数为 Const-GAT 的结果。
结论：
- GAT 在 PPI 数据集上相对于 GraphSAGE 的最佳效果还要提升 20.5% ，这表明我们的模型在inductive 任务中通过观察整个邻域可以获得更大的预测能力。
- 相比于 Const-GAT，我们的模型提升了 3.9%，这再次证明了为不同邻居分配不同权重的重要性。

注意：这里作者并未给出超参数研究的实验分析，包括：GAT 层数、multi-head 数量、是否使用 skip connection 等等。

9.2.3 可视化

学到的feature representation 也可以进行定性研究。为此，我们采用 t-SNE 对学到的特征进行可视化。我们对 Cora 数据集训练的 GAT 模型的第一层的输出进行可视化，该 representation 在投影到的二维空间中表现出明显的聚类。这些簇对应于数据集的七种类别，从而验证了模型的分类能力。
此外我们还可视化了归一化注意力系数的相对强度（在所有8 个 attention head 上的均值）。如何正确的解读这些系数需要有关该数据集的进一步的领域知识。
下图中：颜色表示节点类别，线条粗细代表归一化的注意力系数均值：
${line}_{i, j} = \frac{1}{K} \sum_{k = 1}^{K} α_{i, j}^{k} + α_{j, i}^{k}$

十、R-GCN[2017]

知识库 knowledge base 组织和存储事实知识 factual knowledge，支持包括问答question answering 和信息检索在内的多种应用。尽管在维护上投入了巨大的努力，即使是最大的知识库（如 DBPedia, Wikidata, Yago）仍然是不完整incomplete的，并且覆盖度coverage的缺失会损害下游应用application。预测知识库中的缺失信息是统计关系学习statistical relational learning: SRL 的主要关注点。
遵从之前关于 SRL 的工作，我们假设知识库存储形式为三元组(subject, predicate, object)的集合。例如，考虑三元组 (Mikhail Baryshnikov, educated at, Vaganova Academy)，我们将 Baryshnikov 和 Vaganova Academy 称作实体 entity，将 educated at 称作关系 relation 。此外，我们假设实体标有类型（如，Vaganova Academy 被标记为大学）。将知识库表示为有向的、带标签的 multigraph 很方便，其中实体对应于节点，而三元组被 labled edge 所编码。如下图所示，红色的标签以及边代表缺失信息，是需要我们推断的。。
考虑两个基本的 SRL 任务：链接预测（缺失三元组missing triple的恢复 recovery）、实体分类（为实体分配类型或离散属性）。在这两种情况下，许多缺失的信息都可以预期存在于通过邻域结构neighborhood structure编码的图中。例如，知道 Mikhail Baryshnikov 在 Vaganova Academy 接受教育，这同时意味着 Mikhail Baryshnikov 应该有标签 person、以及三元组 (Mikhail Baryshnikov, lived in, Russia) 必须属于知识图谱knowledge graph。遵循这个直觉，论文《Modeling Relational Data with Graph Convolutional Networks》为关系图relational graph 中的实体开发了一个编码器模型，并将其应用于这两个任务。
- 论文的实体分类模型与 GCN 类似，并在图中的每个节点处使用 softmax 分类器。分类器采用 relational graph convolutional network: R-GCN 提供的 node representation 来预测 label 。模型是通过优化交叉熵损失来学习的。
- 论文的链接预测模型可以被视为一个自编码器 autoencoder，它由一个 encoder 和一个 decoder 组成，其中：
  - encoder：一个 R-GCN，它用于产生实体的 latent feature representation。
  - decoder：一个张量分解模型，它利用这些实体的 representation 来预测 edge label 。尽管原则上任何类型的因子分解模型（或者任何评分函数）都可以作为解码器，但是这里作者使用最简单、最有效的因子分解方法：DistMult 。
作者观察到，论文的方法在标准 benchmark 上取得了有竞争力的结果，优于直接的因子分解模型（如普通的 DistMult）。当我们考虑更具挑战性的 FB15k-237 数据集时，这种改进尤其大。这些结果表明：在 R-GCN 中对邻域进行显式建模有利于恢复知识库中的 missing fact 。
论文的贡献如下：
- 首先，据作者所知，这是第一个证明 GCN 框架可以应用于建模关系数据relational data（尤其是链接预测和实体分类任务）的人。
- 其次，作者介绍了参数共享和强制稀疏约束enforce sparsity constraint的技术，并使用它们来将 R-GCN 应用于具有大量关系的 multigraph 。
- 最后，作者展示了分解模型（以 DistMult 为例）的性能可以通过使用编码器模型来显著提高，其中该编码器在关系图relational graph中执行多个信息传播 step 。
相关工作：
- 关系建模：我们用于链接预测的 encoder-decoder 方法依赖于解码器中的 DistMult ，这是 RESCAL 分解的一种特殊且更简单的情况，在 multi-relational knowledge base 的背景下比原始的 RESCAL 更高效。
  人们在 SRL 的背景下已经提出和研究了许多替代的分解模型，包括线性分解模型和非线性分解模型，其中许多方法可以被视为经典的张量分解方法（如 CP 或 Tucker）的修改或特殊情况。对于张量分解模型的全面综述，推荐阅读论文《Tensor decompositions and applications》 。
  合并实体之间的 path 到知识库中最近受到了相当大的关注。我们可以将先前的工作分为三个方向：
  - 创建辅助三元组auxiliary triple的方法，然后该方法将辅助三元组添加到分解模型的目标函数中。
  - 在预测 edge 时使用 path（或 walk）作为特征的方法。
  - 同时采用这两个方法。
  第一个方向在很大程度上与我们的方向正交，因为我们也预期通过向我们的损失函数中添加类似的项来改善（即，扩展我们的解码器）。
  第二个方向更具有可比性，R-GCN 为这些基于 path 的模型提供了一种计算成本更低的替代方案。直接比较有些复杂，因为 path-based 方法使用不同的数据集（如，来自知识库的 walk 的 sub-sampled 子集）。
- graph上的神经网络：我们的 R-GCN 编码器模型与 graph 上神经网络领域的许多工作密切相关。R-GCN 编码器的主要动机是：对先前的 GCN 工作的适配，使其适用于大规模和高度 multi-relational 的数据（这是真实世界知识库的特点）。
  该领域的早期工作包括 《The graph neural network model》 的 GNN 。人们后续对原始 GNN 提出了许多扩展，最值得注意的是 《Gated graph sequence neural networks》 和 《Column networks for collective classification》 ，它们都利用了门控机制来促进优化过程。
  R-GCN 可以进一步被视为消息传递神经网络（《Neural message passing for quantum chemistry》）的一个子集，基于可微的消息传递解释。其中，消息传递神经网络包含许多先前的、用于图的神经网络，包括 GCN 。

10.1 模型

定义一个有向directed、带标签 labeledmulti-graph $G=(V,E,\mathcal R)$ $V=\{v_1,v_2,\cdots,v_n\}$ $(v_i,r,v_j)\in E$ relation $r\in \mathcal R$ 代表关系类型。

10.1.1 R-GCN

我们的模型主要受到 GCN 所启发，并将基于局部图邻域local graph neighborhood 的 GCN 扩展到大规模的关系数据。
GCN 相关的方法（如图神经网络）可以理解为简单的、可微的消息传递框架：
${\vec{h}}_{i}^{(l + 1)} = σ (\sum_{m \in M_{i}} g_{m} ({\vec{h}}_{i}^{(l)}, {\vec{h}}_{j}^{(l)}))$
其中：
- $\mathbf{\vec h}_i^{(l)}\in \mathbb R^{d_l}$ $v_i$ $l$ $d_l$ 为对应的维度。
- $\mathcal M_i$ $v_i$ 的传入消息 incoming message的集合，它通常等于传入边incoming edge 的集合（即每条边代表一条消息）。
- $g_m(\cdot,\cdot)$ $g_m(\cdot,\cdot)$ message-specific $g_m(\mathbf{\vec h}_i,\mathbf{\vec h}_j) = \mathbf W \mathbf{\vec h}_j$ 。
- $\sigma(\cdot)$ 为激活函数。
事实证明，这类变换非常有效地从局部的、结构化邻域中累积和编码特征，并在诸如图形分类、图半监督学习领域带来显著改进。
受此类架构的影响，我们在 relational multi-graph 中定义了以下简单的消息传播模型：
${\vec{h}}_{i}^{(l + 1)} = σ (\sum_{r \in R} \sum_{j \in N_{i}^{r}} \frac{1}{c_{i, r}} W_{r}^{(l)} {\vec{h}}_{j}^{(l)} + W_{0}^{(l)} {\vec{h}}_{i}^{(l)})$
其中：
- $\mathcal N_i^r$ $v_i$ $r$ 下的邻居集合。
  representation $\mathbf{\vec h}_i^{(l+1)}$ 来聚合所有类型的关系。
- $c_{i,r}$ problem-specific $c_{i,r} = |\mathcal N_i^r|$ 。
  $c_{i,r}$ 可以通过 attention 机制来学习。
- $v_i$ $l$ $l+1$ $\mathbf W_0^{(l)} \mathbf{\vec h}_i^{(l)}$ 项），即 skip-connection 。
  $\mathbf{\vec h}_i^{(0)} = \mathbf{\vec x}_i$ 为节点的特征向量。如果节点没有特征向量，那么可以使用节点的 one-hot 编码（不需要引入 embedding layer，因为这种情况下图神经网络的第一层就是 embedding layer ）。
GCN $r$ $\mathbf W_r^{(l)}$ ，即取决于 edge 的类型和方向。
- 也可以选择更灵活的函数来替代这里简单的线性变换，如多层神经网络（但是计算代价会更高）。我们把它留待未来的工作。
- 上式在每个节点的每一层 layer 执行，实践中通常采用稀疏矩阵乘法来有效实现，从而避免对邻域进行显式求和。
- 可以堆叠多个层，从而允许跨多个关系链的依赖性。
我们将这个图编码器模型称作关系图卷积网络 R-GCN，R-GCN 模型中单个节点的更新计算图如下所示。红色节点为待更新的节点，蓝色节点为邻域节点。
我们首先收集来自不同类型的相邻节点以及自身的消息，对每种类型的消息在变换之后归一化求和得到绿色的 representation。最后将不同类型的representation 相加并通过激活函数，从而得到节点更新后的 representation 。
可以在整个图上共享参数，从而并行地计算每个节点的更新。
整个 R-GCN 模型就是堆叠大量的这种层，其中上一层的输出作为下一层的输入。如果实体没有特征，则可以将每个节点的 one-hot 作为第一层的输入。

10.1.2 正则化

如果关系类型数量非常庞大，则R-GCN 模型的参数数量爆炸性增长。实际上，这很容易导致模型对稀疏关系的过拟合，并且模型非常庞大。
为解决该问题，我们引入两种不同的方法来正则化 R-GCN ：basis-decomposition 基分解，以及 block-diagonal-decomposition 块对角分解。
- basis-decomposition $\mathbf W_r^{(l)}\in \mathbb R^{d_{l+1}\times d_l}$ 定义为：
  $W_{r}^{(l)} = \sum_{b = 1}^{B} a_{r, b}^{(l)} V_{b}^{(l)}$
  $\mathbf V_b^{(l)}\in \mathbb R^{d_{l+1}\times d_l}, b=1,2,\cdots,B$ $\mathbf W_r^{(l)}$ $a_{r,b}^{(l)}$ 。
  $b\ll r$ ，因此可以显著降低参数规模。
- block-diagonal-decomposition $\mathbf W_r^{(l)}$ 为一组低维矩阵的直接拼接：
  $\begin{matrix} W_{r}^{(l)} = [\begin{matrix} Q_{1, r}^{(l)} & 0 & 0 & \dots & 0 \\ 0 & Q_{2, r}^{(l)} & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & 0 & \dots & Q_{B, r}^{(l)} \end{matrix}] \end{matrix}$
  $\mathbf W_r^{(l)}$ $\mathbf Q_{b,r}^{(l)}\in \mathbb R^{\frac{d_{l+1}}{B}\times \frac{d_l}{B}}$ 。
基分解可以视为不同关系类型之间共享权重的一种方式；块对角分解可以视为每种关系类型权重矩阵的稀疏性约束。块分解结构认为：可以将潜在特征分组，使得组内的特征相比组外的特征更为紧密地耦合。
这两种分解都减少了高度 multi-relational 的数据（如知识库）所需要的参数数量。同时，我们期望基分解能够缓解稀疏关系的过拟合，因为稀疏关系和非稀疏关系共享基变换矩阵。
R-GCN $L$ 层，其中前一层的输出是下一层的输入。如果不存在节点特征，则可以将节点的 one-hot 编码作为模型的输入。
虽然我们在这项工作中仅考虑了这种无特征 featureless 的方法，但是我们注意到 GCN 的工作表明：这类模型可以使用预定义的特征向量（如，节点的描述文本的 bag-of-words）。

10.1.3 实体分类

R-GCN $L$ 层）的输出接入一个 softmax 层。我们最小化所有标记节点的交叉熵（忽略所有未标记节点）：
$L = - \sum_{v_{i} \in V_{y}} \sum_{k = 1}^{K} t_{i, k} \log h_{i, k}^{(L)}$
其中：
- $V_y$ 为标记节点的集合。
- $h_{i,k}^{(L)}$ $v_i$ $L$ $\mathbf{\vec h}_i^{(L)}$ $k$ 项。
- $t_{i,k}$ $v_i$ $\mathbf{\vec t}_i$ $k$ 项。
定义好目标函数之后，我们使用随机梯度下降来训练模型。
- $\mathbf{\vec h}_i^{(L)}$ 的过程中我们利用了全部节点（包括非标记节点），因此充分利用了图结构信息。
- 此外，我们还可以在目标函数中显式添加 LINE 算法之类的非监督损失，从而迫使相邻的节点具有相似的 embedding 。

10.1.4 链接预测

$(s,r,o)$ $f(s,r,o)$ $E$ 。
$(v_1,v_2)$ $r$ $r$ $\mathbf R_r$ 来解决的。
为解决该问题，我们引入一个图自编码器模型，该模型由一个节点编码器和一个评分函数（解码器）组成。
- $v_i\in V$ $\mathbf{\vec v}_i\in \mathbb R^d$ 。
- representation $f$ (subject, relation, object) $f: \mathbb R^d\times \mathcal R \times \mathbb R^d \rightarrow \mathbb R$ 。
$v_i\in V$ representation $\mathbf{\vec v}_i$ R-GCN $\mathbf{\vec v}_i = \mathbf{\vec h}_i^{(L)}$ 。
整体架构如下图所示。其中：
- 图 (a) 表示节点分类的 R-GCN 模型，每个节点具有一个损失函数。
- 图 b 表示链接预测模型，包含 R-GCN 编码器，以及 DistMult 作为解码器，每条边具有一个损失函数。
在链接预测任务中，我们使用 DistMult 因子分解作为解码器（评分函数），该方法独立地应用于标准链接预测 baseline 时表现良好。
DistMult $r$ $\mathbf R_r=\text{diag}(R_{r,1},\cdots,R_{r,d})\in \mathbb R^{d\times d}$ $(s,r,o)$ 的评分为：
$f (s, r, o) = {\vec{v}}_{s}^{⊤} R_{r} {\vec{v}}_{o}$
$\omega$ 条“负边”。对于每个“正边” 代表的三元组 (subject, predicate, object) ，我们通过随机选择不同的 subject 或者不同的 object 来采样。
我们选择交叉熵作为损失函数，目标是最大化“正边”概率、最小化“负边”概率：
$L = - \frac{1}{(1 + ω) | E |} \sum_{(s, r, o, y) \in T} [y \times \log ϕ (f (s, r, o)) + (1 - y) \times \log (1 - ϕ (f (s, r, o)))]$
其中：
- $\mathcal T$ $E$ 的超集）。
- $y$ $y=1$ $y=0$ 表示 “负边”。
- $\phi(\cdot)$ 为逻辑回归函数。

10.2 实验

10.2.1 实体分类

数据集：我们评估了四个数据集，它们以 Resource Description Framework: RDF 格式来描述。数据集中的关系不一定要编码为有向的 subject-object 关系，也可以编码为给定实体之间存在或者不存在某个指定的属性。
在每个数据集中，要分类的目标是一组实体的属性。我们删除了用于创建 label 的信息，如：AIFB 的雇员和从属关系、MUTAG 的 is Mutagenic 关系、BGS 的 hasLithogenesis 关系、AM 的 objectCategory 和 material 关系。
数据集的统计信息见下表，其中 Labeled 表示那些带标签的、用于分类的节点，它是所有节点的子集。
我们采用 《A collection of benchmark datasets for systematic evaluations of machine learning on the semantic web》 的 benchmark 训练集、测试集拆分的方式，并在训练集的基础上继续拆分 20% 样本作为验证集从而进行超参数调优。
Baseline 方法：我们对比了最近的 state-of-the-art 方法： RDF2VEC embedding、Weisfeiler-Lehman kernel: WL、人工设计的特征提取器Feat 。
- Feat 根据每个节点的入度in-degree、出度out-degree 来拼接每个节点的特征向量，即 feature-based 方法。
- RDF2VEC 在图上执行随机游走，然后基于 SkipGram 模型来从随机游走序列中学习节点 embedding，然后该 embedding 用于下游的分类任务。
配置：
- 我们的 R-GCN 模型采用两层隐层，隐层维度为 16 维（AM 数据集的隐层维度为 10），并采用基分解的正则化方式。
- 我们使用 Adam 优化器训练 50 个 epoch，学习率为 0.01 。
- $c_{i,r}= |\mathcal N_i^r|$ 。
- 所有实体分类实验均在具有 64GB 内存的 CPU 节点上运行。
评估指标：测试集的accuracy 。
实验效果如下表所示，结论：我们的模型在 AIFB 和 AM 上取得最好的效果，在 MUTAG 和 BGS 数据集上效果较差。
为了探究R-GCN模型为什么在 MUTAG 和 BGS 数据集上效果较差，我们深入洞察了这些数据集的性质。
- MUTAG 是分子图的数据集，后来被转换为 RDF 格式，图中的关系要么表示原子键、要么表示某个属性是否存在。
- BGS 是具有分层特征描述hierarchical feature description的岩石rock的类型，这些描述类似地转换为 RDF 格式，图中的关系编码了特定属性是否存在、或者属性的层级关系。
MUTAG 和 BGS 中的标记节点仅仅通过编码了某种特征的high-degree 的中心节点所连接。我们推测：采用固定的归一化常数对于 degree 很高的节点可能会成为问题，这导致了我们的模型在 MUTAG/BGS 数据集上效果不佳。
$a_{i,j,r}$ $1/c_{i,r}$ $\sum_{j,r} a_{i,j,r} = 1$ 。我们认为这是未来研究的方向。

10.2.2 链接预测

数据集：链接预测任务通常在 FB15k （关系数据库 Freebase 的子集）和 WN18（WordNet《Observed versus latent features for knowledge base and text inference》 $t=(e_1,r,e_2)$ $t^\prime = (e_2,r^{-1},e_1)$ 。这使得大部分链接预测任务退化为记忆这些三元组。因此，即使是非常简单的基准方法 LinkFeak ，其效果都很大程度上优于现有的方法。LinkFeak 仅仅是将观察到的关系作为特征向量（该特征向量非常稀疏）作为输入，然后采用线性分类器进行分类。
为解决该问题，《Observed versus latent features for knowledge base and text inference》 提出了一个简化的数据集FB15k-237，它删除了所有这些逆三元组。因此我们选择 FB15k-237 作为我们的主要评估数据集。由于 FB15k 和 WN18 仍被广泛使用，因此我们也包含这些数据集的结果。
baseline 方法：
- DistMult ：对每个节点直接优化embedding，而不是 R-GCN 编码器。
- LinkFeat ：《Observed versus latent features for knowledge base and text inference》 提出的简单的基于邻域的方法。
- ComplEx：将 DistMult 泛化为复数域来提升对非对称关系的建模。
- HoIE：利用 circular correlation 代替了vector-matrix的乘积。
最后，我们还包含了两种经典算法的比较：CP （《The expression of a tensor or a polyadic as a sum of products》）和 TransE （《Translating embeddings for modeling multi-relational data》）。
我们使用两种常用的评估指标：mean reciprocal rank: MRR、Hits at n: H@n 。我们报告了 raw MRR, filtered MRR，以及 n=1,3,10 时的 filtered Hits 。
filtered MRR 指的是：对于排名差于 n ，其排名倒数置为零。
配置：
- 我们通过验证集来选择 R-GCN 的超参数。
  - $c_{i,r} = c_i = \sum_r|\mathcal N_i^r|$ 效果最好，即：考虑所有关系的归一化效果最佳。
  - 对于 FB15k 和 WN18，我们使用具有两个基矩阵的基分解正则化，以及使用 200 维的单层编码器。
    对于 FB15k-237，我们发现块对角分解正则化的效果最好，block 的大小为 5 x 5 ，同时我们使用 500 维的两层编码器。
  - 我们对编码器执行 dropout 正则化，dropout 位置在 normalization 之前，dropout 比例为：对于 self-loop 为 0.2，对于其它边为 0.4 。使用dropout 正则化使得我们的训练目标类似于降噪自编码器。
  - $L_2$ 正则化，正则化系数为 0.01。
  - 我们使用 Adam 优化器，学习率为 0.01 。
- 对于baseline 模型，我们从 《Complex embeddings for simple link prediction》 中的参数（除了 FB15k-237 数据集上的维度）。
- $\omega=1$ ）。
- 对所有的模型，我们使用 full-batch 优化。
我们给出了 FB15k 数据集上，R-GCN 和 DistMult 在不同degree 上的表现。这里的 degree 表示三元组中 subject, object 节点的 degree 均值。在 FB15k 上，与 R0GCN 模型的设计形成对比的是，逆关系 inverse relation 形式的局部上下文 local context 将主导dominate分解的性能。
可以发现：R-GCN 在上下文丰富的节点上（即 degree 较高）表现良好，而 DistMult 在上下文稀疏的节点上表现较好。我们观察到这两种模型是互补的，因此可以将这两种模型的优势结合在一起，成为一个新的模型，我们称之为 R-GCN+ ：
$f (s, r, t)_{R-GCN+} = α f (s, r, t)_{R-GCN} + (1 - α) f (s, r, t)_{DistMult}$
$\alpha = 0.4$ 是根据 FB15k 的验证集来选择的。
我们给出不同模型在 FB15k 和 WN18 上的表现，其中标记 * 的结果来自于 《Complex embeddings for simple link prediction》，标记** 的结果来自于 《Holographic embeddings of knowledge graphs》 。
- R-GCN 和 R-GCN+ 均超越了 DistMult。但是，和 LinkFeat 相比，R-GCN 和 R-GCN+ 方法均表现不佳。这突出了逆关系的贡献。
- 有意思的是：在 FB15k 上 R-GCN+ 超越了 CompIEx，尽管 R-GCN 并未显式建模非对称关系而 CompIEx 显式建模了非对称关系。
  这表明：将 R-GCN 编码器与 CompIEx 的解码器相结合，可能是未来工作的一个有前景的方向。解码器的选择和编码器的选择是相互独立的，原则上可以使用任何模型作为解码器，因此可以考虑使用 ComIEx 作为解码器从而在 R-GCN+ 中显式建模非对称关系。
在 FB15k-237 数据集上逆关系被删除，此时 LinkFeat 效果非常差。而我们的 R-GCN 比 DistMult 提升 29.8%，这显示了编码器模型的重要性。另外 R-GCN/R-GCN+ 优于所有其它方法。

十一、 AGCN[2018]

尽管卷积神经网络CNN 在很多机器学习任务上取得极大成功，但是它要求输入数据为张量。例如，图像和视频分别建模为 2-D 张量和 3-D 张量。然而在实际任务中，很多数据都是不规则的图结构，如化学分子数据、点云数据、社交网络数据。这些数据被组织为图结构而不是规则形状的张量，并且不再满足平稳性stationarity和组合性compositionality （这两个性质允许执行 grid 上的 kernel-based 卷积），因此无法应用卷积操作。因此，有必要在图结构上重新构造卷积算子。
然而将 CNN 从规则的网格推广到不规则的图，并非易事。
- 早期的 Graph CNN （《Spectral networks and locally connected networks on graphs》，《Deep convolutional networks on graphstructured data》）通常假设数据是低维的（即 degree 较低），因为卷积器根据节点的 degree 来独立地处理节点。
- 另外，卷积核也过度局部化 over-localized，很难从复杂的图结构中学到hierarchical representation 。
- 某些情况下（如点云point cloud 的分类），图的拓扑结构要比节点特征包含更多信息。但是，现有的Graph CNN 无法利用图的结构特性，因为无法设计一个匹配各种各样邻域结构的空域卷积核spatial kernel 。
  GraphSAGE 或 GAT 其实可以匹配各种邻域结构，因为它们是 inductive 的。而 transductive 的 GCN 无法匹配各种邻域结构。
- 此外，考虑到图结构的灵活性以及模型参数规模，为数据集中每个图学习定制化customized 的、保留拓扑结构的空域卷积核是不现实的。
  这里我们假设数据包含很多图（比如分子图），每个图的结构都各不相同。
- 除了在图上进行空域卷积之外，还可以在经过傅里叶变换之后的图的频域上进行谱卷积。
  类似经典的 CNN，图的谱卷积也假设样本之间（不同的图）共享卷积核。因此，为了确保卷积层输出的维度统一，卷积层的输入必须重新调整尺寸，这也是传统 CNN 的限制。
  但是，对图数据进行这种预处理可能会破坏图数据的完整性。例如，对分子图的粗化 coarsening 在化学意义来看很难证明其合理性，粗化后的图很可能丢失了使得当前分子和其它分子有区分的关键子结构。如下图所示为有机化合物 3, 4-亮氨酸(C7H9N) 及其图结构，移除了任何一个碳原子都会破坏苯环。
  因此，如果Graph CNN 可以接受不同图结构的原始数据样本（而不是粗化处理的）作为输入，则非常有意义。
- 最后，我们提供给 Graph CNN 的数据要么具有本征 intrinsic 的图结构（例如分子图），要么可以通过聚类来构建一个图结构（如点云数据）。
  在之前的Graph CNN 模型中，初始的图结构在训练过程中是固定不变的。但是，很难评估本征图或者无监督聚类产生的图是否适合于当前的任务。以化合物为例，SMILES 序列给出的本征图无法说明化合物的毒性，仅靠本征图很难了解毒性的有意义的表示。
  尽管已有人提出了使用全连接网络的有监督的图的构建方法，但是由于训练参数规模巨大，这种方法仅适用于较小的图。另外，无法保证通过网络学到的图结构很好地作用于Graph CNN 。
因此，当前 Graph CNN 的瓶颈包括：严格的 graph degree 限制、要求输入之间共享相同的图结构、固定构造且无需训练的图结构、无法从拓扑结构中学习。
论文 《Adaptive Graph Convolutional Neural Networks》 中提出了一种新的频域图卷积神经网络，该网络以原始数据的不同图结构作为输入，例如由不同数量苯环组成的有机分子。为实现这一点，作者不使用共享的谱卷积核，而是为每个图（数据集中每个样本代表一个图）定制化图拉普拉斯矩阵，这些拉普拉斯矩阵客观地描述了每个图独特的拓扑结构。一个定制化的图拉普拉斯矩阵导致一个定制化的谱滤波器，该滤波器根据图的拓扑结构来组合邻域特征。
有意思的是，什么样的图结构最适合目标监督学习任务？一些图数据具有本征图结构，例如，化学键自然地生成化合物的分子图，即本征图 intrinsic graph 。这些化学键已经通过化学实验被证明是正确的。但是，无法保证卷积器 convolver 能够提取到本征图中所有有意义的特征，因为本征图的图结构不一定和任务目标紧密相关。因此，AGCN 训练了一个所谓的残差图 residual graph，从而发现本征图中未能包含的残差子结构。此外，为了确保残差图是目标任务的最佳补充，作者设计了一个方案从而在训练Graph CNN 的同时来学习残差图。
$M$ $n$ $n$ $O(n^2)$ $O(M\times n^2)$ Mahalanobis distance $O(d^2)$ $O(d)$ $d$ metric parameter $O(d^2)$ $O(d)$ $n$ $M$ 无关。
在经典 CNN 中，反向传播通常会更新 kernel weight 从而分别调整每个维度上相邻节点之间的关系。然后它聚合来自所有滤波器的信号从而构建 hidden layer 的 activation 。为了赋予 Graph CNN 类似的能力，作者提出使用额外变换 additional transform 来对 feature domain 进行重参数化re-parameterization 。
$O(d^2)$ 个训练参数由两部分组成：距离度量 distance metric,、以及节点的特征变换 feature transform 。给定训练好的 metric 、以及变换后的特征空间，我们可以构建更新后的残差图。
在九个图数据集上进行的大量实验表明，AGCN 在训练速度和预测效果上都有很大的提升。
论文主要贡献：
- 为每个样本学习图拉普拉斯矩阵：为每个样本学习残差图的拉普拉斯矩阵，并将学到的残差图的拉普拉斯矩阵添加到初始图（由本征图或聚类图给出）上。
- $O(d^2)$ ，与图的大小无关。
  这个度量矩阵用于构建残差图。
- 卷积中的 feature embedding ：在执行图上的卷积之前，先完成节点特征的变换。
- 灵活的输入图：由于前面的第一点和第二点，AGCN 可以接受不同结构和大小的图作为输入，并且没有图 degree 的限制。
相关工作：
- 谱图卷积 Spectral Graph Convolution：
  《Spectral networks and locally connected networks on graphs》CNN $\mathbf A_k$ finite-size $\mathbf A_k$ 定义的稀疏转换矩阵sparse transform matrix。空间卷积具有原生的困难：无法匹配各种各样的邻域结构。因此，如果不对图的拓扑结构加以限制，则图上的空间卷积核无法定义。
  谱图理论 spectral graph theory 使得频域上定义卷积核成为可能。并且频域乘子 multiplier 的平滑性带来空间局部性spatial locality。本文的 baseline 方法建立在 《Convolutional neural networks on graphs with fast localized spectral filtering》 的基础上，并且将 one-hop 的 local kernel 扩展为带来最多 K-hop connectionkernel $\mathbf U$ $\mathbf L$ 的图傅里叶基 graph Fourier basis ，那么：
  ${\vec{x}}_{k + 1} = σ (g_{θ} (L^{K}) {\vec{x}}_{k}) = σ (U g_{θ} (Λ^{K}) U^{⊤} {\vec{x}}_{k}) \in R^{n}$
  $n$ $\mathbf L$ $\mathbf\Lambda = \text{diag}(\lambda_1,\cdots,\lambda_n)$ $\mathbf L$ $n$ $\sigma(\cdot)$ $g_\theta(\cdot)$ $\mathbf{\vec x}$ 为定义在图上的信号。
  - 《Convolutional neural networks on graphs with fast localized spectral filtering》 还利用契比雪夫多项式及其近似评估方案来降低计算成本并实现局部化的滤波。
  - 《Semi-supervised classification with graph convolutional networks》 展示了契比雪夫多项式的一阶近似作为 graph filter spectrum，从而导致更少的训练参数。
  尽管如此，人们已经开始构建更强调拓扑结构的定制化的 graph，甚至解除了对 input graph 的维度约束。然而，设计一个灵活的 graph CNN 仍然是一个悬而未决的问题。
- 分子图Molecular Graph上的神经网络：对有机分子化学性质的预测通常通过人工抽取特征以及 feature embedding 来处理。由于分子自然地被建模为图，因此人们已经成功地在原始分子上构建神经网络来学习 representation。但是，由于空间卷积的局限性，这些网络无法充分利用原子的连通性connectivity（即一些原子组成的亚结构），这些连通性要比少数的化学键特征更能提供信息。
  最近，人们完成了对 progressive network、多任务学习、以及 low-shot/one-shot 学习的探索。目前为止，分子图上的 state-of-the-art 网络仍然使用无法充分利用空间信息的 non-parameterized 的 spatial kernel 。
  此外，拓扑结构可以作为有判别力discriminative的特征的丰富来源。

11.1 模型

11.1.1 SGC-LL

为了使得谱卷积spectral convolution能够适用于各种类型的图结构，我们对距离度量进行了参数化，使得图拉普拉斯矩阵本身是可训练的。通过训练好的度量函数，我们可以为不同形状和大小的输入图动态构建各自的动态图，并在这个动态图上执行卷积（而不是原始图上进行谱卷积）。
可以学习图拉普拉斯矩阵的新的谱卷积层称作 Spectral Graph Convolution layer with graph Laplacian Learning : SGC-LL 。

a. 学习图拉普拉斯矩阵

$\mathcal G=(V,E)$ $\mathbf A$ $\mathbf D$ $\mathbf L$ 定义为：
$L = I - D^{- 1 / 2} A D^{- 1 / 2}$
$\mathbf L$ node-wise $\mathbf A$ degree $\mathbf D$ $\mathbf L$ $\mathcal G$ 的拓扑结构。
$\mathbf L$ 是半正定的对称矩阵，因此可以对它进行eigen-decomposition 特征分解：
$L = U Λ U^{⊤}$
其中：
- $\mathbf \Lambda = \text{diag}(\lambda_1,\cdots,\lambda_n)$ $n$ $0 \le \lambda_1\le\cdots\le \lambda_n$
- $\mathbf U = \left[\mathbf{\vec u}_1,\cdots,\mathbf{\vec u}_n\right]\in \mathbb R^{n\times n}$ $\mathbf{\vec u}_i\in \mathbb R^n$ $\lambda_i$ 的特征向量。
$\mathbf{\vec x}\in \mathbb R^n$ 在图上的傅里叶变换定义为：
$\hat{\vec{x}} = U^{⊤} \vec{x}$
图上的一个信号定义了一个一维特征，该特征在图上每个节点都有取值。
傅里叶逆变换为：
$\vec{x} = U \hat{\vec{x}} = U U^{⊤} \vec{x}$
$\mathbf \Lambda$ $g_\theta(\mathbf \Lambda)$ 在空域定义了一个卷积核。《Spectral graph theory》表明：平滑的频域谱会产生localized 局部化的空间卷积核。
在 《Convolutional neural networks on graphs with fast localized spectral filtering》 中定义了一个多项式卷积核：
$g_{θ} (Λ) = \sum_{k = 0}^{K - 1} θ_{k} Λ^{k}$
$K$ $d_\mathcal G\lt K$ $\theta_k$ 来控制。
$\theta_k$ 使得卷积核的权重从中心节点到最远的、距离为 K 的节点呈圆形分布。这种做法限制了卷积核的灵活性。
更重要的是：两个节点之间的相似性不仅和距离相关，更主要的是取决于所选的距离度量函数、节点的特征。对于在非欧几何种的数据，无法保证欧式距离是衡量相似性的最佳指标。因此，两个相连的节点之间的相似性，可能会比两个未连接节点之间的相似性更低。有两个可能的原因：
- 图是在raw feature domain 原始特征领域构建的，没有经过任何特征抽取和变换，因此基于距离的相似性没有考虑特征信息。
- 图结构是intrinsic本征的，它仅表示物理意义上的连接，如分子中的化学键，因此距离近不一定代表着相似。
$\mathbf L$ $\theta_k$ 进行参数化。
$\mathbf L \in \mathbb R^{n\times n}$ $\mathbf X\in \mathbb R^{n\times d}$ $\Gamma$ $d$ 为节点特征维度，定义新的图拉普拉斯矩阵为：
$\tilde{L} = F (L, X, Γ)$
这个新的图拉普拉斯矩阵定义了一个新的动态图，我们在这个新的动态图上进行谱卷积。
新的滤波器为：
$g_{θ} (Λ) = \sum_{k = 0}^{K - 1} (F (L, X, Γ))^{k}$
$\mathbf X$ ，卷积输出信号为：
$Y = U g_{θ} (Λ) U^{⊤} X = U \sum_{k = 0}^{K - 1} (F (L, X, Γ))^{k} U^{⊤} X$
$\mathbf U^\top\mathbf X$ $O(n^2)$ $\tilde{\mathbf L}$ $g_\theta(\tilde{\mathbf L})$ $\tilde{\mathbf L}$ $O(K)$ $g_\theta(\mathbf \Lambda)$ 。
$\theta$ 不再是可学习的参数，因此也就是不再是 transductive 的。

b. 度量的训练

对于图结构，欧式距离不再是衡量节点相似性的很好指标。因此，距离度量在训练过程中适应目标任务、节点特征。在度量学习的论文中，算法分为监督学习和非监督学习。监督学习的最佳度量最小化监督损失，无监督学习的最佳度量最小化簇内距离（也是最大化簇间距离）。
$v_i$ $v_j$ $\mathbf{\vec x}_i$ $\mathbf{\vec x}_j$ ，则特征之间的马氏距离定义为：
$D ({\vec{x}}_{i}, {\vec{x}}_{j}) = \sqrt{({\vec{x}}_{i} - {\vec{x}}_{j})^{⊤} M ({\vec{x}}_{i} - {\vec{x}}_{j})}$
$\mathbf M = \mathbf I$ 单位矩阵，则上式退化为欧式距离。
AGCN $\mathbf M = \mathbf W_d\mathbf W_d^\top$ $\mathbf W_d \in \mathbb R^{d\times d}$ 为 SGC-LL layer 学习的参数。因此上式为：
$D ({\vec{x}}_{i}, {\vec{x}}_{j}) = \sqrt{{(W_{d}^{⊤} ({\vec{x}}_{i} - {\vec{x}}_{j}))}^{⊤} (W_{d}^{⊤} ({\vec{x}}_{i} - {\vec{x}}_{j}))}$
$\mathbf W_d$ $\mathbf{\vec x}_i$ $\mathbf {\vec x}_j$ 映射到新的欧式空间，从而在新空间中计算欧氏距离。
然后我们使用新的距离来计算高斯核：
$G ({\vec{x}}_{i}, {\vec{x}}_{j}) = \exp (- \frac{D ({\vec{x}}_{i}, {\vec{x}}_{j})}{2 σ^{2}})$
$\mathbf G = \left\{G\left(\mathbf{\vec x}_i,\mathbf{\vec x}_j\right) \right\}_{n\times n}$ $\hat{\mathbf A}$ $\hat{\mathbf W}_d$ $\{\hat{\mathbf L}\}$ 从而最小化预测损失。
$\tilde {\mathbf L}$ $\mathbf X$ 以及图结构信息，并自适应地学习距离度量。
$\hat{\mathbf A}$ $O(n^2)$ ，因此该算法不适合大型图。

c. 特征变换上的重参数化

在经典的 CNN 中，卷积层的输出特征是来自最后一层的所有特征图的sum 和，而这些特征图feature map 是由独立的滤波器计算的。这意味着新特征不仅依赖于相邻节点，也依赖于其它内部节点。
但是在图卷积中，为同一个图上的不同节点特征创建和训练独立的拓扑结构是不可解释的（对应于独立的滤波器）。为了构建同时包含节点内特征和节点间特征的映射，在 SGC-LL 层我们引入了一个特征变换矩阵以及一个 bias 向量作用于层输出上：
$Y = (U g_{θ} (Λ) U^{⊤}) W + \vec{b}$
$L$ SGC-LL $l$ $\left\{\mathbf M_l,\mathbf W_l,\mathbf{\vec b}_l\right\}$ $\mathbf M_l\in \mathbb R^{d_{l-1}\times d_{l-1}},\mathbf W_l\in \mathbb R^{d_{l-1}\times d_l}, \mathbf{\vec b}_l\in \mathbb R^{d_l}$ 。
SGC-LL $O(d_l\times d_{l-1})$ ，它们和图的大小以及节点 degree 无关。
在下一个 SGC-LL 层，谱滤波器将建立在另一个具有不同度量的 feature domain 中。

d. 残差图的拉普拉斯矩阵

某些图数据具有本征的图结构，如分子。分子被建模为以原子为节点、以化学键为边的分子图。这些化学键可以通过化学实验来证明。但是，大多数数据天然地不具备图结构，因此我们必须在将图输入网络之前首先构建好图。
除了以上两种情况之外，最有可能的情况是：以无监督方式创建的图无法充分地为特定任务来表达所有有意义的拓扑结构。以化合物为例，SMILES 序列给出的本征图并不能说明化合物的毒性。仅仅依赖本征图，很难学到刻画毒性的有意义的 representation 。
$\mathbf M$ $\hat{\mathbf L }$ $\mathbf L$ 的一个小的偏移：
$\hat{L} = L + α L_{res}$
$\mathbf L$ 已经给出了大量有用的图结构信息，除了一些无法在原始图上给出的一些虚拟节点组成的子结构（由残差图表示）。
$\hat{\mathbf L}$ $\mathbf L_\text{res}$ $\mathbf L_\text{res}$ $\alpha$ $\mathbf L$ 上。
SGC-LL 层算法：
- 输入：
  - $\mathbf X$
  - $\mathbf L$
  - $\alpha, \mathbf M, \mathbf W, \mathbf{\vec b}$ $\theta$ 不再是参数）
- $\mathbf X$ 卷积后的信号
- 算法步骤：
  - $\hat{\mathbf A }$ ：
    $\begin{matrix} D ({\vec{x}}_{i}, {\vec{x}}_{j}) = \sqrt{{({\vec{x}}_{i} - {\vec{x}}_{j})}^{⊤} M ({\vec{x}}_{i} - {\vec{x}}_{j})} \\ G ({\vec{x}}_{i}, {\vec{x}}_{j}) = \exp (- \frac{D ({\vec{x}}_{i}, {\vec{x}}_{j})}{2 σ^{2}}) \end{matrix}$
    $\mathbf G = \left\{G\left(\mathbf{\vec x}_i,\mathbf{\vec x}_j\right) \right\}_{n\times n}$ $\hat{\mathbf A}$ 。
  - 计算残差图的拉普拉斯矩阵：
    $L_{res} = I - {\hat{D}}^{- 1 / 2} \hat{A} {\hat{D}}^{- 1 / 2}$
    $\hat{\mathbf D}$ $\hat{\mathbf A}$ 的度矩阵。
  - $\tilde{\mathbf L} = \mathbf L + \alpha \mathbf L_\text{res}$ 。
  - $\mathbf Y = \left(\mathbf Ug_\theta(\mathbf \Lambda) \mathbf U^\top\right) \mathbf W + \mathbf{\vec b}$ 。

读者注：
从 transductive 变为 inductive ：
GCN $\theta$ $\theta$ $n$ ，依赖于图大小，因此无法适用于各种不同大小的图。
SGC $\mathbf M$ $\mathbf M$ $O(d^2)$ ，不依赖于图大小，因此适用于各种不同大小的图。
$\mathbf Y = \mathbf U g_\theta(\mathbf \Lambda) \mathbf U^\top \mathbf X$ GCN $g_\theta$ SGC $\mathbf U$ （残差图改变了特征分解的基向量）。
我们可以把 SGC 和 GraphSAGE 等基于消息传播机制的方法结合起来：首先，学习自适应图；然后，在自适应图上应用 GraphSAGE 。
$O(n^2)$ ），因此可以采用剪枝从而使其稀疏化。

11.1.2 AGCN

我们提出的网络称为自适应图卷积网络 Adaptive Graph Convolution Network:AGCN，因为 SGC-LL 层能够根据数据和目标任务有效地学习自适应的图拓扑结构。
除了 SGC-LL 层之外，AGCN 还有图最大池化层 graph max pooling layer 、图聚合层 graph gather layer 。

a. Graph Max Pooling

feature-wise $v_i$ $\mathbf{\vec x}_i$ $\mathcal N_i$ $v_i$ 的池化层输出为：
$\begin{matrix} {\hat{x}}_{i, j} = max {x_{i, j}, x_{v, j}, v \in N_{i}} \\ {\hat{\vec{x}}}_{i} = {({\hat{x}}_{i, 1}, \dots, {\hat{x}}_{i, d})}^{⊤} \end{matrix}$
$v_i$ $j$ $x_{i,j}$ $v_i$ $j$ 个特征的最大值。

b.Graph Gather

图聚合层逐元素地将所有节点的特征向量求和，从而作为图的 graph-level representation。
聚合层的输出向量用于 graph-level 预测，也可以没有聚合层从而训练 AGCN 并将其作为 vertex-level 预测。

c. Bilateral Filter

在 AGCN 中使用双边滤波器层 bilateral filter layer 用于防止过拟合。
$\mathbf L$ 的空间局部性来正则化 SGC-LL 层的输出。
我们还引入了 BN 层来加快训练速度。

d. Network Configure

AGCN 由多个连续的layer combo 组合而成，其核心为 SGC-LL 层。每个 layer combo 包含一个 SGC-LL 层、一个 BN 层、一个图最大池化层，如下图所示。
- 每个 SGC-LL 层都训练一个残差图的拉普拉斯矩阵。在随后的BN 层、最大池化层中使用自适应图adaptive graph （原始图 + 残差图），直到下一个 SGC-LL 层。
  由于 SGC-LL 层会转换特征，因此下一个 SGC-LL 层需要重新训练新的残差图。
  $\hat{\mathbf A}$ ，因此空间复杂度和时间复杂度太高。我们是否只需要 input 的残差图，然后在后续层中固定使用这个残差图？
- 在通过组合层之后，我们将批量更新图结构（因为每次训练一批样本，每个样本代表一个图）。
- 本文中我们评估的是 graph-wise 任务，因此在回归器之前还有一个 graph-gather 层。
对于像有机化合物这类数据，一些小的子结构对于特定的化学性质（如毒性）具有决定性作用。如：芳烃通常具有毒性，而如果氢原子被甲基取代，则毒性大大降低。
因此，如果进行图粗化或者特征平均都会损害那些信息丰富的局部结构的完整性，因此我们选择最大池化，并且不跳过卷积中的任何节点。

11.1.3 Batch 训练

图数据结构上进行卷积的最大挑战之一是难以匹配训练样本（每个样本代表一个图）的各种各样局部拓扑结构：
- 这带来设计卷积核的额外困难，因为在图上不满足核的不变性，而且节点的顺序有时也很重要
- 对于某些数据（如分子），对图进行粗化（即调整图大小）或者调整图的形状都是不合理的（破坏分子结构）
与在张量上进行经典卷积的网格数据不同，对于图上的卷积必须兼容多种拓扑结构。为此，我们提出了 SGC-LL 层，它训练了自适应的图拉普拉斯矩阵，从而保留了数据的所有局部拓扑结构。
我们发现在构建图结构时真正重要的是特征空间和距离度量，因此 SGC-LLbatch $d$ 。因此，AGCN 可以进行 batch 训练，每个 batch 可以包含具有不同拓扑结构和大小的原始图。
注意：在训练之前需要构造原始图的拉普拉斯矩阵，这会带来额外的 RAM 开销。但是我们仍然需要保留初始拉普拉斯矩阵从而更新自适应的拉普拉斯矩阵。但是，这是可以接受的，因为图拉普拉斯矩阵是稀疏的。

11.2 实验

数据集：
- 回归任务：
  - Delaney 数据集：包含 1144 种小分子量化合物的aequeous solubility 等效溶解度数据。数据集中最大的化合物包含 492 个原子，最小的化合物仅有 3 个原子。
  - NCI 数据集：包含大约 2 万种化合物，以及60 个从药物反应到临床药理学研究的预测任务。
  - Az-LogD 数据集：来自 ADME 数据集的 4200 种化合物渗透率的 logD 数据。
  - Hydration-free energy 数据集：我们提供的包含 642 个化合物的小型数据集，用于无水合能量研究。
  我们使用5 折交叉验证，并给出每个数据集中的平均 RSME 和标准差。
- 分类任务：
  - Tox21 数据集：包含 12 篇论文中 7950 种化合物及其label，用于毒性分析。但是额外的困难来自于这 12 项任务中缺少部分标签。对于那些缺少标签的样本，我们将其从损失函数的计算中剔除，但是仍将其保留在训练集中。
  - ClinTox 数据集：包含 1451 种化合物的公开数据集，用于临床病理学研究。该数据集同时包含两个任务的标签。
  - Sider 数据集：包含 1392 种药物及其 27 种不同副作用或不良反应的标签。
  - Toxcast 数据集：另一个病毒学研究数据集，包含 8599 个 SMILES 以及用于 617 个预测任务的标签。
  N-task $N$ $L$ 层树模型，每个叶结点包含一个全连接层和task-specific 逻辑回归输出层。
- 点云数据：
  - Velodyne HDL-64E LIDAR 点云数据集：包含澳大利亚悉尼的 Velodyne HDL-64E LIDAR 扫描的街道对象。
    由于对象的实际大小和形状存在很大差异，因此不同对象的点数也不同。如下图所示：1 表示自行车，有 124 个点；2 表示卡车，有 615 个点；3 表示行人，有 78 个点。
baseline 方法：
- GraphConv：《Spectral networks and locally connected networks on graphs》 使用由线性双样条插值构建的谱滤波器实现卷积。
- NFP：神经网络指纹Neural Fingerprint:NFP，它在空域中构建滤波器实现卷积。
- GCN：使用 《Convolutional neural networks on graphs with fast localized spectral filtering.》 提出的 K 阶局部化的谱卷积核来实现卷积。
我们首先来验证 SGC-LL 层的效果。SGC-LL 层的滤波器基于自适应图 adaptive graph 来构建，而自适应图由原始图加残差图 residual graph 组成。原始图可以是数据直接给出的本征图 intrinsic graph （比如分子结构），或者是通过聚类得到的聚类图。网络以原始图作为输入，这使得AGCN 能够直接读取不同结构和大小的图。
由于在网络训练期间会更新距离度量以及特征变换矩阵，因此在训练期间会不断更新自适应图（原因是残差图被不断更新）。实验证明：更新后的自适应图与模型的效果密切相关。
如下图所示为化合物 C20N2O5S 的节点相似度矩阵（一个 28x28 的矩阵，以自适应图来构建的相似度矩阵）的热力度。左图为训练之前的相似度矩阵（记作 0），右图为训练了 20 个 epoch 之后的相似度矩阵。从放大的细节种我们明显发现在 20 个 epoch 之后，节点的相似性发生了显著变化。这意味着由于距离度量在训练中更新，化合物的自适应图的结构也发生了变化。
同时，平均 RMSE 以及加权的 L2 损失函数在前 20 个 epoch 急剧下降。另外和baseline 方法相比，AGCN 在收敛速度、预测准确性方面都呈现压倒性优势。我们将这些提升归因于 SGC-LL 层的自适应图以及残差图的拉普拉斯矩阵的学习。
首先我们对比不同的模型在回归任务上的表现。可以看到：AGCN 在 Delaney 数据集上的 RMSE 降低了 31%~40%，在 Az-logD 数据集上的 RMSE 降低了 15%，在 NCI 数据集上降低了 2% ，在 Hydration-free 数据集上降低了 35%。看似来似乎当数据更为稀疏时，AGCN 更为有效。
然后我们对比这些模型在多任务分类上的效果。可以看到 AGCN 提升了所有数据集上的效果。对于 Toxcast 的 617 项任务，AGCN 效果比 SOA 仍然提升了 3% 。
由化学式给出的分子图是化合物的本征图，这些本征图从图的结构到图的大小多种多样。
- GraphConv 的谱卷积核只能连接 1 阶邻居（通过边直接相连的邻居），因此它 over-localized 过于局部化。
  当处理分子图时这是一个问题，因为分子图的某些重要子结构无法被这种过于局部化的卷积核所覆盖。
- GCN 中的 K 阶邻域卷积核不存在过于局部化的问题，但是它假设卷积核在不同样本之间共享（每个样本代表一个分子图）。
  - 如果训练集中的样本分子共享了很多常见的子结构，如 OH（羟基）、C6H6 （苯基），则这种共享效果很好（如下图所示）。
  - 如果训练集中的样本分子来自于各种类别的化合物，则它们的子结构千差万别。这时 GCN 效果很差。尤其是当某些类别的样本数据不足时。
    这也可能是为什么 GCN 在大型数据集（如 Sider）上具有和 AGCN 差不多的性能，但是在小型数据集（如 Delaney 和 Clintox ）上效果很差的原因。
- AGCN 能够以更好的方式处理分子数据。自适应图允许每个输入分子图具有不同的结构和大型，因此我们可以为 AGCN 提供原始数据而不会丢失任何信息。
  此外，SGC-LL 层针对任务目标来训练距离度量函数和其它变换参数。因此当模型收敛时，对于每层 SGC-LL 我们都将找到最适合的特征空间和距离度量来构建最适合的自适应图。最终学到的自适应图可能包含原始分子图中不存在的新的边。
下图为不同Graph CNN 模型的卷积比较，其中红点为卷积核的中心，橙点为卷积核的卷积范围。边的颜色代表谱卷积核的权重。
- 图 (1) 为 2 维网格上的经典 3x3 的CNN卷积核。
- 图 (2) 为 GraphConv/NFP 卷积核，可以看到它过于局部化。
- 图 (3) 为 GCN 卷积核，它时 K 阶局部化的，并且在所有输入图上共享。
- 图 (4) 为 AGCN 卷积核，它也是 K 阶局部化的，但是它作用在自适应图上（原始图 + 残差图）。学到的残差图的边以虚线表示。
最后我们考察点云数据集上的表现。初始的点云图是通过 agglomerative 聚类来构建的。
- 在将点云数据馈入 Gaph CNN 之前，通常需要经过降采样来统一大小，这必然会丢失部分结构信息。而 AGCN 通过接受不同大小的原始点云图从而克服了该问题。
- 如果使用 GCN，则 GCN 的卷积核在不同输入之间共享。这种共享的卷积核可能会混淆点云上的特征，而不考虑点之间的实际距离。而 AGCN 能够根据空间关系精确地进行卷积。
- 点云识别的 SOA 方法为 PointNet，但是它无法处理大小变化的点云数据。
我们采用 5 折交叉验证并报告了不同模型在测试集上的平均 ROC-AUC 得分。可以看到，AGCN 在 All Classes 上超越了所有其它方法。
- 在大型对象（如建筑物）上，我们的 AUC 得分接近 1.0。其它 Graph CNN 模型效果较差，因为它们必须首先降采样。
- 对于重要的道路物体（如交通信号灯），AGCN 将 ROC-AUC 的效果提升了至少 10%。
数据表明：AGCN 在点云图上可以提取比其他 Graph CNN 更多有意义的特征。另外，AGCN 输入信息的完整性也有利于提升性能。

十二、FastGCN[2018]

图是 pairwise relationship 的universal representation。许多现实世界的数据自然而然地以 graph 的形式展现，如社交网络、基因表达网络、知识图谱。为了提高 graph-based 学习任务的性能，最近人们努力将已有的网络架构（包括 RNN 和 CNN）推广到 graph 数据。
虽然学习 graph 的 feature representation 是一个重要主题，但是这里我们重点关注节点的 feature representation 。在这方面，《Semi-supervised classification with graph convolutional networks》提出的 GCN 是最接近 CNN 架构的工作。借助针对图片像素的卷积滤波器的概念，或者信号的 linear array 的概念，GCN 使用图的连通性结构connectivity structure 作为滤波器进行邻域混合 neighborhood mixing 。该架构可以用总结为：
$H^{(l + 1)} = σ (\hat{A} H^{(l)} W^{(l)})$
其中：
- $\hat{\mathbf A}$ 是图的某个归一化邻接矩阵。
- $\mathbf H^{(l)}$ $l$ 层 embedding 组成的 embedding 矩阵（按行）。
- $\mathbf W^{(l)}$ $l$ 层的参数矩阵。
- $\sigma$ 为非线性函数。
与许多图算法一样，邻接矩阵编码了训练数据和测试数据中的 pairwise relationship 。模型的学习和 embedding 是同时在训练数据和测试数据上进行的，至少根据作者的建议而言。然而，对于许多应用程序而言，测试数据可能并不容易获得，因为图可能会不断扩展新的节点（如，社交网络的新成员、推荐系统的新产品、以及用于功能测试的新药物）。这样的场景需要一个归纳式的方案inductive scheme ，该方案仅从训练数据中学习模型并且可以很好地泛化到测试数据。
因为 GCN 是 transductive 的，因此需要在训练期间就知道测试数据，并同时针对测试数据进行训练。
GCN 面临的一个更严峻的挑战是：跨层的邻域递归扩展会在 batched training 中产生昂贵的计算。尤其是对于稠密图dense graph和幂率图powerlaw graph，单个节点的邻域扩展会迅速填满图的大部分。然后，即使是一个很小的 batch size ，每个 mini-batch 训练都涉及到大量数据。因此，GCN 难以推广到大型稠密图。
为解决这两个挑战，《FASTGCN: FAST LEARNING WITH GRAPH CONVOLUTIONAL NETWORKS VIA IMPORTANCE SAMPLING》 从另一个角度考察图卷积，并将图卷积解释为概率测度下 embedding 函数的积分变换。这种观点为归纳式学习inductive learning提供了一种从损失函数的公式到梯度的随机版本的原则性的机制principled mechanism。
具体来讲，论文将图节点解释为某种概率分布的独立同分布 iid 样本，并将损失函数以及每个卷积层视为节点 embedding 函数的积分。然后通过对积分进行蒙特卡洛模拟来求解，从而得到损失函数和梯度（损失函数和梯度中包含了 embedding 函数的积分）。也可以进一步改变蒙特卡洛模拟中的采样分布（如，重要性采样）来减少积分近似的方差。
论文所提出的方法称作 FastGCN ，该方法不仅是 inductive 的，并且每个 batch 的计算成本可控。在撰写该论文时，作者注意到新发表的作品 GraphSAGE，其中 GraphSAGE 提出使用采样来减少 GCN 的计算代价。相比而言，FastGCN 的方法代价更低。实验表明，FastGCN 的每个batch 计算速度比 GraphSAGE 快一个量级以上，并且分类准确性相差无几。
相关工作：在过去的几年中，出现了几种graph-based的卷积网络模型，它们用于解决图结构数据的应用，如分子的 representation （《Convolutional networks on graphs for learning molecular fingerprints》）。
- 一个重要的工作方向是建立在谱图理论上的。它们受到傅里叶变换的启发，在谱域中定义了参数化的滤波器。这些方法学习整个图的 feature representation，并可用于图分类。
- 另一个工作方向是学习 graph vertex 的 embedding 。《Graph embedding techniques, applications, and performance: A survey》 是最近的一项综述，全面涵盖了几类方法。
  - 一个主要的类别包括基于分解的算法，这些算法通过矩阵分解来产生 embedding 。这些方法共同学习训练数据和测试数据的 representation 。
  - 另一类方法基于随机游走，通过探索邻域来计算 node representation 。LINE 就是这样的一种技术，它的动机是保留一阶邻近性和二阶邻近性。
  - 同时，也出现了一些深度神经网络架构，它们可以更好地捕获图中的非线性，如 SDNE。
  如前所述，我们的工作是基于GCN 模型的。
与我们工作最相关的工作是 GraphSAGE，它通过聚合邻域信息来学习 node representation。作者还承认所提出的聚合器之一采用了 GCN 架构。作者还承认 GCN 的内存瓶颈，因此提出了一种临时采样方案ad hoc sampling scheme 来限制邻域大小。我们的采样方法基于一个不同的、更有原则的公式。主要区别是我们采样节点而不是邻域。

12.1 模型

GCN 和许多标准神经网络架构之间的一个显著区别是：样本损失之间缺乏独立性。诸如随机梯度下降 SGD 以及它的 batch 版本等训练算法是基于损失函数相对于独立数据样本的可加性来设计的。另一方面，对于图，每个节点都与它的所有邻居进行卷积，因此定义一个计算计算高效的样本梯度非常简单。
SGD $g$ $D$ $g$ 为单个样本的损失：
$L = E_{\vec{x} \sim D} [g (W; \vec{x})]$
$\mathbf{\vec x}$ $\mathbf W$ 为待学习的模型参数。
$D$ 是未知的，因此我们可以用经验损失函数（来代替上述损失函数，即：
$L_{emp} = \frac{1}{n} \sum_{i = 1}^{n} g (W; {\vec{x}}_{i}), \forall i, {\vec{x}}_{i} \sim D$
$\mathbf{\vec x}_i$ $n$ $D$ 中采样的 iid 样本。
SGD $\nabla g(\mathbf W; \mathbf{\vec x}_i)$ $\nabla\mathcal L$ step $g(\mathbf W; \mathbf{\vec x}_i)$ $\mathbf{\vec x}_i$ 。
$\nabla g(\mathbf W; \mathbf{\vec x}_i)$ $G^\prime$ $V^\prime$ $(V^\prime, F, P)$ ，其中：
- $V^\prime$ 为样本空间。
- $F$ $F=2^{V^\prime}$ $V^\prime$ 中的每个节点是否被选中。
- $P$ 为概率测度，它定义了一个采样分布。
$G$ $G$ $G^\prime$ $G$ $P$ $V^\prime$ 上采样的独立同分布 iid 样本。
为解决图卷积的损失函数缺乏独立性问题，我们将卷积层定义为节点的 embedding 的函数，不同节点关联了相同的概率测度，但是节点之间相互独立。
注意，这里每个节点代表一个随机变量。
具体而言，考虑 GCN 体系架构：
$\begin{matrix} {\tilde{H}}^{(l + 1)} = \hat{A} H^{(l)} W^{(l)}, H^{(l + 1)} = σ ({\tilde{H}}^{(l + 1)}), l = 0, \dots, L - 1 \\ L = \frac{1}{n} \sum_{i = 1}^{n} g ({\vec{h}}_{i}^{(L)}) \end{matrix}$
从函数泛化的角度，我们改写为：
$\begin{matrix} {\tilde{\vec{h}}}^{(l + 1)} (v) = \int \hat{A} (v, u) {({\vec{h}}^{(l)} (u))}^{⊤} W^{(l)} d P (u), {\vec{h}}^{(l + 1)} (v) = σ ({\tilde{\vec{h}}}^{(l + 1)} (v)), l = 0, \dots, L - 1 \\ L = E_{v \sim P} [g ({\vec{h}}^{(L)} (v))] = \int g ({\vec{h}}^{(L)} (v)) d P (v) \end{matrix}$
第一个积分是对邻域聚合的替代，第二个积分是对损失函数求均值的替代。
其中：
- $u,v$ $P$ 。
- $\mathbf{\vec h}^{(l)}$ $l$ embedding $l+1$ embedding $l$ embedding $\hat A(v,u)$ $\hat{\mathbf A}$ $(v,u)$ 的元素。
  Riemann–Stieltjes $u,v$ 为图上的节点。但是这种区别只是形式上的区别而已。
- $\mathbf H^{(l)}$ $l$ embedding $\mathbf{\vec h}^{(l)}(v)$ $\mathbf H^{(l)}$ $v$ $()^\top$ 将列向量转换为行向量。
- $g\left(\mathbf{\vec h}^{(L)}\right)$ 的期望。
我们通过蒙特卡洛模拟来求解上述积分，从而得到 batch 训练算法，并很自然地得到 inductive learning 。
$l$ $t_l$ $u_1^{(l)},\cdots,u_{t_l}^{(l)}\sim P$ ，则得到：
$\begin{matrix} {\tilde{\vec{h}}}_{*}^{(l + 1)} (v) = \frac{1}{t_{l}} \sum_{j = 1}^{t_{l}} \hat{A} (v, u_{j}^{(l)}) {({\vec{h}}_{*}^{(l)} (u_{j}^{(l)}))}^{⊤} W^{(l)} \\ {\vec{h}}_{*}^{(l + 1)} (v) = σ ({\tilde{\vec{h}}}_{*}^{(l + 1)} (v)) \end{matrix}$
$\mathbf{\vec h}_* ^{(l)}(\cdot)$ 表示根据蒙特卡洛模拟近似的 embeding 函数。
最终的损失函数估计为：
$L_{*} = \frac{1}{t_{L}} \sum_{i = 1}^{t_{L}} g ({\vec{h}}_{*}^{(L)} (u_{i}^{(L)}))$
原理是以蒙特卡洛模拟来执行 “期望公式 -- 积分” 之间的替代，即：“原始公式（期望视角） --> 积分 --> 新公式（期望视角）”。
$\tilde{\mathbf{\vec h}}_*^{(l+1)}(v)$ 时可能一个邻居都没有采样到，最终导致模型效果较差。
$g(\cdot)$ $\sigma(\cdot)$ $\lim_{t_0,\cdots,t_L\rightarrow \infty} \mathcal L_{*}$ 1 $\mathcal L$ 。
$\sigma(\cdot)$ 是连续的）。
$G$ $V^\prime$ 中采样的样本。因此我们的蒙特卡洛模拟采样过程中需要 bootstrap 采样从而获得一致的估计。
batch $G$ $t_L$ $u_i^{(l)}, i =1,\cdots,t_l; l=0,\cdots,L-1$ $\mathbf H^{(l)}$ 的列进行均匀采样。
$L$ $L$ $\mathbf H^{(L)}$ $\mathbf H^{(L)}$ batch $u_1^{(L)},\cdots,u_{t_L}^{(L)}$ 来描述一个 batch 的节点，因此得到 batch loss：
$L_{batch} = \frac{1}{t_{L}} \sum_{i = 1}^{t_{L}} g ({\vec{h}}^{(L)} (u_{i}^{(L)}))$
其中：
${\vec{h}}^{(l + 1)} (v) = σ (\frac{n}{t_{l}} \sum_{j = 1}^{t_{l}} \hat{A} (v, u_{j}^{(l)}) {({\vec{h}}^{(l)} (u_{j}^{(l)}))}^{⊤} W^{(l)}), l = 0, \dots, L - 1$
$\left( \mathbf {\vec h}^{(l)}\left(u_j^{(l)}\right)\right)^\top \mathbf W^{(l)}$ $\hat A(v,u)$ $1/n$ ，因此需要除以采样概率从而恢复原始的期望值。
$\sigma(\cdot)$ $n$ 为图中节点数量，用于解决 GCN 原始的矩阵形式和我们的 embedding 积分形式之间的归一化差异。
$\mathbf H^{(l)}$ 上应用链式法则来直接获取相应的 batch 梯度，最终我们得到了 batch 损失以及 batch 梯度。
理论上讲，如果跨 batch 共享，那么训练速度会更快，但是效果可能会更差。论文这里选择 batch 之间独立地采样，即，不共享。
下图给出了 GCN 的两种观点。
- 左图：图卷积的观点。每个圆圈表示图中的一个节点。在连续的两行上，如果图中两个节点存在连接，则对应的圆圈以灰线相连（其中部分灰线被橙线覆盖）。卷积层利用图的连接性来融合图的节点特征或者 embedding 。
- 右图：积分变换的观点。下一层 embedding 函数为前一层 embedding 函数的积分变换，用橙色扇形表示。
在 FastGCN 中，所有积分（包括损失函数）都是通过蒙特卡洛模拟采样进行评估的。对应于图中，FastGCN 从每一层进行有放回的节点采样从而近似卷积。采样部分由蓝色实体圆圈，以及橙线来表示。例如：
- 输出层（第二层）的一个 batch 包含三个节点
- 第一层有放回地随机采样三个节点，通过这三个节点来求解输出层的 embedding
- 第零层有放回地随机采样三个节点，通过这三个节点来求解第一层三个节点的 embedding
每个 batch 采样的节点集合（即，输出节点）不同、相同 batch 每一层采样的节点集合不同。
FastGCN 的 batch 训练算法（一个 epoch）：
- 输入：
  - $G(V,E)$ $\hat{\mathbf A}$
  - $\eta$
- $\left\{\mathbf W^{(l)}\right\}_{l=0}^{L-1}$
- 算法步骤：
  迭代每个 batch，迭代过程：
  - $l$ $t_l$ $u_1^{(l)},\cdots,u_{t_l}^{(l)}$ 。
  - $l$ $v$ $l+1$ 层被采样到，则计算：
    $\nabla \tilde{\vec{h}} (v) \leftarrow \frac{n}{t_{l}} \sum_{j = 1}^{t_{l}} \hat{A} (v, u_{j}^{(l)}) \nabla {{({\vec{h}}^{(l)} (u_{j}^{(l)}))}^{⊤} W^{(l)}}$
  - $\mathbf W\leftarrow \mathbf W-\eta \nabla \mathcal L_{batch}$ 。

12.2 重要性采样

$\mathcal L_{*}$ $\mathcal L$ $\mathcal L_{*}$ 的方差非常具有挑战性。因此这里我们考虑每一层的非线性之前 embedding 函数的方差。
$l$ $\tilde{\mathbf{\vec h}}_*^{(l+1)}(v)$ $\int \hat A(v,u) \left(\mathbf{\vec h}^{(l)}(u) \right)^\top\mathbf W^{(l)} dP(u)$ $t_{l+1}$ $v=u_1^{(l+1)},\cdots,u_{t_{l+1}}^{(l+1)}$ $\tilde{\mathbf{\vec h}}_*^{(l+1)}\left(u_j^{(l+1)}\right)$ $l$ 层对最终损失函数估计量偏离的贡献。因此，我们现在希望改善这个方差。
- $\tilde{\mathbf{\vec h}}_*^{(l+1)}\left(u_j^{(l+1)}\right)$ $l$ 层的方差。
- embedding $\tilde{\mathbf{\vec h}}_*^{(l+1)}(v)$ embedding $\mathbf{\vec h} _*^{(l+1)}(v)$ 。
为表述方便，我们修改某些符号。
- $l$ $u$ $u_j^{(l)}$ $u_j$ $t_l$ $t$ $\left(\mathbf{\vec h}^{(l)}(u) \right)^\top\mathbf W^{(l)}$ $\mathbf{\vec x}(u)$ 。
- $l+1$ $v$ $u_i^{(l+1)}$ $v_i$ $t_{ l+1}$ $s$ $\tilde{\mathbf{\vec h}}_*^{(l+1)}(v)$ $\mathbf{\vec y}(v)$ 。
$v,u$ $t_{l+1}$ $\tilde{\mathbf{\vec h}}_*^{(l+1)}\left(u_j^{(l+1)}\right)$ 的均值为：
$\vec{g} = \frac{1}{s} \sum_{i = 1}^{s} \vec{y} (v_{i}) = \frac{1}{s} \sum_{i = 1}^{s} (\frac{1}{t} \sum_{j = 1}^{t} \hat{A} (v_{i}, u_{j}) \vec{x} (u_{j}))$
$\mathbf{\vec g}$ 的方差为：
$var (\vec{g}) = \vec{r} + \frac{1}{s t} \int \int \hat{A} (v, u)^{2} \vec{x} (u)^{2} d P (u) d P (v)$
其中：
$\begin{matrix} \vec{r} = \frac{1}{s} (1 - \frac{1}{t}) \int \vec{e} (v)^{2} d P (v) - \frac{1}{s} {(\int \vec{e} (v) d P (v))}^{2} \\ \vec{e} (v) = \int \hat{A} (v, u) \vec{x} (u) d P (u) \end{matrix}$
$(\cdot)^2$ 为向量逐元素的平方。
证明见原始论文。
$\mathbf{\vec g}$ 的方差由两部分组成：
- $\mathbf{\vec r}$ $v$ $l$ $l$ $u$ 变量空间的采样。
- $u$ 变量空间的节点采样方式。
$P$ $u_j$ importance sampling $\mathbf{\vec g}$ 的方差。
$Q(u)$ $u_j$ 进行采样。因此我们定义样本均值新的近似。定义：
${\vec{y}}_{Q} (v) = \frac{1}{t} \sum_{j = 1}^{t} \hat{A} (v, u_{j}) \vec{x} (u_{j}) (\frac{d P (u)}{d Q (u)} |_{u_{j}}), u_{1}, \dots, u_{t} \sim Q$
以及新的均值：
${\vec{g}}_{Q} = \frac{1}{s} \sum_{i = 1}^{s} {\vec{y}}_{Q} (v_{i})$
$Q$ $\mathbb E[\mathbf{\vec g}_Q] = \mathbb E[\mathbf{\vec g} ]$ 。因为：
$E [{\vec{g}}_{Q}] = E [\frac{1}{s} \sum_{i = 1}^{s} {\vec{y}}_{Q} (v_{i})] = E [{\vec{y}}_{Q} (v) ∣ v] = \int \hat{A} (v, u) \vec{x} (u) d P (u) = E [\vec{g}]$
定理：如果：
$d Q (u) = \frac{b (u) | \vec{x} (u) | d P (u)}{\int b (u) | \vec{x} (u) | d P (u)}$
$b(u) = \left[\int \hat A(v,u)^2 dP(v)\right]^{1/2}$ $\mathbf{\vec g}_Q$ 的方差为：
$var [{\vec{g}}_{Q}] = \vec{r} + \frac{1}{s t} {[\int b (u) | \vec{x} (u) | d P (u)]}^{2}$
$Q$ 中最小的方差。
$|\cdot|$ 表示向量的长度。
证明见原始论文。
$b(u)$ $\hat{\mathbf A}$ $u$ $L_2$ 范数。
$dQ(u) = \frac{b(u)| \mathbf{\vec x}(u)| dP(u)}{\int b(u)| \mathbf{\vec x}(u)| dP(u)}$ $Q$ $| \mathbf{\vec x}(u)|$ $\mathbf{\vec x}(u)$ $\mathbf W^{(l)}$ embedding $\mathbf H^{(l)}$ $\mathbf W^{(l)}$ 的矩阵乘法，计算代价太高。
$Q$ $b(u)$ $Q$ $\text{var}(\mathbf{\vec g}_Q)$ $\text{var}(\mathbf{\vec g})$ ，但是实践中我们发现它几乎总是有益的。
$dQ(u) = \frac{b(u)^2 dP(u)}{\int b(u)^2 dP(u)}$ $\mathbf{\vec g}_Q$ 的方差为：
$var ({\vec{g}}_{Q}) = \vec{r} + \frac{1}{s t} \int b (u)^{2} d P (u) \int \vec{x} (u)^{2} d P (u)$
证明见原始论文。
$dQ(u)$ $\hat{\mathbf A}$ $u$ 的邻接向量长度的平方，占所有节点邻接向量长度平方之和的比例。
$dQ(u) = \frac{b(u)^2 dP(u)}{\int b(u)^2 dP(u)}$ $dQ(u)/dP(u)$ $b(u)^2 = \int \hat A(v,u)^2 dP(v)$ $\hat A(v,u)^2$ $v$ 的积分。
实际应用过程中，我们为图中所有节点定义了概率质量函数：
$q (u) = \frac{{‖ \vec{a} (u) ‖}^{2}}{\sum_{u^{'} \in V} {‖ \vec{a} (u^{'}) ‖}^{2}}, u \in V$
$\mathbf{\vec a}(u) = \left(\hat A(v_1,u),\cdots,\hat A(v_n,u)\right)^\top$ $\hat {\mathbf A}$ $u$ $u$ 的邻接向量。
$t$ $\{u_1,\cdots,u_t\}$ 。
即，根据邻域连接强度的平方之和为概率来采样。因此，degree 较高的节点更有可能被采样。
$q(u)$ $q(u)$ $l$ 不相关。因此所有层的节点采样分布都相同。
$q(u)$ batch $\mathcal L_\text{batch}$ 为：
$L_{batch} = \frac{1}{t_{L}} \sum_{i = 1}^{t_{L}} g ({\vec{h}}^{(L)} (u_{i}^{(L)}))$
其中：
${\vec{h}}^{(l + 1)} (v) = σ (\frac{1}{t_{l}} \sum_{j = 1}^{t_{l}} \frac{\hat{A} (v, u_{j}^{(l)}) {({\vec{h}}^{(l)} (u_{j}^{(l)}))}^{⊤} W^{(l)}}{q (u_{j}^{(l)})}), u_{j}^{(l)} \sim q,, l = 0, \dots, L - 1$
$\mathbf {\vec h}^{(l+1)}(v) = \sigma\left(\frac{n}{t_l}\sum_{j=1}^{t_l}\hat A\left(v,u_j^{(l)}\right)\left( \mathbf {\vec h}^{(l)}(u_j^{(l)})\right)^\top \mathbf W^{(l)}\right)$ 的主要区别在于：
- $\mathbf {\vec h}^{(l+1)}(v)$ $q$ ${1}/{q\left(u_j^{(l)}\right)}$ 。
- $\mathbf {\vec h}^{(l+1)}(v)$ $1/n$ 。
$\mathbf H^{(l)}$ 上应用链式法则来直接获取相应的 batch 梯度，最终我们得到了 batch 损失以及 batch 梯度。
$Q(u)$ $q(u)$ $k$ $k$ 为超参数。
基于重要性采样的 FastGCN batch 训练算法（一个 epoch ）：
- 输入：
  - $G(V,E)$ $\hat{\mathbf A}$
  - $\eta$
- $\left\{\mathbf W^{(l)}\right\}_{l=0}^{L-1}$
- 算法步骤：
  $u$ $q(u) \propto \left\|\mathbf{\vec a}(u)\right\|^2$ 。
  迭代每个 batch，迭代过程：
  - $l$ $q(u)$ $t_l$ $u_1^{(l)},\cdots,u_{t_l}^{(l)}$ 。
    这里根据邻域连接强度的平方和作为概率，而不是均匀采样。
  - $l$ $v$ $l+1$ 层被采样到，则计算：
    $\nabla \tilde{\vec{h}} (v) \leftarrow \frac{1}{t_{l}} \sum_{j = 1}^{t_{l}} \frac{\hat{A} (v, u_{j}^{(l)})}{q (u_{j}^{(l)})} \nabla {{({\vec{h}}^{(l)} (u_{j}^{(l)}))}^{⊤} W^{(l)}}$
  - $\mathbf W\leftarrow \mathbf W-\eta \nabla \mathcal L_\text{batch}$ 。
$\hat{\mathbf A}$ $\hat A(v,u)$ ，因此整个算法是 inductive 的。

12.3 讨论

inference：前述的采样方法清晰地将训练数据和测试数据分开，因此这种方法是 inductive 的，而不是 transductive 。本质是将图的节点集合转换为独立同分布的 iid 样本，以便学习算法可以使用损失函数的一致估计量的梯度来执行参数更新。
在测试过程中，可以使用完整的 GCN 架构来计算新节点的 embedding ，也可以使用在训练过程中通过采样来近似的方法。通常，使用完整 GCN 来 inference 更容易实现。
与 GraphSAGE的比较：GraphSAGE 通过聚合邻域信息来生成节点 embedding。由于递归邻域扩展，它和 GCN 一样都存在内存瓶颈。为减少计算量，作者建议限制每一层的直接邻域大小。
- GraphSAGE $l$ $t_l$ $\prod_{l =1}^L t_{l }$ 。
- FastGCN $\sum_{l=1}^L t_l$ ，远小于 GraphSAGE 。实验表明，FastGCN 这种方式可以大幅度提高训练速度。
事实上 FastGCN 训练算法（包括重要性采样的训练算法）并不完全遵循 SGD 的现有理论，因为尽管梯度的估计量是一致的，但是这个估计量是有偏的。论文证明了即使梯度估计量是有偏的，学习算法仍然是收敛的。
FastGCN 主要聚焦于提升邻域采样方法的效率，这种做法也可以应用到 GraphSAGE 等方法。方法实现很简单，但是作者这里给了理论上的说明。

12.4 实验

数据集：
- Cora 引文数据集：数据集包含以文档（具有稀疏 BOW 特征向量）作为节点，文档之间的引文链接作为边。共包含2708 个节点、5429 条边、7 个类别，每个节点 1433 维特征。
- Pubmed 学术论文数据集：数据集包含以文档（具有稀疏 BOW 特征向量）作为节点，文档之间的引文链接作为边。共包含19717 个节点、44338 条边、3 个类别，每个节点 500 维特征。
- Reddit 数据集：包含2014 年 9 月Reddit 上发布帖子的一个大型图数据集，节点标签为帖子所属的社区。
我们调整了 Cora, Pubmed 的训练集、验证集、测试集划分，从而与监督学习的场景相一致。具体而言，训练集中所有标签都用于训练，而不是半监督学习使用训练集中非常少量的标签。这种方式与 GraphSage 工作中使用的Reddit 一致。
这里没有给出平均 degree 信息，读者猜测：FastGCN 对于 degree 较小的长尾节点不利。
Baseline 方法：
- GCN：《Semi-supervised classification with graph convolutional networks》提出的 GCN 方法。原始的 GCN 无法在非常大的图上（例如 Reddit），因此我们只需要在 FastGCN 中移除采样即可将其修改为 batch 版本。如，我们在每个 batch 使用所有节点，而不是在每个 batch 中在每一层随机采样一些节点。
  对于较小的图（如 Cora 和 Pubmed），我们还将batch 版本的 GCN 和原始 GCN 进行比较。
- GraphSAGE ：为比较训练时间，我们使用 GraphSAGE-GCN，它使用 GCN 作为聚合器，这也是所有聚合器中最快的版本。
  为进行准确性比较，我们还将它与 GraphSAGE-mean 进行比较。
实验配置：
- 所有模型的学习率在 {0.01, 0.001, 0.0001} 中选择。
- 所有模型都采用两层网络（包括 FastGCN, GCN, GraphSAGE）。
  - 对于 GraphSAGE，这两层的邻域采样大小分别为 S1=25, S2=10 ，隐层维度为 128。
  - 对于 FastGCN， Reddit 数据集的隐层维度为 128，其它两个数据集的隐层维度为 16 。
- 对于 batch 训练的模型(FastGCN, GCN-batch, GraphSAGE) ，Reddit, Cora 数据集的 batch size = 256，Pubmed 数据集的 batch size = 1024 。
- GraphSAGE, GCN 的代码是从原作者的网站上下载，使用原始论文的实现。
- FastGCN 的 inference 是通过完整的 GCN 网络来完成。
- FastGCN 使用 Adam 优化器。
- FastGCN 在Cora, Pubmed, Reddit 三个数据集上采样的节点数量数量分别为 400, 100, 400 。
- 硬件配置：4 核 2.5GHz Intel Core i7， 16G Ram 。

12.4.1 超参数研究

首先我们观察不同采样规模对 FastGCN 的影响。下表左侧（Sampling 列）给出了随着采样数量增加，对应的训练时间（单位 s/epoch）、分类准确性（以 F1 衡量）的变化。该数据集为 Pubmed 数据集，batch size = 1024 。
为便于说明，我们将网络两层的采样数量都设为同一个值。可以看到：随着采样数量的增加，每个 epoch 训练时间也会增加，但是准确性也会提高。
$\mathbf H^{(0)}$ $\hat{ \mathbf A} \mathbf H^{(0)}$ $\mathbf W^{(0)}$ 的梯度链式扩展的最后一步在整个训练过程中都是恒定的。因此可以预计算这个矩阵乘积，而不是对该层采样从而获得效率提升。
我们给出预计算的结果（右侧Precompute 列），可以看到：使用预计算后，训练时间大幅降低，但是预测准确性却相当。因此后续实验我们都使用预计算。
然后我们考察 FastGCN 中均匀采样和重要性采样的区别。三个图依次为 Cora, Pubmed, Reddit 数据集的结果。可以看到：基于重要性采样的 FastGCN 始终比基于均匀采样的 FastGCN 效果更好。
$dQ(u) = \frac{b(u)^2 dP(u)}{\int b(u)^2 dP(u)}$ $dQ(u) = \frac{b(u)| \mathbf{\vec x}(u)| dP(u)}{\int b(u)| \mathbf{\vec x}(u)| dP(u)}$ 。结果表明我们折衷的重要性采样比均匀采样更接近最佳的重要性采样。
因此，后续实验将使用重要性采样。

12.4.2 Baseline 比较

最后我们对比了 FastGCN 和 Baseline 方法的训练速度和分类效果。左图以对数坐标给出了每个 batch 的训练时间，单位为 s 。
注意：在训练速度比较中，GraphSAGE 指的是 GraphSAGE-GCN ，它和其它聚合器（如 GraphSAGE-mean ）是差不多的。GCN 指的是 GCN-batched 版本，而不是 GCN-original 版本。GCN-original 在大的图(如 Reddit ) 上内存溢出。
可以看到：
- GraphSAGE 在大型和稠密的图（Reddit ）上训练速度比 GCN 快得多，但是在小数据集上(Cora, Pubmed) 要比 GCN 更慢。
- FastGCN 训练速度最快，比第二名（除 Cora 之外）至少提高了一个量级，比最慢的提高了大约两个量级。
- 除了训练速度优势之外，FastGCN 的准确性和其它两种方法相比相差无几。
上面比较了单个 batch 的训练速度。实际上总的训练时间除了受到 batch 训练速度的影响之外，还受到收敛性的影响（决定了需要训练多少个 batch）。这里我们给出总的训练时间，单位为秒。注意：收敛性受到学习率、batch size、sample size 等因素的影响。
可以看到：尽管收敛速度使得FastGCN 拖慢了最终训练速度（整体训练速度的提升比例低于单个 batch 的提升比例），但是 FastGCN 整体训练速度仍然保持巨大优势。
注意：即使GCN-original 的训练速度比 GCN-batched 更快，但是由于内存限制导致GCN-original 无法扩展。因此这里我们仅比较了 GCN-batched 版本。
我们还给出了随着训练的进行，预测准确性的变化。下图从左到右依次为 Cora,Pubmed,Reddit 数据集。
在讨论期间，GraphSAGE 的作者提供了时间优化的版本，并提醒说 GraphSAGE 更适合于大图。原因是：对于小图，采样大小（它等于各层样本数量的乘积）和图的大小相差无几，因此改善的程度很小。
此外，采样的开销可能会对训练时间有不利影响。为公平比较，GraphSAGE 的作者保留了采样策略，但是通过消除对采样节点的冗余计算，改进了原始代码的实现。
可以看到：GraphSAGE 现在在小图 Cora 上的训练速度快得多。注意，这种实现方式不会影响大图（Reddit），并且我们的 FastGCN 仍然比它快一个量级。
在前面评估过程中，我们增加了 Cora,Pubmed 数据集中训练标签数量，从而与 Reddit 监督学习的训练集比例保持一致。作为参考，这里我们给出使用原始数据集拆分，从而使用更少的训练标签的结果。
此外我们还给出FastGCN 的 transductive 版本，它同时使用训练节点、测试节点学习，这个过程中仅使用少量训练节点的标签信息（而不使用任何测试节点的标签信息）。
可以看到：
- GCN 的结果和 《Semi-supervised classification with graph convolutional networks》 报告的结果一致。由于训练标记数据稀疏，GCN 训练速度非常快。FastGCN 仅在 Pubmed 数据集上超越 GCN 的训练速度。
- 由于训练标记数据稀疏，FastGCN 的准确性也比 GCN 更差。
- transductive 版本的 FastGCN 和 GCN 的准确性相差无几，比 inductive 的 FastGCN 更好。但是其训练时间也更长（训练节点更多）。
- GraphSAGE 的结果有些奇怪，其F1 值非常低。我们怀疑模型严重过拟合，因为它的训练准确性为 1.0，非常完美。
- 注意到这里的 GCN-original 要比前面报告给出的 GCN-original 更慢。这时因为我们这里使用和 《Semi-supervised classification with graph convolutional networks》 工作中相同的超参数，而前面给出的 GCN-original 使用调参之后的学习率（因为数据集拆分发生变化，所以需要调参）。
下表中的Time 单位为 s/batch 。

十三、PinSage[2018]

深度学习方法在推荐系统应用中发挥着越来越重要的作用，并被用于学习图像、文本、甚至单个用户的有用的低维 embedding 。使用深度模型学到的 representation 可以用于补充甚至替代传统的推荐算法，如协同过滤。这些学到的 representation 具有很高的实用价值，因为它们可以在各种推荐任务中重复使用。例如，使用深度模型学到的 item embedding 可用于 item-item 推荐，也可用于被推荐主题的集合（如，playlists 或者 feed 内容）。
近年来推荐领域取得了一些重大进展，尤其是随着图结构数据上的一些新的深度方法的研发，这对于推荐 application 而言至关重要，如利用 user-item 交互的二部图、利用社交网络。
在这些图的 deep learning 方法中，最突出的就是图卷积神经网络 GCN 相关的 deep learning 架构。GCN 背后的核心思想是：学习如何利用神经网络从图的 local graph neighborhood局部邻域 iteratively 迭代地聚合节点的特征信息。一次 “卷积” 运算就可以转换和聚合节点直接邻域（直接相连的邻居）中的特征信息。并且，通过堆叠这种卷积操作，信息可以向图的更远处进行传播。和单纯的 content-based 深度模型（如 RNN）不同，GCN 会同时利用内容信息以及图结构信息。
虽然基于 GCN 的方法为无数推荐系统的 benchmark 设置了新的基准，但是 benchmark 上的这些任务的增益并未转换为实际生产任务的增益。主要挑战是 GCN 难以扩展到十亿节点、百亿边的大型图。
GCN 的 scale 非常困难，因为在大型图中违背了 GCN 设计过程中的诸多核心假设：
- 首先，所有现有的基于 GCN 的推荐系统都需要在训练过程中对完整的图拉普拉斯矩阵进行操作，当底层的图具有数十亿节点时，计算和空间复杂度太高。
- 其次，当图结构不断演变时，图的拉普拉斯矩阵发生变化，依赖于图拉普拉斯矩阵的 GCN 模型无法应用。
为解决这些问题，论文 《Graph Convolutional Neural Networks for Web-Scale Recommender Systems》 提出了一个叫做 PinSage 的 highly-scalable 的 GCN 框架，该框架是在 Pinterest 的生产环境中开发和部署的。PinSage 框架是基于随机游走的 GCN，应用在 30 亿节点、180 亿边的大规模图上。这种规模的图比 GCN 的典型任务大了 10000 倍。
PinSage 利用几个关键洞察insight 来显著提高 GCN 的可扩展性：
- 动态卷积On-the-fly convolution：传统的 GCN 算法通过将特征矩阵乘以完整的图拉普拉斯矩阵的幂来执行图卷积。相反，PinSage 算法通过对节点周围的邻域进行采样，并从该采样的邻域中动态构建计算图来执行高效的局部卷积 localized convolution 。
  类似于 GraphSAGE 的思想。
  这些动态构造的计算图指定了如何对特定节点执行局部卷积，从而缓解了训练期间对整个图进行操作的需求。
  注意：这里的计算图是原图的子图，而不是tensorflow 的计算图。
- “生产者--消费者” mini-batch 构建：PinSage 设计了一种 “ 生产者--消费者” 体系结构来构建 mini-batch，从而确保模型训练期间最大限度地利用 GPU 。
  - 生产者：一个基于 CPU 的、超大内存的生产者高效地对节点的邻域进行采样来动态生成计算图，然后提取局部卷积需要的特征。
  - 消费者：一个基于 GPU 的消费者（tensorflow 模型）使用生产者动态生成的计算图以及节点特征，从而有效地执行随机梯度下降。
- 高效的 MapReduce 推断：给定一个训练好的 GCN 模型，PinSage 设计了一种高效的 MapReduce pipeline ，它可以利用训练好的模型来为十亿级节点生成 embedding，并最大程度地减少重复计算。
  这意味着 item embedding 是离线计算的，而不是 online 学习的。
除了可扩展性这方面的提升之外，作者还使用了新的训练技术以及创新算法从而提高了 PinSage 模型的效果，从而在下游推荐任务中显著提升了性能：
- 基于随机游走的卷积：对节点的整个邻域进行卷积会产生巨大的计算图，因此PinSage求助于邻域采样。但是随机采样的结果是次优的suboptimal ，因此PinSage开发了一种基于 short random walk 采样来生成动态计算图。
  基于随机游走的卷积的另一个好处是：随机游走过程为每个邻域节点分配了一个 importance score，这个得分可以稍后应用于池化 pooling 层。
- 重要性池化 importance pooling：图卷积的一个核心component 是对局部邻域特征信息的聚合，即池化 pooling 。PinSage通过随机游走来对邻域节点进行加权，从而引入基于重要性的池化。该策略使得离线效果评估指标提升 46% 。
  attention-based 聚合也是一种重要性池化方法。
- curriculum training：PinSage设计了一个 curriculum 训练方案，该方案在训练过程中向算法不断提供越来越难区分的样本。该策略使得模型性能提高 12% 。
目前 PinSage 已经部署在 Pinterest 上用于各种推荐任务。Pinterest 是一个流行的内容发现和管理的 web 服务，它为用户提供大量的 pin （在线内容可视化的标签，如用户想要烹饪的食谱、用户想要购买的衣服）。用户可以和这些 pin 进行互动，如将这些 pin 保存到 board 中。每个 board 包含用户认为主题相关的一组pin，如都是食谱主题或者运动主题。总之 Pinterest 是世界上最大的用户精选 user-curated 的图，包含超过 20 亿去重的 pin、以及 10 亿个 board 。
通过离线指标评估、用户调研评估、以及在线 A/B test，论文证明了相比其它 scalable 的 content-based 深度学习推荐算法，PinSage 在 item 推荐任务中和 homefeed 推荐任务中取得了 state-of-the-art 性能：
- 在离线的 ranking 指标中，PinSage 比表现最好的 baseline 提高了 40% 以上。
- 在 head-to-head 的人工评估中，PinSage 的推荐在大约 60% 的时间里更受欢迎。
- 在 A/B test 中，在各种 setting 下，用户互动提高了 30% 到 100% 。
据作者所知，这时迄今为止 deep graph embedding 最大的应用，这为基于图卷积神经网络的新一代 web-scale 推荐系统指明了方向。
这是一篇典型的工业界的论文，这类论文的一个重要问题是：效果没办法复现。一方面，其它研究者无法获完整的数据；另一方面，算法的训练和部署要求工业级的基础设施；第三，算法和业务强烈耦合。
相关工作：我们的工作建立在图结构数据深度学习方法的一些最新进展之上。
- 《A new model for learning in graph domains》 首先概述了用于图数据的神经网络的概念，而 《The graph neural network model》 做了进一步的阐述。然而，这些在图上进行深度学习的初始方法需要运行昂贵的 message-passing 算法来收敛，并且在大型图上过于昂贵。
  《Gated graph sequenceneural networks》 提出的 Gated Graph Sequence Neural Network: GGSNN 解决了一些局限性，它采用了现代循环神经架构，但是计算成本仍然很高，并且主要用于小于 1 万个节点的图。
- 最近，人们提出了很多的、依赖于 GCN 概念的方法。这些方法起源于 《Spectral networks and locally connected networks on graphs》，该论文提出了一个基于谱图理论spectral graph thery 的图卷积版本。遵从这项工作，许多作者提出了对谱卷积的改进、扩展、以及近似，从而在节点分类、链接预测、以及推荐系统任务等 benchmark 上产生了新的 state-of-the-art 结果。这些方法一直优于基于矩阵分解或基于随机游走的技术（如，node2vec 和 DeepWalk）。并且，由于这些方法的成功，因此吸引了人们对将 GCN-based 方法应用到从推荐系统到药物设计的应用的兴趣。《Representation Learning on Graphs: Methods and Applications》 和 《Geometric deep learning: Going beyond euclidean data》 对最近的进展进行了全面的综述。
- 然而，尽管 GCN 算法取得了成功，但是以前没有任何工作能够将它们应用到具有数十亿节点和边的大型图数据。一个局限性是，传统的 GCN 方法需要在训练期间对整个图拉普拉斯算子进行操作。这里，我们填补了这一空白，并表明 GCN 可以扩展从而在涉及数十亿节点的 production-scale 的推荐系统 setting 中运行。我们的工作还展示了 GCN 在现实环境中对推荐性能的重大影响。
- 在算法设计方面，我们的工作和 GraphSAGE 以及 FastGCN 密切相关。GraphSAGE 是 GCN 的 inductive 变体，从而避免在整个图拉普拉斯矩阵上进行操作。我们通过使用高效的随机游走来采样节点的邻域子图，从而消除了将整个图存储到 GPU 内存中的限制，从而从根本上改进了 GraphSAGE 。我们还引入了许多新的训练技术来提高性能，并引入 MapReduce pipelie 来扩展到数十亿节点的inference。
- 最后，经典的 graph embedding 方法（如 node2vec, DeepWalk）无法应用到此处。
  - 首先这些方法是无监督方法，而 Pinterest 包含大量的监督信息（用户保存了哪些 pin 是监督信息）
  - 其次，这些方法无法使用节点特征信息，如 pin 的视觉特征、文本特征。
  - 最后，这些方法直接学习节点的 embedding，因此模型参数规模和图的规模呈线性关系，这对于 Pinterest 是过于昂贵的。
  还有，这些方法是 transductive 的，因此无法应用到unseen 的 item 。

13.1 模型

Pinterest 的graph 包含 20 亿个去重的 pin、10亿个 board，以及 180 亿条边。每条边包含一个 pin 节点、一个 board 节点。我们的任务是生成可用于推荐的高质量 embedding 。
Pinterest $G=(V,E)$ pin $\mathcal I$ board $\mathcal C$ $V=\mathcal I \cup \mathcal C$ $e=(i,j) \in E, i\in \mathcal I, j\in \mathcal C$ 。
pin $i\in \mathcal I$ $\mathbf{\vec x}_i\in \mathbb R^d$ ，这些特征可以包括 pin 的元数据（如 degree ）或者内容信息（如视觉特征或文本特征）。这里我们将 pin 与富文本和图像特征相关联。
我们的目标是利用这些输入属性以及二部图的结构来生成高质量的 embedding。这些 embedding 然后通过最近邻查找用于推荐候选 item 的生成（召回阶段），或者作为机器学习系统中的特征来对候选 item 进行排名（排序阶段）。

13.1.1 模型架构

我们使用局部卷积模块为节点生成 embedding。我们从输入节点特征开始，然后学习神经网络，该神经网络在图上转换和聚合特征从而计算 node embedding 。

a. 前向传播算法

$i$ embedding $\mathbf{\vec h}_i$ $i$ 的输入特征以及节点的邻域结构。
PinSage 的关键是局部图卷积 localized graph convolution。
为了生成 node embedding，我们应用了多个卷积模块（即，局部图卷积模块），这些模块从节点的局部图邻域来聚合特征信息（如，视觉特征、文本特征）。每个模块都学习如何从一个小的图邻域来聚合信息，并且通过堆叠多个这样的模块，我们的方法可以获得有关局部网络拓扑的信息。
更重要的是，这些局部图卷积的参数在所有节点之间共享，使得我们方法的参数复杂度和输入图的规模无关。
局部图卷积操作 localized convolution operation 的基本思想是：
- $i$ representation $\mathbf{\vec h}_v$ $\forall v\in \mathcal N(i)$ $\mathcal N(i)$ $i$ 的邻域。
- $\gamma$ $i$ $\mathcal N(i)$ vector representation $\mathbf{\vec n}_i$ 。
- $i$ representation $\mathbf{\vec n}_i$ representation $\mathbf{\vec h}_i$ 拼接，并利用另一个全连接层对它进行转换。根据经验，当使用拼接操作（而非均值操作）时，我们观察到 PinSage 效果的显著提升。
此外，可以通过对结果进行归一化从而使得训练过程更为稳定，并且归一化的 embedding 执行近似的最近邻搜索 approximate nearest neighbor search 更为有效。
PinSage 局部图卷积算法convolve ：
- 输入：
  - $i$ embedding $\mathbf{\vec h}_i$
  - $i$ embedding $\left\{\mathbf{\vec h}_v\mid v\in \mathcal N(i)\right\}$
  - $i$ $\mathbf{\vec \alpha}$
  - $\gamma(\cdot)$
- $i$ embedding $\mathbf{\vec h}_i^\text{new}$
- 算法步骤：
  - $\mathcal N(i)$ 的表示：
    ${\vec{n}}_{i} = γ ({relu (Q {\vec{h}}_{v} + \vec{q}) ∣ v \in N (i)}, \vec{α})$
  - $i$ 的新的 embedding ：
    ${\vec{h}}_{i}^{new} = relu (W @ concat ({\vec{h}}_{i}, {\vec{n}}_{u}) + \vec{w})$
    其中 @ 表示常规矩阵乘法。
  - 执行归一化：
    ${\vec{h}}_{i}^{new} = \frac{{\vec{h}}_{i}^{new}}{{‖ {\vec{h}}_{i}^{new} ‖}_{2}}$
  - $i$ embedding $\mathbf{\vec h}_i^\text{new}$ 。

b. Importance-based 邻域

$i$ $\mathcal N(i)$ 。过往的 GCN 方法仅检查 kPinSage $i$ $\mathcal N(i)$ $i$ $T$ 个节点。
$i$ $L_1$ $T$ $i$ $\mathcal N(i)$ 。
这种基于重要性的邻域具有两个优点：
- 首先，选择固定数量的邻域节点进行聚合，使得我们在训练过程中可以控制内存消耗。
- 其次，它允许局部卷积算法在聚合邻域向量时考虑不同邻居节点的重要性。
  $\gamma$ $\vec\alpha$ $L_1$ 归一化的访问次数来定义。我们将该方法称作重要性池化 importance pooling 。

c. 堆叠卷积

representation $i$ $l$ $l-1$ 层卷积的输出。初始representation 就是节点的输入特征向量。
$\left\{\mathbf Q,\mathbf{\vec q},\mathbf W, \mathbf{\vec w}\right\}$ $\left\{\mathbf Q^{(l)},\mathbf{\vec q}^{(l)},\mathbf W^{(l)}, \mathbf{\vec w}^{(l)}\right\}$ 。
PinSage mini-batch 前向传播算法：
- 输入：
  - mini-batch $\mathcal B\sub \mathcal V$
  - $L$
  - $\mathcal N(\cdot)$
- embedding $\mathbf z_i, \forall i\in \mathcal B$
- 算法步骤：
  采样 mini-batch 节点的邻域：
  - $\mathcal S^{(L)} \leftarrow \mathcal B$
  - $l=L,\cdots,1$ ：
    - $\mathcal S^{(l-1)} \leftarrow \mathcal S^{(l)}$
    - $\mathcal S^{(l)}$ $\mathcal S^{(l-1)} \leftarrow \mathcal S^{(l-1)}\cup \mathcal N(i)$
  生成节点 embedding：
  - representation $\mathbf{\vec h}_i^{(0)} \leftarrow \mathbf{\vec x}_i, \forall i\in \mathcal S^{(0)}$
  - $l=1,2,\cdots,L$ ：
    $\mathcal S^{(k)}$ $i$ 执行：
    - $i$ representation $\mathcal H=\left\{\mathbf{\vec h}_v^{(l-1)}, \forall v\in \mathcal N(i)\right\}$
    - $\mathbf{\vec h}_i^{(l)}\leftarrow \text{convolve}^{(l)}\left(\mathbf{\vec h}_i^{(l-1)},\mathcal H\right)$
  embedding $i\in \mathcal B$ ，计算：
  ${\vec{z}}_{i} \leftarrow G_{2} relu (G_{1} {\vec{h}}_{i}^{(L)} + {\vec{b}}_{1})$
PinSage mini-batch $L$ $L$ 层 representationfinal embedding $\mathbf z_i, \forall i\in \mathcal B$ 。
- $\left\{\mathbf Q^{(l)}, \mathbf{\vec q}^{(l)}, \mathbf W^{(l)}, \mathbf{\vec w}^{(l)},\forall l\in \{1,\cdots,L\}\right\}$ $\mathbf G_1,\mathbf G_2,\mathbf{\vec b}_1$ 。
- $\mathcal N(i)$ embedding $\mathbf{\vec n}_i\in \mathbb R^m$ $\mathbf{\vec h}_i^{(l)}$ $d$ $\mathbf{\vec h}_i^{(0)}$ $\mathbf{\vec z}_i$ embedding $d$ 。
PinSage 整体结构如下图所示：
- 左图：一个小尺寸输入图的示例。
- 右图：一个两层卷积层的 PinSage 用于计算节点 A 的 embedding 。
- 底图：一个两层卷积层的 PinSage 用于计算所有节点的 embedding 。
  $\text{convolve}^{(1)},\text{convolve}^{(2)}$ 函数参数）。
  $\gamma$ 表示重要性池化函数；细的矩形框（没有阴影图案）表示全连接层。

13.1.2 模型训练

我们首先详细描述我们的 margin-based 损失函数。然后我们概述了我们开发的几种技术，这些技术可以提高 PinSage 的计算效率和收敛速度，使得我们能够在十亿级节点的图以及数十亿个训练样本上进行训练。最后，我们描述了我们的课程学习方案curriculum-training scheme，该方案提高了整体的推荐质量。
损失函数：我们使用 max-margin ranking 损失函数来以监督学习的方式来训练 PinSagepin pair $s_{q,i} = (q,i)$ $q$ 为 query pin ：
- $q$ $i$ 确实相关，则 label1 $i$ 称作 postive pin 。
- $q$ $i$ 不相关，则 label0 $i$ 称作 negative pin 。
pin $q$ pin $i$ $s_{q,i} = (q,i)$ $j\in \mathcal I$ $s_{q.j} = (q,j)$ $q$ 的负样本数量太多，这里我们对负样本进行采样。
max-margin ranking 损失函数的基本思想是：希望最大化正样本的 embedding 内积、并且确保负样本embedding 的内积比正样本 embedding 内积少一个预定义的 marginpin pair $(\mathbf{\vec z}_q, \mathbf{\vec z}_i)$ ，其损失函数为：
$J ({\vec{z}}_{q}, {\vec{z}}_{i}) = E_{n_{k} \sim P_{n} (q)} max {0, {\vec{z}}_{q} \cdot {\vec{z}}_{n_{k}} - {\vec{z}}_{q} \cdot {\vec{z}}_{i} + Δ}$
其中：
- $\Delta$ 为预定义的 margin，它是一个正的超参数。
- $P_n(q)$ query pin $q$ 的负样本分布，关于该分布后文详述。
注意：在目标函数中我们仅考虑 pin 节点（因为 label 是定义在 pin 节点上的），不考虑 board 节点。但是在PinSage 的模型中，我们考虑所有类型的节点（包括 pin 和 board）。
大型 mini-batch 的多 GPU 训练：为了在单台机器上充分利用多 GPU 进行训练，我们以 multi-tower 的方式（multi-tower 是 tensorflow 利用多 GPU 训练的一种模式，默认情况下 tensorflow 使用单个 GPU 训练）进行前向传播和反向传播。
对于多 GPU，我们首先将每个 mini-batch 划分为相等大小的部分，然后每个 GPU 使用 mini-batch 的一部分进行计算（即数据并行）。每个 GPU 使用相同的一组参数进行数据并行。在反向传播阶段，所有 GPU 上各个参数的梯度会汇聚在一起，并在每个迭代步执行同步 SGD 。由于需要训练数十亿样本，因此我们采用了较大的 batch size，从 512 到 4096 。
为处理较大的 batch size，我们使用类似于 《Accurate, Large Minibatch SGD: Training ImageNet in 1Hour》 等人提出的 gradual warmup procedure 技术，从而确保在保持准确性的条件下实现快速收敛：学习率从一个较小的值逐渐线性增加到峰值，然后指数下降。
为什么要 warm up？因为刚开始训练时模型的权重是随机初始化的，此时如果选择一个较大的学习率可能带来模型的不稳定（震荡）。选择 warm up 预热学习率的方式，可以使得开始训练的前几个 epoch 或者 step 内的学习率较小，模型因此可以慢慢趋于稳定。等模型稳定之后再使用预先设置的学习率进行训练，使得模型收敛速度更快，模型效果更佳。
上述这种 warm up 是 constant warm up，不足之处在于：从一个很小的学习率突然变为较大的学习率可能会导致训练误差突然增加。于是 18 年 Facebook 提出了 gradual warmup 来解决这个问题，即学习率从一个较小的值逐渐增加到峰值，然后指数下降。
“生产者 -- 消费者” mini-batch 构建：在训练期间，数十亿个节点的邻接表以及特征矩阵的规模太大，因此只能被放在 CPU 内存中。但是在 PinSage 卷积过程中，每个 GPU 进程都需要访问节点邻域，以及邻域中节点的特征信息。
从 GPU 访问 CPUre-indexing $G^\prime = (V^\prime,E^\prime)$ ，该子图仅涉及当前的 mini-batchmini-batch $G^\prime$ 中节点索引一致。
$G^\prime$ 的邻接表和重建的小的特征矩阵在每次 mini-batch 迭代开始的时候都被馈送到 GPU 中，因此在卷积过程中不再需要 GPU 和 CPU 之间进行通信，从而大幅提升了 GPU 的利用率。
训练过程交替使用 CPU 和 GPU：模型运算在 GPU 中进行；特征提取、reindexing、负采样可以在 CPU 中进行。另外我们通过 tensorflow 的 multi-tower 模式来并行化 GPU 计算，通过 OpenMP 来并行化 CPU 计算。
最后我们还设计了一个 “生产者 -- 消费者” 模式：当 GPU 在计算当前迭代的运算时，CPU 同时在计算下一轮迭代需要的特征提取、reindexing、负采样等等。该策略使得PinSage 训练时间进一步降低近一半。
负样本采样：为提高较大 batch sizemini-batch $s_{q,i}$ 我们并未独立采样负样本，而是采样了一组 500 个负样本从而在所有正样本之间共享负样本。
和每个节点独立地负采样相比，这种共享负样本的方式可以大大节省每个训练 step 需要计算的 embedding 数量。从经验上讲，我们并未观察到这两种方式之间的性能差异。
最简单的负采样方式是均匀采样，但是这种方式采样的负样本过于简单，无法为模型提供足够区分度的负样本。考虑到我们有 20 亿个去重的 pin，我们的推荐算法需要在 20 亿个 pin 中推荐 1000query pin $q$ 最相关的 pin ，即在 200 万个 pin 中识别出 1 个 pin，即模型分辨率为 1/200万。但是，如果是 500 个随机负样本（以及一个正样本），则模型的分辨率 resolution 仅为 1/501。因此，如果我们从 20 亿个 pin 中随机抽取 500 个负样本，则这些负样本与 mini-batch 中任何一个 query pin 相关的可能性都非常小。即：这些负样本都过于简单，没有足够的区分度。
$s_{q,i}$ ，我们添加一些 hardquery pin $q$ postive pin $i$ 不相关的 pin 集合，我们称之为 hard negative pin 。这些 hard negative pinquery pin $q$ 的 Personalized PageRank 得分进行排序，然后挑选排序在 2000 - 5000 的 pin 被随机采样为 hard negative pin 的。
Personalized PageRank $q$ $q$ $1-\epsilon$ $q$ $\epsilon$ 的概率继续游走。从当前节点游走到下一个节点按照 out degree 均匀分布。这样经过多轮游走之后，每个节点被访问的概率趋于稳定。
Personalized PageRankPageRank $q$ $q$ 权重初始为 1、其它节点初始化化为 0 ，后者均匀初始化。
如下图所示，相比随机负样本，hard negative pin 和 query pin 更相似，因此对模型的 ranking 能力提出了挑战，从而迫使模型学会更精细化地区分不同的 pin 。
hard 负样本没有选择最相关的（排序在 top 2000 的 pin）。
课程学习方案：一旦使用 hard negative pin，则训练收敛需要的 epoch 会翻倍。为加快训练的收敛速度，我们制定了课程学习方案：
- 在训练的第一个 epoch，我们不使用任何 hard negative pin，因此算法可以快速找到参数空间中损失函数相对较小的区域。
- 在随后的训练 epoch 中，我们逐渐添加更多的 hard negative pin，迫使模型学习如何区分高度相关的 postive pin 和稍微相关的 negtive pin 。
  $n$ 个 epochquery pin $q$ $n-1$ 个 hard negative pin 。
学习过程由易到难。

13.1.3 MapReduce Pipeline

利用训练好的模型为所有 pin （包括训练期间未见过的 pin ）生成 embedding 仍然是一项挑战。直接应用 PinSage mini-batch 前向传播算法会导致大量的重复计算，因为 mini batch 中的各个节点的邻域会相互重叠。当为不同目标节点生成 embedding 时，会在很多层重复计算很多节点，如下图所示。
为了进行高效的 inference，我们开发了一种 MapReduce 方法，该方法无需重复计算即可执行 model inference 。
node embedding 的 inference 非常适合 MapReduce 计算模型，下图给出了 pin-board 二部图上 embedding inference 的数据流。
第零层为输入层，这一层的节点为 pin 节点；第一层节点为 board 节点。MapReduce pipeline 包含两个关键部分：
- 一个 MapReduce 作业将所有 pin 投影到低维embedding 空间。
- 另一个 MapReduce 作业通过将 board 内的 pin 的 embedding 进行池化，得到 board 的 embedding 。
我们的方法避免了冗余计算，并且每个节点的潜在 embedding 仅计算一次。
在获得了 board embedding 之后，我们采用上述类似的方式，使用另外两个 MapReduce 作业来计算 pinembedding $L$ $L$ 层卷积层）。

13.1.4 高效的最近邻检索

PinSage 生成的 embedding 可用于下游推荐任务。在许多场景中我们可以通过在学到的 embeddingquery pin $q$ embedding $q$ $K$ 个 pin 作为推荐列表。
可以通过 locality sensitive hashing:lsh 来高效地获得近似的 kNN（Approximate KNN）。如果 PinSage 模型是离线训练好的，并且所有 node embedding 都是通过 MapReduce pipeline 计算并保存到数据库中，则 approximate KNN 可以使得系统在线提供推荐服务。

13.2 实验

为证明 PinSage 的效率和效果，我们对整个 Pinterest Graph 进行了全面的实验，包括离线实验、在线 A/B test 、用户调研user study。
我们评估了两个任务：
- 相关 pin 的推荐 related-pin recommendationquery pin $K$ 个邻居。
  我们使用离线 ranking 指标，以及用户调研来评估推荐的效果。
- 首页 feedspin $K$ 个邻居。
  我们使用在线 A/B test 来评估 PinSage 部署在生产系统上的效果。
数据集：我们通过Pinterestpin $q$ pin $i$ pin pair $s_{q,i} = (q,i)$ $j\in \mathcal I$ $s_{q.j} = (q,j)$ 为负样本。如前面 “模型训练” 部分所述，这里我们对负样本进行采样。
总而言之，我们构建了 12 亿个正样本。此外，我们为每个 mini-batch 负采样了 500 个共享的负样本，以及每个 query pin 进行 hard 负采样了 6 个 hard negative pin 。最终我们一共得到了 75 亿个训练样本。
考虑到 PinSage 是 inductive learning，因此我们仅在 Pinterest 的一个子图上进行训练，然后使用 MapReduce pipeline 为整个图生成 embedding。
我们从整个 PinSage 图中随机采样一个子图作为训练集，它包含 20% 的 board 节点（以及这些 board 包含的所有 pin 节点），并且包含子图中 70% 的正样本。我们将子图中剩余的 10% 正样本作为验证集进行超参数调优；并将子图中剩余的 20% 正样本作为测试集，用于推荐效果的离线评估。
注意：在测试期间我们对整个 PinSage 图进行 inference 从而计算所有 20 亿个 pin 的 embedding 。而验证期间，我们只考虑训练集中出现的节点。
使用整个图的子集来训练可以大大降低训练时间，而对最终的效果影响几乎可以忽略不计。总体而言，用于训练和验证的数据集大小约为 18TB，而完整的输出 embedding 为 4TB 。
节点特征：Pinterest 的每个 pinpin $q$ ，我们将视觉 embedding （4096 维）、文本 embedding （256 维）、pinlog degree $q$ 的特征。
- 视觉 embedding ：使用 VGG-16 架构的的图像分类网络的第 6 层全连接层的输出。
- 文本 embedding：使用 word2vec-based 模型训练的文本 embedding，其中上下文为每个 pin 关联的其它文本（如标题、描述性文字）。
视觉 embedding 和文本 embedding 由已在 Pinterest 上部署的 state-of-the-art deep learning content-based 系统生成。
baseline 方法：包括 content-based 方法、graph-based 方法以及 deep learning based 方法。
- content-based 方法：
  - Visual ：基于视觉 embedding 最近邻检索的推荐。
  - Annotation：基于文本 embedding 最近邻检索的推荐。
  - Combined：拼接视觉 embedding 和文本 embedding，然后使用两层的全连接层来得到一个同时捕获了视觉特征和文本特征的 embedding。最后基于这个新的 embedding 最近邻检索的推荐。
- graph based 方法：
  - Pixiequery pin $q$ ranking score $K$ 个 pin 作为推荐列表。
    尽管这种方法不会产生 pin embedding，但是对某些推荐任务来讲它是 Pinterest 上的 state-of-the-art 技术，因此是一种很好的 baseline 。
- deep learning based 方法：因为Pinterest 规模太大，因此我们并未与任何 deep learning based 方法进行比较。
我们也未考虑其它生成 pin embedding 的非深度学习方法，因为其它工作已经证明了在推荐任务中生成 embedding 的深度学习方法是 state-of-the-art 的。
最后我们评估了 PinSage 的几种变体从而进行消融研究：
- max-pooling $\gamma = \max$ ，并且不使用 hard negative pin 。
- mean-pooling $\gamma = \text{mean}$ ，并且不使用 hard negative pin 。
- mean-pooling-xent $\gamma = \text{mean}$ ，并且不使用 hard negative pin ，且使用交叉熵损失函数。
- mean-pooling-hard $\gamma = \text{mean}$ ，并且使用 hard negative pin 。
- PinSage：使用本文中介绍的所有优化，包括在卷积过程中使用重要性池化。
最大池化和交叉熵的 setting 是 GraphSAGE 的 GCN 模型的最佳扩展。其它变体在测试中效果更差，因此这里不再讨论。
Pinsage $K=2$ emebdding $\mathbf{\vec n}_i$ $m=2048$ embedding $d=1024$ 。
硬件配置：PinSage 采用 tensorflow 实现，并在单台机器上训练，机器配置为 32 core， 16 个 Tesla K80 GPU 。
为确保快速获取 pin 的视觉特征和文本特征，我们将视觉特征、文本特征和 Graph 一起放到内存中，并使用 Linux HugePages 将虚拟内存页的大小从 4KB 增加到 2MB。训练过程中使用的内存总量为 500GB 。
在 inference 阶段的 MapReduce pipeline 运行在 Amazon AWS hadoop2 集群上，集群配置为 378 个 d2.8 x large 节点。

13.2.1 离线评估

评估指标：
- Hit Rate: HR：为评估 related-pinhit-rate $s_{q,i}=(q,i)$ $q$ 作为 query pin，然后从采样的 500万 个测试 pin 中挑选出 top Kpin $\text{NN}_q$ $i\in \text{NN}_q$ query pin $q$ 的推荐命中hit 了。
  总的命中的 query pin 占所有 query pin 的比例为命中率。该指标衡量了推荐列表中包含 query pinpin $K=500$ 。
- Mean Reciprocal Rank: MRR ：除了命中率之外，我们还评估了均值倒数排名MRRquery pin $q$ pin $j$ 的排名：
  $MRR = \frac{1}{| D_{+} |} \sum_{(q, i) \in D_{+}} \frac{1}{⌈ R_{q, i} / 100 ⌉}$
  其中：
  - $\mathcal D_+$ $|\mathcal D_+|$ 为正样本数量。
  - $R_{q,i}$ postive pin $i$ query pin $q$ 的推荐列表中的排名。
  由于有大量的候选 pin（约 20 亿），因此我们对排名进行缩小，缩小比例为 100 倍。这是为了确保排名在 1000 和 2000 之间的候选 pin 的差异仍然很明显。
不同模型在 related-pin 推荐任务中的效果如下表所示。可以看到：
- PinSage 达到了最佳的 67% 命中率，以及 0.59 的 MRR。在命中率的绝对值上超越了 baseline 40%（相对值 150%），在 MRR 的绝对值上超越了 baseline 22%（相对值 60%）。
- 将视觉信息和文本信息组合起来，要比单独使用任何一种信息都要好得多。Combined 方法比单独的 Visual 或者 Annotation 改进了 60% （相对值）。
这里对比的 baseline 太弱了，没有和经典推荐模型（如基于矩阵分解的模型）进行对比，也没有和深度推荐模型（如 Wide & Deep ）进行对比，因此不知道 GCN-based 推荐模型和其它推荐模型之间的差异如何。
embedding similarity 分布：学到的 embedding 的另一个有效性指标是 embedding 随机 pair 对的距离的分布是否广泛。如果所有 pin 的距离大致相同(即，距离上紧密聚集)，则 embedding 空间没有足够的分辨率来区分不同相关性的 pin 。
下图给出了使用视觉 embedding、文本 embedding、PinSage embedding 绘制的随机 pin pair 对之间距离的分布，距离采用embedding 的余弦相似度。
可以看到：PinSage 具有最广泛的分布，这证明了 Pinsage embedding 的有效性。尤其是 PinSage embedding 随机 pin pair 距离分布的kurtosis峰度为 0.43，而文本 embedding 峰度为 2.49、视觉 embedding 峰度为 1.20。
$X$ $\mathbb E\left[\left(\frac{X-\mu}{\sigma}\right)^4\right]$ $\mu$ $\sigma$ 为标准差。它衡量了概率分布函数峰部的尖度。
PinSage embedding 随机 pin pair 距离分布具有这种广泛分布的另一个优点是：它降低了后续 LSH 算法的冲突概率，从而提高了推荐期间检索最近邻 pin 的效率。

13.2.2 用户调研

我们还通过对不同方法学到的 embedding 进行 head-to-head 比较来研究 PinSage 的有效性。
在用户研究中，我们向用户展示 query pin 的图片，以及通过两种不同推荐算法检索到的两个 pin。然后要求用户选择两个候选的 pin 中哪个和 query pin 更相关。用户可以考虑各种的相关性，如视觉外观、图像的类别（比如动物、植物等等）、各自的标识等等。如果两个候选的 pin 看起来都相关，则用户可以选择 equal 。在同一个 query pin 问题上，如果有 2/3 的用户没有达成共识，则我们认为结果是不确定的。
最终 PinSage 和 baseline 方法之间的 head-to-head 对比结果如下。最终 PinSage 的推荐结果平均超越了 baseline 大约 60%（相对值）。
给定一些 query pin ，我们给出了不同推荐的一些典型 case ，如下图所示。左图代表 query pin，右图代表不同方法得到的 embedding 检索的最相似的 top 3 pin 。可以看到：
- 基于视觉 embedding 通常可以很好地预测 pin 的类别和 pin 的视觉相似性，但是它们有时在图像语义方面会犯错。
  如下图中，由于具有相似的图像样式和外观，因此基于视觉的 embedding 混淆了 “植物” 和 “食物“、”砍伐树木“ 和 ”战争“。
- 基于图的 Pixie 方法利用了 pin-to-board 的图关系，正确地识别了 query 为 plant 的类别，并推荐了该类别中的 pin。但是，该方法找不到最相关的 pin 。
- 结合了视觉信息、文本信息以及图结构，PinSage 能够找到在视觉、文本以及拓扑结构都和给定 query 更相似的 pin 。
我们从 PinSage embedding 中随机选择 10000 个 pin ，基于 2D t-SNE 来可视化 embedding 空间。
我们观察到：相似内容的 pin 之间的 embedding 距离很近，并且相同类别的 item 也被嵌入到相同的区间。
注意：视觉上不同但是主题相同的 pin 在 embedding 空间中也彼此靠近，如图的底部给出了时尚主题的、视觉上不同的一些 pin 。

13.2.3 A/B Test

最后我们还报告了在线 A/B test 实验的结果。我们将 PinSage 和其它的基于内容的 deep learning 推荐系统在 Pinterest 首页信息流上的推荐效果进行比较。我们通过观察用户互动的提升来评估推荐效果。
评估指标是 repin rate，它衡量的是首页信息流中，被用户保存到 board 中的pin 的占比。每个保存行为代表一次用户的互动。这意味着当前时间给用户推荐的 pin 是用户感兴趣的，因此用户将这个 pin 保存到他们的 board 中，从而方便用户以后查阅。
我们发现 PinSage 推荐始终比其它方法具有更高的 repin rate。在特定的配置下，我们发现 PinSage 相比文本 embedding 和视觉 embedding 有 10% ~30% 的 repin rate 的提升。

13.2.4 速度

PinSage 的一个优势是它是 inductive 的，因此在 inference 阶段我们可以为训练过程中未见过的 pin 计算 embedding。这使得我们可以在子图上进行训练，然后为剩下的节点计算 embedding 。
另外，随着时间推移不断有新节点加入到图中，为这些新节点生成 embedding 也很简单。
通过验证集的实验表明，对包含 3 亿个 pin 的子图上进行训练，即可在命中率上取得最佳性能。进一步增加子图的大小似乎对测试结果影响不大。
和训练整个 Pinterest 相比，训练这个 3 亿pin 的子图可以将训练时间减少 6 倍。
下面我们考察 batch size 对训练过程的影响。我们使用 mean-pooling-hard 变体，结果如下：
- batch size 越大，则每个 mini-batch 的计算时间越高，模型收敛需要的迭代数量越少。
- 不同 batch size 训练时间不同， batch size = 2048 时训练效率最高，训练时间最少。
$T$ PinSage $T$ $T=50$ 可以很好的在效率和效果之间平衡。
训练完成后，由于高效的 MapReduce inference pipeline，为 30 亿个 pin 生成 embedding 可以在不到 24 个小时内完成。