GNN（续）

十四、GCMC[2017]

随着电商平台和社交媒体平台的爆炸式增长，推荐算法已经成为很多企业不可或缺的工具。通常而言，推荐算法有两个主流方向：基于内容的推荐系统、基于协同过滤的推荐系统。
- 基于内容的推荐系统使用 user 和 item 的内容信息来进行推荐，如用户的职业、item 的类型。
- 基于协同过滤的推荐使用 user-item 交互数据（如购买、评分等）来进行推荐。
论文 《Graph Convolutional Matrix Completion》 将矩阵补全问题视为一个图的链接预测问题：协同过滤中的交互数据可以由用户节点和 item 节点之间的二部图来表示，观察到的评分/购买由链接来表示。内容信息自然地以节点特征的形式包含在这个框架中。评分预测问题变为预测 user-item 二部图中的 labeled link 。
论文提出了图卷积矩阵补全 graph convolutional matrix completion: GCMC：一种 graph-based 的自编码器框架用于矩阵补全，它建立在图上深度学习的最新进展的基础上。自编码器 auto-encoder 通过在二部图上消息传递的形式来产生 user latent feature 和 item latent feature 。这些潜在 user representation 和 item representation 用于通过双线性解码器重建评分链接rating link。
当有额外的辅助信息side information 可用时，将矩阵补全问题视为二部图上的链接预测问题带来的好处尤为明显。将辅助信息和交互数据结合在一起可以有效缓解冷启动问题。论文证明了所提出的图自编码器模型有效地结合了交互数据和辅助信息。
相关工作：
- 自编码器auto-encoder：user-based 或 item-based 自编码器是最近一类 state-of-the-art 协同过滤模型，可以视为我们的图自编码器模型的一个特例，其中仅考虑了 user embedding 或仅考虑了 item embedding 。
  - 《Autorec: Auto-encoders meet collaborative filtering》 是第一个这样的模型，其中 user （或 item）部分观察到的评分向量 rating vector 通过编码器层 encoder layer 投影到潜在空间，并使用具有均方重构误差损失mean squared reconstruction error loss 的解码器层 decoder layer 进行重构。
  - 《A neural autoregressive approach to collaborative filtering》 提出的 CF-NADE 算法可以被认为是上述自编码器架构的一个特例。在 user-based 的设置中，消息仅从 item 传递给user；而在 item-based 的设置中，消息仅从 user 传递给 item 。
    我们的图自编码器同时考虑了 item 传递给 user ，以及 user 传递给 item 。
    注意，与我们的模型相比，CF-NADE 给未评分的 item 在编码器中被分配了默认评分 3 ，从而创建了一个全连接的交互图 interaction graph 。CF-NADE 对节点进行随机排序，并通过随机切割 random cut 将传入消息划分为两组，并仅保留其中一组。因此，该模型可以看做是一个降噪自编码器，其中在每次迭代中随机丢弃输入空间的一部分。
    我们的模型仅考虑观测的评分，因此不是全连接的。
- 分解模型：很多流行的协同过滤算法都是基于矩阵分解 matrix factorization: MF 模型，这种方式假设评分矩阵可以很好滴近似为低秩矩阵：
  $M ≃ U V^{⊤}$
  其中：
  - $\mathbf U\in \mathbb R^{|\mathbb U|\times d}$ 表示用户 embedding 矩阵，每一行代表一个用户的 user embedding 向量，即user latent feature representation 。
  - $\mathbf V\in \mathbb R^{|\mathbb V|\times d}$ 表示 item embedding 矩阵，每一行代表一个 item embedding 向量，即item latent feature representation 。
  - $d$ embedding $d\ll |\mathbb U|, d\ll |\mathbb V|$ $\mathbb U$ user $\mathbb V$ 为 item 集合。
  在这些矩阵分解模型中：
  - 《Probabilistic matrix factorization》probabilistic matrix factorization: PMF $\mathbf M$ $\mathbf M$ $\mathbf U\mathbf V^\top$ 中对应的重建值之间的均方误差最小化。
  - 《Matrix factorization techniques for recommender systems》 提出的 BiasedMF 通过融合 user-specifc bias, item-specific bias, global-bias 来改进 PMF 。
  - 《Neural network matrix factorization》 提出的 Neural network matrix factorization: NNMF 通过将 latent user feature 和 latent item feature 传递给前馈神经网络来扩展 MF 方法。
  - 《Local low-rank matrix approximation》 提出的局部低秩矩阵近似介绍了使用不同低秩近似的组合来重建评分矩阵的思想。
- matrix completion with side information $\mathbf M$ 。但是，秩 rank 的最小化是一个棘手的问题。
  - 《Exact matrix completion via convex optimization》 使用最小化核范数nuclear norm（矩阵的奇异值之和）来代替秩的最小化，从而将目标函数变成了可处理的凸函数。
  - Inductive matrix completion: IMC 将 user 和 itemuser $u_i$ item $v_j$ 的评分为：
    $m_{i, j} = {\vec{x}}_{i}^{⊤} U V^{⊤} {\vec{y}}_{j}$
    $\mathbf{\vec x}_i$ $u_i$ $\mathbf{\vec y}_j$ item $v_j$ $\mathbf U$ $\mathbf V$ 为低秩的、待学习的user embedding 矩阵和 item embedding 矩阵。
  - 《Matrix completion on graphs》提出的 geometric matrix completion: GCM 模型通过以 user graph 和 item graph 的形式添加辅助信息，从而对矩阵补全模型进行正则化。
  - 在 《Collaborative filtering with graph information: Consistency and scalable methods》 提出的 GRALS 将一种更有效的交替最小二乘优化方法引入了图正则化矩阵补全问题。
  - 最近，《Geometric matrix completion with recurrent multi-graph neural networks》 提出，通过在图上使用卷积神经网络将 graph-based 辅助信息融合到矩阵补全中，并结合递归神经网络来建模动态评分生成过程。
    和他们不同，GCMC 直接使用图卷积编码器/解码器对评分的二部图进行建模，通过一个non-iterative 步骤即可预测 unseen 的评分。
    相比之下，sRGCNN 需要用迭代式的多个 step 才能预测评分。

14.1 模型

$\mathbb U$ item $\mathbb V$ $\mathbf M\in \mathbb R^{|\mathbb U|\times |\mathbb V|}$ $i$ $j$ $u_i$ item $v_j$ $m_{i,j}$ 。
$\begin{matrix} m_{i, j} {\begin{cases} > 0, & observed \\ = 0, & non-observed \end{cases} \end{matrix}$
$G=(\mathcal W,\mathcal E,\mathcal R)$ $\mathcal W = \mathbb U\cup \mathbb V$ $\mathcal E$ $\mathcal R = \{1,2,\cdots,R\}$ $R$ $(u_i,m_{i,j},v_j)\in \mathcal E$ $u_i$ item $v_j$ $m_{i,j}\in \mathcal R$ 。
如下图所示：
- $\mathbf M$ ，每一项对应于 user-item 之间的评分（评分在 1~5 分之间），或者未观测（评分记作 0）。
- 第二幅图表示 user-item 评分的二部图，边对应于评分行为，边上的数字对应于评分数值。
- 最后两幅图表示矩阵补全问题可以转换为二部图上的链接预测问题，并使用端到端的可训练的图自编码器进行建模。
GCMC $R$ 种不同类型的边。
- 每种类型的边都有一个编码器，所有编码器的结果聚合得到 node embedding 。
- 每种类型的边都有一个解码器，所有解码器的结果求期望得到预估的评分。
1 $R$ 。因此这里忽视了非常重要的评分排序关系。
之前的 graph-based 推荐算法通常采用 multi-stage pipeline，其中包括图的特征抽取模型（如 graph embedding 模型）以及图的链接预测模型。这些模型都是独立分开训练。
但是最近的研究结果表明：通过端到端的技术来建模图结构化数据可以显著提升效果。在这些端到端技术中，应用于无监督学习和链接预测的图自编码graph auto-encoder 技术尤为突出。因此我们提出一种图自编码器的变种来应用于推荐任务。

14.1.1 图自编码器

图自编码器由一个编码器和一个解码器组成，其中：
- $\mathbf Z = f(\mathbf X, \mathbf A)$ 。其中：
  - $\mathbf X\in \mathbb R^{|\mathcal W|\times d_f}$ $d_f$ 为节点的特征向量维度。
  - $\mathbf A \in \mathbb R^{|\mathcal W|\times |\mathcal W|}$ 为图的邻接矩阵。
  - $\mathbf Z\in \mathbb R^{|\mathcal W|\times d_e}$ 为节点的 embeddingembedding $d_e$ 为 node embedding 向量维度。
- $\hat{\mathbf A} = g(\mathbf Z)$ embedding $\left(\mathbf{\vec z}_i,\mathbf{\vec z}_j\right)$ $i$ $j$ $\hat A_{i,j}$ 。
$G=(\mathcal W,\mathcal E,\mathcal R)$ ，我们重新定义编码器为：
$[U, V] = f (X, M_{1}, \dots, M_{R})$
其中：
- $\mathbf U\in \mathbb R^{|\mathbb U|\times d_e}$ user embedding $\mathbf V\in \mathbb R^{|\mathbb V|\times d_e}$ 为 item embedding 矩阵。
- $\mathbf M_r\in \{0,1\}^{|\mathbb U|\times |\mathbb V|}$ $r$ {0,1} $1\le r\le R$ $u_i$ item $v_j$ $m_{i,j} = r$ $M_{r}(i,j) = 1$ ，否则为零。
  $\mathbf M_r$ $r$ 关联的邻接矩阵。
  这里对每种类型的边定义了一个邻接矩阵，不同的邻接矩阵代表了不同的模型，因此类似于 《Convolutional Networks on Graphs for Learning Molecular Fingerprints》 提出的 neural graph fingerprint 模型。
类似地，我们重新定义解码器为：
$\hat{M} = g (U, V)$
解码器输入一对 user-item 的 embeddinguser $u_i$ item $v_j$ $\hat m_{i,j}$ $\hat m_{i,j}$ $\hat{\mathbf M}$ $i$ $j$ 列。
$\hat{\mathbf M}$ $\mathbf M$ 之间的重构误差来训练该自编码器（注意：通常只考虑观测值上的重构误差）。通常评估重构误差的指标为 RMSE （将评分预测视为回归问题）或者交叉熵（将评分预测视为分类问题）。
最后，我们注意到可以将最近提出的几个矩阵补全 state-of- the-art 模型纳入我们的框架中，并将它们视为我们模型的特例。

14.1.2 图卷积编码器

location $r\in \mathcal R$ 分配独立的处理通道。
我们选择局部图卷积 local graph covolution 作为编码器模型。这类局部图卷积可以视为消息传递的一种方式，其中消息在图的链接之间传递和转换。
在我们case 中，我们为每个评分等级分配一个level-specificitem $v_j$ $u_i$ 的消息传递形式为：
${\vec{μ}}_{j \to i}^{(r)} = \frac{1}{c_{i, j}} W_{r} {\vec{x}}_{j}$
其中：
- $c_{i,j}$ $|\mathcal N_i|$ left normalization $\sqrt{|\mathcal N_i||\mathcal N_j|}$ $\mathcal N_i$ $u_i$ $\mathcal N_j$ $v_j$ 的邻域节点集合。
  $\mathcal N_i^{(r)}$ $\mathcal N_j^{(r)}$ $r$ $v_j\in \mathcal N_i^{(r)}$ $u_i\in \mathcal N_j^{(r)}$ 。
- $\mathbf W_r$ $r$ 的 level-specific 权重矩阵。
- $\mathbf{\vec x}_j$ $v_j$ 的特征向量。
$u_i$ item $v_j$ 的消息传递形式为：
${\vec{μ}}_{i \to j}^{(r)} = \frac{1}{c_{j, i}} W_{r} {\vec{x}}_{i}$
level-specific $\mathbf W_{r,u2i},\mathbf W_{r,i2u}$ （即 user -> item 和 item -> user 传递消息时，权重矩阵不同）。
在消息传递之后：
- $r$ $\mathcal N_{i}^{(r)}$ $r$ 的单个representation 向量。
- 然后将所有邻域类型的 representation 向量聚合，从而得到节点的单个聚合向量。
- 最后对聚合向量进行变换，最终得到节点的 embedding 向量。
$u_i$ 的 embeddingitem $v_j$ 的 embedding 也是类似的。
$\begin{matrix} {\vec{h}}_{i} = σ [accum (\sum_{v_{j} \in N_{i}^{(1)}} {\vec{μ}}_{j \to i}^{(1)}, \dots, \sum_{v_{j} \in N_{i}^{(R)}} {\vec{μ}}_{j \to i}^{(R)})] \\ {\vec{u}}_{i} = σ (W {\vec{h}}_{i}) \end{matrix}$
其中第一行公式称作卷积层，第二行公式称作 dense 层。
注意：
- 当没有辅助信息可用时， dense 层对于 useritem $\mathbf W$ 。
  当存在辅助信息可用时， dense 层对于 useritem $\mathbf W$ $\mathbf W^{(U)},\mathbf W^{(V)}$ 。
- 这里卷积层只有一层。虽然可以堆叠更多的卷积层来构建更深的模型，但是在最初的实验中我们发现堆叠更多卷积层并不能提高性能。
  同理，堆叠更多的 dense 层也不能提高性能。因此，最终我们选择单层卷积层 + 单层 dense 层的组合作为图编码器。
- 这里给出的模型仅仅是一种可能性。虽然编码器的选择相对简单，但是也可以选择不同的变种。例如：
  - $\vec\mu_{j\rightarrow i}^{(r)} = \text{nn}\left(\mathbf{\vec x}_i,\mathbf{\vec x}_j, r\right)$ ），从而替换掉简单的线性变换。
  - attention $c_{i,j}$ 。

14.1.3 双线性解码器

bilinear decoder $u_i$ item $v_j$ $\hat m_{i,j}$ $r$ 的概率为：
$p ({\hat{m}}_{i, j} = r) = \frac{\exp ({\vec{u}}_{i}^{⊤} Q_{r} {\vec{v}}_{j})}{\sum_{s \in R} \exp ({\vec{u}}_{i}^{⊤} Q_{s} {\vec{v}}_{j})}$
$r$ $\mathbf Q_r\in \mathbb R^{d_e\times d_e}$ $d_e$ 为 embedding 向量的维度。
$r$ $\mathbf W_r$ $\mathbf Q_r$ 用于解码。
模型最终预估的评分为所有评分等级预估结果的期望值：
${\hat{m}}_{i, j} = g ({\vec{u}}_{i}, {\vec{v}}_{j}) = E_{p ({\hat{m}}_{i, j} = r)} [r] = \sum_{r = 1}^{R} r \times p ({\hat{m}}_{i, j} = r)$

14.1.4 模型训练

GCMC $\hat m_{i,j}$ 的对数似然：
$L = - \sum_{(i, j) : Ω_{i, j} = 1} \sum_{r = 1}^{R} I (r = m_{i, j}) \times \log p ({\hat{m}}_{i, j} = r)$
其中：
- $I(\cdot)$ $I(\text{true}) = 1, I(\text{false}) = 0$ 。
- $\mathbf\Omega$ mask $\Omega_{i,j} = 1$ $\Omega_{i,j} = 0$ 。
因此，上述目标函数仅在所有观测的评分上优化。
GCMC $[\mathbf U, \mathbf V] = f(\mathbf X, \mathbf M_1,\cdots,\mathbf M_R)$ $\hat{\mathbf M} = g(\mathbf U,\mathbf V)$ 组成。其中：
- 编码器从 user-> item 或者 item -> user 传递并变换消息。
- 解码器根据 user embedding 和item embedding 的 pair 对来预估评分。
node dropout $p_\text{dropout}$ 随机丢弃某个节点传出的所有消息，我们称之为 node dropout 。注意：和常规 dropout 一样，在消息丢弃之后需要 rescale。
这种 node-level 的 dropout 和常规的 dropout 不同。常规的 dropout 是在message-level进行 dropout，称作 message dropout 。
- 在 message dropout 中，每条消息随机独立地丢弃，使得最终 embedding 对于边的扰动更为鲁棒。
- 而在 node dropout 中，每个节点随机独立地丢弃，使得最终 embedding 对于特定用户和特定 item 的影响更为鲁棒。这会缓解一些热门用户或热门item 的影响。
最后，我们还对卷积自编码器的 dense 层的隐单元使用了常规的 dropout 。
mini-batch 训练：为了训练较大的数据集（如 MovieLens-10M 数据集），我们需要对观测数据进行采样，从而进行 mini-batch 训练。这是将 MovieLens-10M 的完整模型加载到 GPU 内存所必须的。
我们从每个等级的观测评分中采样固定比例的评分，然后仅考虑该 mini-batch 的损失。这样我们在训练过程中仅需要考虑当前 mini-batch 中出现的 user 和 item。这既是正则化的有效手段，又可以降低训练模型需要的内存。
通过在 Movielens-1M 数据集上使用 mini-batch 训练和 full-batch 训练的实验对比（对比时针对二者分别调优了各自的正则化参数），我们发现二者产生了可比的结果。
最后，对于 MovieLens-10M 以外的其它数据集，我们选择 full-batch 训练，因为 full-batch 训练相比 mini-batch 训练的收敛速度更快。

14.1.5 向量化实现

GCMC $O(|\mathcal E|)$ 。
假设聚合函数 accum 为累加，则图卷积编码器为（采用左归一化）：
$\begin{matrix} A_{r} = [\begin{matrix} 0 & M_{r} \\ M_{r}^{⊤} & 0 \end{matrix}] \\ [\begin{matrix} H_{u} \\ H_{v} \end{matrix}] = σ (\sum_{r = 1}^{R} D^{- 1} A_{r} X W_{r}^{⊤}) \\ [\begin{matrix} U \\ V \end{matrix}] = f (X, M_{1}, \dots, M_{R}) = σ ([\begin{matrix} H_{u} \\ H_{v} \end{matrix}] W^{⊤}) \end{matrix}$
其中：
- $\mathbf D$ degree matrix $D_{i,i} = |\mathcal N_i|$ 。
  $\mathbf D_r$ $r$ 下的邻接矩阵的度矩阵？
- $\sigma\left(\sum_{r=1}^R \mathbf D^{-1} \mathbf A_r \mathbf X \mathbf W^{ \top}_r\right)$ 可以替换为向量拼接（而不是累加）。
另外，采用对称归一化的图卷积编码器以及双线性解码器的向量化 vectorization 也以类似的方式进行。

14.1.6 辅助信息

$\mathbf X$ ），并直接作用到图自编码器中。但是，当内容信息不足以区分不同的用户（或者 item）及其兴趣时，将内容信息直接馈入图卷积层会导致严重的信息流瓶颈bottleneck of information flow 。
此时，可以通过单独的处理通道 channel，从而将用户特征向量或 item 特征向量以辅助信息的形式纳入全连接层中。
由于内容信息灌入到模型的最后一层，因此上述的信息流瓶颈不会出现，因为瓶颈只会出现在中间层。那么这么做对不对？理论依据是什么？
$\mathbf X$ one-hot $u_i$ $\mathbf{\vec x}_i^f$ ，则作用到全连接层之后，节点的embedding 为：
$\begin{matrix} {\vec{f}}_{i} = σ (W_{1}^{(U, f)} {\vec{x}}_{i}^{f} + {\vec{b}}^{(U)}) \\ {\vec{u}}_{i} = σ (W^{(U)} {\vec{h}}_{i} + W_{2}^{(U, f)} {\vec{f}}_{i}) \end{matrix}$
其中：
- $\mathbf W_1^{(U,f)},\mathbf W_2^{(U,f)}$ $\mathbf{\vec b}^{(U)}$ 为可训练的 bias 向量。
- user $\left\{\mathbf W_1^{(U,f)},\mathbf W_2^{(U,f)} , \mathbf{\vec b}^{(U)}, \mathbf W^{(U)}\right\}$ item $\left\{\mathbf W_1^{(V,f)},\mathbf W_2^{(V,f)} , \mathbf{\vec b}^{(V)}, \mathbf W^{(V)}\right\}$ 。即 user,item 类型的节点使用两套不同的参数。
  因为 user 节点和 item 节点具有不同的输入特征空间。
- 本文实验中使用的数据集中，用户内容以及 item 内容的信息大小有限，因此我们使用这种辅助信息的方式。
注意：辅助信息不一定要以节点特征向量的形式出现，也可以是图结构（如社交网络）、自然语言或者图像数据。此时可以将上式中的 dense 层替换为适当的可微模块，如 RNN、CNN 或者其它图卷积网络。

14.1.7 权重共享

one-hot $\mathbf W_r$ $i$ $i$ $r$ user $i$ 为 itemitem $i$ 为 user 节点）。
$r$ item $r$ $\mathbf W_r$ $r$ $\mathbf W_r$ 之间的权重共享，从而缓解该优化问题。
遵从 《A neural autoregressive approach to collaborative filtering》我们实现了以下权重共享策略：
$W_{r} = \sum_{s = 1}^{r} T_{s}$
由于更高的评分等级包含的权重矩阵数量更多，因此我们称这种权重共享为有序权重共享 ordinal weight sharing 。
为什么更高评分包含的权重矩阵数量更多？完全没有道理。
basis weight matrix $\{\mathbf P_1,\cdots,\mathbf P_{n_b}\}$ ，其中：
$Q_{r} = \sum_{s = 1}^{n_{b}} a_{r, s} P_{s}$
其中：
- $n_b$ $n_b$ $R$ 。
- $a_{r,s}$ $\mathbf Q_r$ 的线性组合的系数。
这种解码器的权重共享是一种有效的正则化手段。

14.2 实验

数据集：我们在多个常见的协同过滤 benchmark 数据集上评估我们的模型。
- MovieLens （100K,1M, 10M）数据集：包含多个用户对多部电影的评级数据，也包括电影元数据信息（如电影题材）和用户属性信息（如用户年龄、性别、职业）。该数据集有多个版本，对应于不同的数据量。
- Flixster 数据集：来自于社交电影网站 Flixster 的电影评分数据集，数据集包含了用户之间的好友关系。
- Douban 数据集：来自豆瓣的电影评分数据集，数据集包含用户之间的好友关系。
- YahooMusic 数据集：来自 Yahoo! Music 社区的用户对音乐家的评分数据集。
对于 Flixster,Douban, YahooMusic 数据集，我们使用《Geometric matrix completion with recurrent multi-graph neural networks》 论文提供的预处理的子集。预处理后，每个数据集包含 3000 个用户节点以及 3000 个 item 节点，以及对应的 user-user 或 item-item 交互图。
下图给出了数据集的统计信息，其中Features 表示是否包含用户特征或者item 特征，Ratings 表示数据集的评分数量，Density 表示评分矩阵中已观测评分的占比，Rating level 表示评分等级范围。
baseline 模型：
- 矩阵补全模型，包括 MC, IMC, GMC, GRALS, sRGCNN 。具体细节参考前文所述。
- 矩阵分解模型，包括 PMF, I-RBM, BiasMF, NNMF 。具体细节参考前文所述。
- 协同过滤模型，包括 LLORMA-Local, I-AUTOREC, CF-NADE 。具体细节参考前文所述。
另外我们还对比了我们不带额外信息的GCMC 模型，以及带辅助信息的 GCMC+Feat 模型。
参数配置：
- 所有 baseline 方法直接采用原始论文中的实验结论数据（因此也不需要实现和运行这些 baseline 方法）。
- 对于 GCMC 模型，我们通过验证集从以下超参数范围选择最佳的超参数：
  - 聚合函数accumulation ：stack vs sum。
  - 是否在编码器中使用有序权重共享：是 vs 否。
  - $c_{i,j}$ 为归一化常数：左归一化 vs 对称归一化。
  - node dropout $p_\text{dropout}\in \{0.3,0.4,0.5,0.6,0.7,0.8\}$ 。
  另外，除非另有说明，否则我们使用以下超参数配置：
  - 使用学习率为 0.01 的 Adam 优化器。
  - $n_b = 2$ 。
  - 编码器采用：维度 500 的单层卷积层（使用 ReLU 激活函数） + 维度 50 的单层 dense层（无激活函数）。
  最后，我们使用学习模型参数的指数移动平均（衰减因子 0.995）在保留的测试集上评估模型。
Movielens-100k 数据集（特征向量形式的辅助信息实验）：我们直接使用数据集原始的 u1.base/u1.test 的训练集/测试集拆分结果。对于该数据集，我们使用辅助信息来参与所有模型的训练。在该数据集我们对比了矩阵补全 baseline 方法和我们的 GCMC 方法，其中：
- GMC, GRALS, sRGCNN $k$ 近邻图来表示 user/item 特征。
- 其它方法直接使用原始特征向量。
对于 GCMC 的超参数，我们将原始训练集按照 80:20stack $p_\text{dropout} = 0.7$ ，使用左归一化。一旦选择好超参数之后，我们就在整个原始训练集上重新训练模型，并利用训练好的模型来评估测试集。
对于 GCMC 模型，我们不带任何辅助信息。对于 GCMC + Feat 我们使用辅助信息，并且辅助信息的 side information layer 使用维度大小为 10 的 dense 层（采用 ReLU 激活函数）。
我们使用 1000 个 full-batch epoch 来训练 GCMC 和 GCMC + Feat 。我们随机重复执行 5 次并报告测试集上的平均 RMSE 结果。整体评估结果如下（baseline 数据直接来自于 《Geometric matrix completion with recurrent multi-graph neural networks》）。
结论：
- 我们的 GCMC 方法明显优于baseline 方法，即使在没有辅助信息的情况下也是如此。
- 和我们方法最接近的是 sRGCNN 方法，它在用户和 item 的近邻图上使用图卷积，并使用 RNN 以迭代的方式学习表示。
  实验结果表明，使用简单的解码器（而不是复杂的 RNN）直接从学到的user embedding/ item embedding 中直接评估评分矩阵可以更有效，同时计算效率更高。
MovieLens-1M, MovieLens-10M 数据集（无辅助信息的实验）：在该数据集上我们和当前的 state-of-the-art 协同过滤算法（如 AutoRec, LLorma, CF-NADE ）进行比较。
我们采取和 《A neural autoregressive approach to collaborative filtering》 相同的训练集/测试集拆分方式，拆分比例 90:10 。另外，baseline 方法的结果直接使用该论文的数值。
该数据集不带任何辅助信息，因此我们没有比较 GCMC + Feat 。我们对原始训练集按照 95:5 随机拆分为训练集/验证集，然后通过验证集来调优超参数：
- 对于 MovieLens-1Msum $p_\text{dropout} = 0.7$ ，使用对称归一化。
- 对于 MovieLens-10Mstack $p_\text{dropout} = 0.3$ ，使用对称归一化。
  $n_b$ $n_b = 4$ ）。
一旦选择好超参数之后，我们就在整个原始训练集上重新训练模型，并利用训练好的模型来评估测试集。
对于 MovieLens-1M 我们训练 3500 个 full-batch epoch，对于 MovieLens-10M 我们训练 18000 个 mini-batch step（对应于 batch size =10000, epoch = 20 ）。
我们按照 90:10 随机拆分原始训练集/测试集，并重复执行 5 轮，报告模型在测试集上的平均 RMSE。所有 baseline 评分来自于论文 《A neural autoregressive approach to collaborative filtering》 中的数据。对于 CF-NADE 我们报告了最佳性能的变体。
结论：
- GCMC 方法可以扩展到大规模数据集，其性能可以达到 user-based 或者 item-based 协同过滤的 state-of-the-art 方法。
- CF-NADE 引入的几种技术，如：layer-specific 学习率、特殊的ordinal 损失函数、评分的自回归建模，这些都和我们的方法正交，因此这些技术也可以和我们的 GCMC 框架结合使用。
Flixster, Douban, YahooMusic （图形式的辅助信息实验）：这些数据集包含了一些图结构的辅助信息。我们通过使用这些图的邻接向量（根据degree 进行归一化）作为相应的 user/item 的特征向量，从而引入辅助信息。
注意：辅助信息的图是社交网络等 user-user 图，或者 item-item 图。它们不同于 user-item 二部图。
我们根据论文 《Geometric matrix completion with recurrent multi-graph neural networks》 的训练集/测试集拆分。所有 baseline 方法的结果都取自于该论文的数值。
我们从训练集中按照 80:20stack $p_\text{dropout} = 0.7$ ，使用左归一化。一旦选择好超参数之后，我们就在整个原始训练集上重新训练模型，并利用训练好的模型来评估测试集。
对于 GCMC 模型，我们使用辅助信息，并且辅助信息的 side information layer 使用维度大小为 64 的 dense 层（采用 ReLU 激活函数）。
我们使用 full-batch 训练 200 个 epoch 。
最终我们重复执行 5 轮，并报告模型在测试集上的平均 RMSE。其中 Flixster 有两组结果：左侧结果表示同时引入了 user 辅助信息和 item 辅助信息；右侧结果表示仅考虑 item 辅助信息。
结论：GCMC 在所有baseline 中取得了 state-of-the-art 效果。
注意：GCMC 在所有三个数据集上都采用相同的超参数配置，如果针对各自数据集调优，效果会进一步提升。
冷启动实验：为深入了解 GCMCMovieLens-100K $N_c$ $N_r$ 个评分（整个实验中随机数种子固定，因此每次随机选择的结果都相同）。注意：MovieLens=100K 原始数据仅包含具有至少 20 个评分的用户。
$N_r\in \{1,5,10\}, N_c\in \{0,50,100,150\}$ GCMC $N_c=0$ 表示所有用户都保留所有评分）。其中超参数和测试集如前面所述一样选择。结果如下图所示，虚线表示不带辅助信息时模型的表现。
可以看到：对于冷启动用户，使用辅助信息能够带来显著的提升，在只有一个评分的用户上表现尤为突出。

十五、JK-Net[2018]

图是一种普遍存在的结构，广泛出现在数据分析问题中。现实世界的图（如社交网络、金融网络、生物网络和引文网络）代表了重要的丰富的信息，这些信息无法仅仅从单个实体中看到（如一个人所在的社区、一个分子的功能角色、以及企业资产对外部冲击的敏感性）。因此，图中节点的 representation learning 旨在从节点及其邻域中抽取高级特征，并已被证明对许多 application 非常有用，如节点分类、节点聚类、以及链接预测。
最近的工作集中在 node representation 的深度学习方法上。其中大多数深度学习方法遵循邻域聚合（也称作消息传递 message passing ）方案。这些模型迭代式地聚合每个节点的 hidden feature 及其周围邻域节点的 hidden featurehidden feature $k$ $v_i$ hidden feature $v_i$ $k$ 的子树结构。已经证明这种方案是 Weisfeiler-Lehman 图同构测试graph isomorphism test的推广，并且能够同时学习图的拓扑结构以及邻域节点特征的分布。
但是，这种聚合方式可能会产生出人意料的结果。例如，已经观察到 GCN 的深度为 2 时达到最佳性能；当采用更深网络时，虽然理论上每个节点能够访问更大范围的信息，但是GCN 的效果反而更差。在计算机视觉领域中，这种现象称作学习退化 degradation ，该问题可以通过残差连接来解决，这极大地帮助了深度模型的训练。但是在 GCN 中，在很多数据集（如，引文网络）上即使采用了残差连接，多层 GCN 的效果仍然比不过 2 层 GCN 。
基于上述观察，论文 《Representation Learning on Graphs with Jumping Knowledge Networks》 解决了两个问题：
- 首先，论文研究了邻域聚合方案的特点及其局限性。
- 其次，基于这种分析，论文提出了jumping knowledge network: JK-Net 框架。该框架和现有的模型不同，JK-Net 为每个节点灵活地利用不同的邻域范围，从而实现自适应的结构感知表示 structure-aware representation 。
通过大量实验，论文证明了 JK-Net 达到了 state-of-the-art 性能。另外，将 JK-Net 框架和 GCN/GraphSage/GAT 等模型结合，可以持续改善这些模型的性能。
$v_i$ 的representationthe influence distribution $v_i$ representation $v_i$ 的 nearest neighbors 的先验假设。
$v_i\in V$ 都适用于同一个邻域范围（即，“一刀切”）？尤其是当图中存在各种各样类型的子图时（如，tree-like 子图、expander-like 子图）。
$v_i$ $v_i$ 开始的随机游走扩散联系在一起。这是一个易于理解的现象，因为影响力分布是图结构和特征值 eigenvalue 的函数。
改变的局部性changing locality：为了说明图结构的影响和重要性，请回想一下许多现实世界的图具有强烈局部变化的结构locally strongly varying structure。在生物网络和引文网络中，大多数节点几乎没有连接，而一些节点（hub）连接到许多其它节点。社交网络和 web 网络通常由 expander-like 部分组成，它们分别代表 well-connected 实体和小社区 small community 。
mixing time $v_i$ 的随机游走收敛到平稳分布所需要的时间）。这个时间在不同结构的子图上差异巨大。因此，相同数量的迭代可能导致差异很大的局部影响力分布。
例如考虑如下 GooglePlus 的社交网络，该图说明了从正方形节点开始的随机游走的扩散（随机游走的扩散也代表了影响力分布的扩散）。可以看到：不同结构的子图带来不同的邻域范围。
- 图 a 中，来自核心区域内节点的随机游走很快就覆盖了几乎整个图（随机游走覆盖的节点以绿色表示）。
- 图 b 中，来自tree 形区域节点的随机游走经过相同的 step 之后，仅覆盖图的一小部分（随机游走覆盖的节点以绿色表示）。
- 图 c 中，来自 tree 形区域节点使用更长的 step 之后达到了核心区域，并且影响力突然快速扩散。
在graph representation 模型中，这种随机游走的扩散转换为影响力分布。这表明：在同一个图中，相同数量的随机游走 step 可以导致非常不同的效果。因此我们需要根据具体的图，同时结合较大的邻域范围和较小的邻域范围：
- 太大的邻域范围可能会导致过度平滑，从而丢失局部信息。
- 太小的邻域范围可能信息不足，从而不足以支撑准确的预测。
JK network：上述观察提出一个问题：能否有可能对不同的图和不同的节点自适应地调整邻域范围。为此论文 《Representation Learning on Graphs with Jumping Knowledge Networks》提出了 JK-Net 框架，该框架在网络最后一层选择性地组合不同邻域范围，从而自适应地学习不同邻域的局部性locality 。如，将不同邻域范围 jump 到最后一层，因此这个网络被称作 Jumping Knowledge Networks: JK-Nets。
相关工作：谱图卷积神经网络 spectral graph convolutional neural network 使用图拉普拉斯特征向量作为傅里叶基，从而在图上应用卷积。与诸如邻域聚合之类的空间方法spatial approach相比，谱方法spectral method的一个主要缺点是：需要提前知道图拉普拉斯矩阵（是 transductive 的）。因此，谱方法无法推广到 unseen 的图。

15.1 模型

$G=(V,E)$ $V=\{v_1,\cdots,v_n\}$ $E$ $v\in V$ $\mathbf{\vec x}_v\in \mathbb R^{d_f}$ $d_f$ 为特征向量的维度。
$\tilde G = (V,\tilde E)$ $G$ $v$ $\tilde E = E\cup \{(v_i,v_i)\mid v_i\in V\}$ 。
$L$ $l$ $v$ hidden feature $\mathbf{\vec h}_v^{(l)}\in \mathbb R^{d_h}$ $d_h$ 为 hidden featurehidden feature $\mathbf{\vec h}_v^{(0)} = \mathbf{\vec x}_v$ 。
$v$ $\mathcal N_v = \{u\in V\mid (v,u)\in E\}$ $v$ $\tilde G$ $v$ $\tilde{\mathcal N}_v = \mathcal N_v\cup \{v\}$ $v$ 自身。
$l\in \{1,2,\cdots,L\}$ $v\in V$ 的 hidden feature 更新方程为：
${\vec{h}}_{v}^{(l)} = σ (W_{l} \cdot AGG ({{\vec{h}}_{u}^{(l - 1)}, \forall u \in {\tilde{N}}_{v}}))$
其中：
- AGG 为聚合函数，不同的模型采用不同的聚合函数。
- $\mathbf W_l$ $l$ 层的权重矩阵，它在所有节点之间共享。
- $\sigma(\cdot)$ 为一个非线性激活函数。
GCN 图卷积神经网络（《Semi-supervised classification with graph convolutional networks》）hidden feature 更新方程为：
${\vec{h}}_{v}^{(l)} = relu (W_{l} \sum_{u \in {\tilde{N}}_{v}} \frac{{\vec{h}}_{u}^{(l - 1)}}{\sqrt{deg (v) \times deg (u)}})$
$\text{deg}(v)$ $v$ $G$ 中的 degree。
《Inductive representation learning on large graphs》 推导出一个在 inductive learing 中的 GCN 变体（即，GraphSAGE ），其hidden feature 更新方程为：
${\vec{h}}_{v}^{(l)} = relu (W_{l} \frac{1}{\tilde{deg} (v)} \sum_{u \in {\tilde{N}}_{v}} {\vec{h}}_{u}^{(l - 1)})$
$\widetilde{\text{deg}}(v)$ $v$ $\tilde G$ 中的 degree 。
Neighborhood Aggregation with Skip Connections：最近的一些模型并没有同时聚合节点及其邻域，而是先聚合邻域，然后将得到的neighborhood representation和节点的上一层representation 相结合。其hidden feature 更新方程为：
$\begin{matrix} {\vec{h}}_{N_{v}}^{(l)} = σ (W_{l} \cdot {AGG}_{N} ({{\vec{h}}_{u}^{(l - 1)}, \forall u \in N_{v}})) \\ {\vec{h}}_{v}^{(l)} = COMBINE ({\vec{h}}_{v}^{(l - 1)}, {\vec{h}}_{N_{v}}^{(l)}) \end{matrix}$
$\text{AGG}_\mathcal N$ $\text{COMBINE}$ 函数由具体的模型定义。
在这种范式中，COMBINE 函数是关键，可以将其视为跨层的跳跃连接 skip connection。对于COMBINE 的选择，GraphSAGE 在特征转换之后直接进行拼接，Column Network 对二者进行插值，Gated GCN 使用 GRU 单元。
但是，该跳跃连接是 input-specificoutput-specific $v$ $l$ $\mathbf{\vec h}_v^{(l)}$ skip $l+j,j\gt 1$ $v$ $u$ $\mathbf{\vec h}_u^{(l+ j)}$ skip $l+j_1$ skip $l+j_2$ 层不使用 skip。即跳跃连接是由输入决定，而不是由输出决定。因此，跳跃连接无法自适应地独立调整 final-layer representation 的邻域大小。
Neighborhood Aggregation with Directional Biases：最近有些模型没有平等地看到邻域节点，而是对“重要”的邻居给与更大的权重。可以将这类方法视为 directional bias 的邻域聚合，因为节点受到某些方向的影响要大于其它方向。
例如：GAT 和 VAIN 通过 attention 机制选择重要的邻居，GraphSAGE 的 max-pooling 隐式地选择重要的邻居。
这个研究方向和我们的研究方向正交。因为它调整的是邻域扩张的方向，而我们研究的是调整邻域扩张的范围。我们的方法可以和这些模型相结合，从而增加模型的表达能力。
在下文中，我们证明了 JK-Net 框架不仅适用于简单的邻域聚合模型（GCN），还适用于跳跃连接（GraphSAGE）和 directional bias（GAT ）。

15.1.1 影响力分布

我们首先利用 《Understanding black-box predictions via influence functions》sensitivity analysis $v$ $v$ representation $v$ 获取有效信息的邻域范围大小。
$y$ $x$ final representation $x$ $y$ $y$ $x$ $x$ $x$ 的相对影响。
$G=(V,E)$ $\mathbf{\vec h}_x^{(0)}$ $x$ $\mathbf{\vec h}_x^{(l)}$ $x$ $l$ hidden feature $\mathbf{\vec h}_x^{(L)}$ $x$ 的final representation 。
定义雅可比矩阵：
$\begin{matrix} J (x, y) = [\frac{\partial {\vec{h}}_{x}^{(L)}}{\partial {\vec{h}}_{y}^{(0)}}] = [\begin{matrix} \frac{\partial h_{x, 1}^{(L)}}{\partial h_{y, 1}^{(0)}} & \frac{\partial h_{x, 2}^{(L)}}{\partial h_{y, 1}^{(0)}} & \dots & \frac{\partial h_{x, d_{h}}^{(L)}}{\partial h_{y, 1}^{(0)}} \\ \frac{\partial h_{x, 1}^{(L)}}{\partial h_{y, 2}^{(0)}} & \frac{\partial h_{x, 2}^{(L)}}{\partial h_{y, 2}^{(0)}} & \dots & \frac{\partial h_{x, d_{h}}^{(L)}}{\partial h_{y, 2}^{(0)}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \frac{\partial h_{x, 1}^{(L)}}{\partial h_{y, d_{f}}^{(0)}} & \frac{\partial h_{x, 2}^{(L)}}{\partial h_{y, d_{f}}^{(0)}} & \dots & \frac{\partial h_{x, d_{h}}^{(L)}}{\partial h_{y, d_{f}}^{(0)}} \end{matrix}] \end{matrix}$
$y$ $x$ influence score $\mathbf J(x,y)$ 的各元素的绝对值之和：
$I (x, y) = \sum_{s = 1}^{d_{f}} \sum_{t = 1}^{d_{h}} | J (x, y)_{s, t} |$
$J(x,y)_{s,t}$ $\mathbf J(x,y)$ $s$ $t$ 列。
$x$ influence distribution $x$ 的影响力得分的归一化分布：
$\begin{matrix} I_{x} (y) = \frac{I (x, y)}{\sum_{z \in V} I (x, z)} \\ {\vec{I}}_{x} = (I_{x} (v_{1}), \dots, I_{x} (v_{n}))^{⊤} \end{matrix}$
$x$ $\mathbf{\vec I}_x$ 捕获了图中所有节点对它的 representation 的影响。
$\tilde G$ $v_0$ $t$ $v_t$ $t+1$ $v_t$ $v_t$ $v_0$ 开始的随机游走的分布为：
$P_{t} (i) = P r o b (v_{t} = i)$
$t$ $i$ 的概率。
类似的定义适用于具有非均匀转移概率的随机游走。
non-bipartite $t$ spread $v_0$ 开始的子图结构，并受到随机游走转移概率矩阵的spectral gap （或者 conductance）的限制bounded 。

15.1.2 模型分析

不同聚合模型和节点的影响力分布可以深入了解各个 representation 所捕获的信息。以下结果表明：常见的聚合方法的影响力分布和随机游走分布密切相关。这些观察暗示了我们接下来要讨论的优缺点。
假设 relu 在零点的导数也是零（实际上 relu 函数在零点不可导），则我们得到 GCN 和随机游走之间的关系：
$L$ GCN $\rho$ $x$ $\mathbf{\vec I}_x$ $\tilde G$ $x$ $L$ 步的随机游走分布。
$\mathbf{\vec f}_x^{(l)}$ $\mathbf{\vec h}_x^{(l)}$ 经过激活函数之前的值，即：
${\vec{f}}_{x}^{(l)} = W_{l} \frac{1}{\tilde{deg} (x)} \sum_{u \in {\tilde{N}}_{x}} {\vec{h}}_{u}^{(l - 1)}$
则有：
$\frac{\partial {\vec{h}}_{x}^{(l)}}{\partial {\vec{h}}_{y}^{(0)}} = \frac{1}{\tilde{deg} (x)} \cdot diag ({\vec{1}}_{{\vec{f}}_{x}^{(l)} > 0}) \cdot W_{l} \cdot \sum_{u \in {\tilde{N}}_{x}} \frac{\partial {\vec{h}}_{u}^{(l - 1)}}{\partial {\vec{h}}_{y}^{(0)}}$
$\sigma(\cdot)$ 函数的梯度，认为：
$\begin{matrix} δ (x) = \frac{\partial σ (x)}{\partial x} = {\begin{cases} 1, & x > 0 \\ 0, & x \leq 0 \end{cases} \end{matrix}$
$\text{diag}\left(\mathbf{\vec 1}_{\mathbf{\vec f}^{(l)}_x \gt 0}\right)$ 为对角矩阵：
$\begin{matrix} diag ({\vec{1}}_{{\vec{f}}_{x}^{(l)} > 0}) = [\begin{matrix} δ (f_{x, 1}^{(l)}) & 0 & \dots & 0 \\ 0 & δ (f_{x, 2}^{(l)}) & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & δ (f_{x, d_{h}}^{(l)}) \end{matrix}] \end{matrix}$
$\Psi$ $x$ $y$ $L+1$ $p$ 条路径记作：
${Path}_{p} = (v_{p}^{(L)}, v_{p}^{(L - 1)}, \dots, v_{p}^{(0)})$
$v_p^{(L)} = x, v_p^{(0)} = y, v_p^{(l-1)}\in \widetilde{\mathcal N}(v_p^{(l)})$ 。
则根据链式法则，我们有：
$\frac{\partial {\vec{h}}_{x}^{(L)}}{\partial {\vec{h}}_{y}^{(0)}} = \sum_{p = 1}^{Ψ} {[\frac{\partial {\vec{h}}_{x}^{(L)}}{\partial {\vec{h}}_{y}^{(0)}}]}_{p} = \sum_{p = 1}^{Ψ} \prod_{l = L}^{1} \frac{1}{\tilde{deg} (v_{p}^{(l)})} \cdot diag ({\vec{1}}_{{\vec{f}}_{v_{p}^{(l)}}^{(l)} > 0}) \cdot W_{l}$
$\text{Path}_p$ $\left[\frac{\partial \mathbf{\vec h}_x^{(L)}}{\partial \mathbf{\vec h}_y^{(0)}}\right]_p$ $x$ $y$ $L$ $\mathbf W_1$ 的大小相同。
$\left[\frac{\partial \mathbf{\vec h}_x^{(L)}}{\partial \mathbf{\vec h}_y^{(0)}}\right]_p$ $i$ $j$ $i$ $\mathbf{\vec h}_y^{(0)}$ $i$ $j$ $\mathbf{\vec h}_x^{(L)}$ $j$ $\text{Path}_p$ $\mathbf W_l$ $i$ $j$ $i\rightarrow j$ $\Phi$ $w_q^{(l)}$ $\mathbf W_l$ $q$ $Z_q$ $q$ 条神经元粒度的路径是否激活，则有：
${[\frac{\partial {\vec{h}}_{x}^{(L)}}{\partial {\vec{h}}_{y}^{(0)}}]}_{p}^{(i, j)} = \prod_{l = L}^{1} \frac{1}{\tilde{deg} (v_{p}^{(l)})} \sum_{q = 1}^{Φ} Z_{q} w_{q}^{(l)}$
$Z_q$ relu $\mathbf{\vec f}_{v_p^{(l)}}^{(l)}$ $q$ 条路径上的结果：
$\begin{matrix} Z_{q} = {\begin{cases} 1, & if path q is activated \\ 0, & else \end{cases} \end{matrix}$
$Z$ $q$ $Pr(Z_q= 1) = \rho$ 。则有：
$E [{[\frac{\partial {\vec{h}}_{x}^{(L)}}{\partial {\vec{h}}_{y}^{(0)}}]}_{p}^{(i, j)}] = ρ \cdot \prod_{l = L}^{1} \frac{1}{\tilde{deg} (v_{p}^{(l)})} w_{q}^{(l)}$
因此有：
$E [\frac{\partial {\vec{h}}_{x}^{(L)}}{\partial {\vec{h}}_{y}^{(0)}}] = ρ \cdot \prod_{l = L}^{1} W_{l} \cdot (\sum_{p = 1}^{Ψ} \frac{1}{\tilde{deg} (v_{p}^{(l)})})$
$x$ $L$ $y$ $x$ $y$ $L$ 的路径的概率之和来计算，即：
$\sum_{p = 1}^{Ψ} \prod_{l = L}^{1} \frac{1}{\tilde{deg} (v_{p}^{(l)})}$
$\mathbf W_1 = \cdots = \mathbf W_L = \mathbf W$ $I(x,z)$ $z$ $x$ $L$ $z$ $z$ $\rho \mathbf W$ $x$ $\mathbf{\vec I}_x$ $\tilde G$ $x$ $L$ 步的随机游走分布（归一化后）。
这里的证明缺少了很多假设条件的说明，因此仅做参考。
GCN $\text{Path}_p = \left (v_p^{(L)}, v_p^{(L-1)} ,\cdots, v_p^{(0)} \right)$ $\rho \prod_{l=L}^1 \frac{1}{\widetilde{\text{deg}}(v_p^{(l)})}$ 变为：
$\frac{ρ}{Q} \prod_{l = L}^{1} \frac{1}{\tilde{deg} (v_{p}^{(l)})} \cdot {(\tilde{deg} (x) \tilde{deg} (y))}^{- 1 / 2}$
$Q$ $x$ $y$ 的 degree 接近时。
类似地，我们也可以证明具有directional bias 的邻域聚合方案类似于有偏的随机游走分布。这可以通过替换掉上述定理中相应的概率得到证明。
从经验上看，我们观察到即使假设有所简化，但是我们的理论分析仍然接近于实际情况。
我们可视化了训练好的 GCN 的节点（正方形标记）的影响力分布的热力图，并与从同一节点开始的随机游走分布的热力图进行比较。较深的颜色对应于较高的影响力得分（或者较高的随机游走概率）。我们观察到 GCN 的影响力分布对应于随机游走分布。
为显示跳跃连接的效果，下图可视化了一个带跳跃连接的 GCN 的节点的影响力分布热力图。同样地，我们发现带跳跃连接的 GCN 的节点影响力分布大致对应于 lazy 随机游走分布（lazy 表示每步随机游走都有较高的概率停留在当前节点，这里 lazy 因子为 0.4 ）。由于每次迭代过程中，所有节点的局部信息都以相似的概率进行保留，因此这无法适应不同高层节点的各种各样的需求。
为进一步理解上述定理，以及相应邻域聚合算法的局限性，我们重新审视了下图中社交网络的学习场景。
- expander $O(\log |V|)$ step $L= O(\log |V|)$ 层的聚合之后，每个节点的 representation 几乎受到 expander 中所有任何其它节点的影响。因此，每个节点的 representation 将代表 global graph，以至于过度平滑并带有节点自身的非常少的信息。
- 对于 tree-like （右图）开始的随机游走，其收敛速度较慢。这使得经过消息传递模型的聚合之后，每个节点的 representation 保留了更多的局部信息。
$L$ 对所有节点都是统一固定的，那么模型很难在适应不同节点的影响力扩展速度以及影响力邻域大小这些差异。这使得难以为所有节点带来最佳的 representation。
最后我们描述了热力图的相关细节，并提供了更多的可视化结果。
热力图中的节点颜色对应于影响力分布得分或者随机游走分布的概率。颜色越浅则得分越低、颜色越深则得分越高。我们使用相同的颜色来表示得分（或者概率）超过 0.2 的情形，因为很少有节点的影响力得分（或概率）超过 0.2。对于得分（或概率）低于 0.001 的节点，我们没有在热力图中展示。
- 首先我们比较 GCN 的影响力分布 vs 随机游走概率分布，以及带跳跃连接的 GCN 的影响力分布 vs 惰性随机游走概率分布。
  - 目标节点（被影响的节点或者随机游走的起始节点）标记为方块。
  - 数据集为 Cora citation 网络，模型分别为 2/4/6 层训练好的 GCN （或者带跳跃连接的 GCN Res）。我们使用 《Semi-supervised classification with graph convolutional networks》 描述的超参数来训练模型。
  - 影响力分布、随机游走分布根据前述的公式进行计算。
  - lazy 随机游走使用 lazy factor = 0.4 的随机游走，即每个节点在每次转移时有 0.4 的概率留在当前节点。
  - 注意：对于degree 特别大的节点，GCNGCN $\mathbf{\vec h}_v^{(l)} = \text{relu}\left(\mathbf W_l \sum_{u\in \tilde{\mathcal N}_v}\frac{\mathbf{\vec h}_u^{(l-1)}}{\sqrt{\text{deg}(v)\times \text{deg}(u)}}\right)$ $v$ $u$ $\frac{1}{\sqrt{\text{deg}(v)\times \text{deg}(u)}}$ $u$ $\frac{1}{\widetilde{\text{deg}}(v)}$ 。
    这使得在 GCN 影响力模型中，degree 更大的节点，其权重越低。
- 然后我们考察了不同子结构，这些可视化结果进一步支持了前述的定理。
  - 下图中，使用 2 层的 GCN 模型分类错误，但是使用 3 层或 4 层 GCN 模型分类结果正确。
    当局部子图结构是 tree-like 时，如果仅仅使用 2 层 GCN （即查看 2-hop邻域），则抽取的信息不足以支撑其预测正确。因此，如果能够从 3-hop 邻域或 4-hop 邻域中抽取信息，则可以学到节点的局部邻域的更好表示。
  - 下图中，使用 3 或 4 层的 GCN 模型分类错误，但是使用 2 层 GCN 模型分类结果正确。这意味着从 3-hop 或 4-hop 邻域中抽取了太多无关的信息，从而使得节点无法学到正确的、有助于预测的 representation。
    - 在 expander 子结构中，随机游走覆盖的节点爆炸增长，3-hop 或者 4-hop 几乎覆盖了所有的节点。因此这种全局信息的 representation 对于每个节点的预测不是很理想。
    - 在 bridge-like 子结构中，抽取更远的节点的信息可能意味着从一个完全不同的 community 中获取信息，这可能意味着噪音并影响最终预测。

15.1.3 JK-Net

前述观察提出了一个问题，即：在通用聚合方案中使用固定的、但是结构依赖的影响力半径大小是否能够实现所有任务中节点的best representation。
- 如果选择的影响力半径过大，则可能导致过度平滑 oversmoothing 。
- 如果选择的影响力半径国小，则可能导致聚合的信息量不足。
为此，我们提出了两个简单有效的体系结构调整：跳跃连接 + 自适应选择的聚合机制。
如下图所示为 JK-Net 的主要思想。
- 和常见的邻域聚合网络一样，每一层都是通过聚合来自上一层的邻域来扩大影响力分布的范围。
- 但是在最后一层，对于每个节点我们都从所有的这些 itermediate representation 中仔细挑选（jump 到最后一层），从而作为最终的节点 representation。
由于这是针对每个节点独立完成的，因此模型可以根据需要为每个节点调整有效邻域范围，从而达到自适应的效果。
可以理解为常规的 GCN 模型之上再添加一个聚合层。
JK-Net 也使用通用的层聚合机制，但是最终的节点 representation 使用自适应选择的聚合机制。这里我们探索三种主要的聚合方法，其它方法也可以在这里使用。
$\mathbf{\vec h}^{(1)}_v,\cdots,\mathbf{\vec h}_v^{(L)}$ $v$ 的中间 representation （每个中间层代表了不同的影响力范围），并将它们 jump 到最后一层。
- concatenation $\left[\mathbf{\vec h}_v^{(1)},\cdots,\mathbf{\vec h}_v^{(L)}\right]$ $\mathbf W \left[\mathbf{\vec h}_v^{(1)},\cdots,\mathbf{\vec h}_v^{(L)}\right]$ 。
  - $\mathbf W$ 在所有节点之间共享，则这种方式不是 node-adaptive 的。
  - $\mathbf W$ 对每个节点都有不同，从而以适应于整个数据集的方式聚合子图的特征，则这种方式是 node-adaptive 的。
  $\mathbf W$ 的权重共享通常应用在比较小的图或者结构比较规则的图上，因为这些图需要较少的自适应性。并且权重共享也有助于减少过拟合。
- max-pooling $\left\{ \mathbf{\vec h}^{(1)}_v,\cdots,\mathbf{\vec h}_v^{(L)}\right\}$ 执行逐元素的最大池化从而对每个特征维度feature coordinate选择信息最丰富的layer 。这种方式是自适应的，并且不会引入任何其它额外的学习参数。
- LSTM-attention $v$ $l$ $s_v^{(l)}$ $l$ representation $v$ $\sum_{l=1}^L s_v^{(l)} = 1$ $v$ 聚合后的 representationrepresentation $\sum_l s_v^{(l)} \mathbf{\vec h}_v^{(l)}$ 。
  对于 LSTM-attention ：
  - $\left\{ \mathbf{\vec h}^{(1)}_v,\cdots,\mathbf{\vec h}_v^{(L)} \right\}$ LSTM $l$ LSTM hidden feature $\mathbf{\vec f}_v^{(l)}$ LSTM hidden feature $\mathbf{\vec b}_v^{(l)}$ 。
  - $l$ hidden feature $\left[\mathbf{\vec f}_v^{(l)},\mathbf{\vec b}_v^{(l)}\right]$ $s_v^{(l)}$ 。
  - softmax layer $\left\{s_v^{(l)}\right\}_{l=1}^L$ $v$ 在不同层上的 attention 得分。
  - $\left[\mathbf{\vec f}_v^{(l)},\mathbf{\vec b}_v^{(l)}\right]$ attention $v$ 的最终 final representation。
  LSTM-attention 是 node-adaptive 的，因为不同节点的 attention score 是不同的。实验表明，这种方法适用于大型复杂的图。由于其相对较高的复杂度，会导致在小型图上过拟合。
  另外，也可以将 LSTM 和最大池化相结合，即 LSTM max-pooling 。
  LSTM $\left\{ \mathbf{\vec h}^{(1)}_v,\cdots,\mathbf{\vec h}_v^{(L)}\right\}$ 来计算一个注意系数，然后基于注意力来聚合。
JK-Net 的实现比较简单，大量的篇幅都在形容理论。但是，这里的理论仅仅是解释问题，并没有解决问题。这里的 layer aggregation 方式既没有理论解释，也没有解决问题（针对不同的节点自适应地选择不同的邻域大小）：
- 为什么如此聚合？论文未给出原因。
- 不同的聚合方式代表了什么样的领域大小？这里也没有对应的物理解释。
层聚合layer aggregation 函数设计的关键思想是：在查看了所有中间层学到的 representation 之后，确定不同影响力范围内子图representation 的重要性，而不是对所有节点设置固定的、相同的影响力范围。
假设 relu 在零点的导数也是零（实际上 relu 函数在零点不可导），则 layer-wise max-pooling 隐式地自适应地学习了不同节点的局部影响力。layer-wise attention 也是类似的。
$\rho$ layer-wise max-pooling $L$ JK-Net $x,y\in V$ $I(x,y)$ $\tilde G$ $x$ $y$ $0,\cdots,L$ $\mathbf{\vec h}_x^{(l)}$ 的值。
$x$ representation $\mathbf{\vec h}_x^{(final)}$ $\left[\mathbf{\vec h}_x^{(final)}\right]_i$ $i$ $y$ ，我们有：
$I (x, y) = \sum_{i} {‖ \frac{\partial {[{\vec{h}}_{x}^{(f i n a l)}]}_{i}}{\partial {\vec{h}}_{y}^{(0)}} ‖}_{1} = \sum_{i} {‖ \frac{\partial {[{\vec{h}}_{x}^{(j_{i})}]}_{i}}{\partial {\vec{h}}_{y}^{(0)}} ‖}_{1}$
$j_i = \arg\max_l \left(\left[\mathbf{\vec h}_x^{(l)}\right]_i\right)$ 。
根据前述的定理，我们有：
$E [I (x, y)] = \sum_{l} c_{x}^{(l)} \cdot z_{l} \cdot E [I_{x} (y)^{(l)}]$
其中：
- $I_x(y)^{(l)}$ $x$ $y$ $l$ 步随机游走的概率。
- $z_l$ 为归一化因子。
- $c_x^{(l)}$ $\mathbf{\vec h}_x^{(l)}$ 通过最大池化选择的项乘以某个比例系数。
下图给出了采用 max-pooling 的 6 层 JK-Net 如何学习从而自适应引文网络上不同的子结构。
- 在 tree-like 结构中，影响力仍然停留在节点所属的 small community 中。
  相反，在 6 层 GCN 模型中，影响力可能会深入到与当前节点不想关的其它 community 中；而如果使用更浅层的 GCN 模型，则影响力可能无法覆盖当前节点所在的 community 。
- 对于 affiliate to hub （即 bridge-like）节点，它连接着不同的 community ，JK-Net 学会了对节点自身施加最大的影响，从而防止将其影响力扩散到不想关的community。
  GCN 模型不会捕捉到这种结构中节点自身的重要性，因为在几个随机游走step 之后，停留在 bridge-like 节点自身的概率很低。
- 对于 hub 节点（即 expander），JK-Net 会在一个合理范围内将影响力扩散到相邻节点上。这是可以理解的，因为这些相邻节点和 hub 节点一样，都具有信息性。
JK-Net 的结构有些类似于 DenseNet，但是一个疑问是：是否可以像 DenseNet 一样在所有层之间都使用跳跃连接，而不仅仅是中间层和最后一层之间使用跳跃连接。如果在所有层之间都使用跨层的跳跃连接，并使用 layer-wise concatenation 聚合，则网络结构非常类似于 DenseNet 。
从 graph theory 角度审视 DenseNet，图像对应于规则的 graph ，因此不会面临具有变化的子图结构的挑战。确实，正如我们在实验中看到的，使用 concatenation 聚合的模型在更规则的图（如图像、结构良好的社区）上表现良好。
作为更通用的框架，JK-Net 接受更通用的 layer-wise 聚合模型，并在具有更复杂结构的图上实现更好的 structure-aware representation。

15.2 实验

数据集：
- 引文网络数据集 (Citeseer, Cora) ：数据集中每个节点代表一篇论文，特征为论文摘要的 bag-of-word，边代表论文之间的引用链接。节点类别为论文的主题。
- Reddit 数据集：数据集中每个节点代表一个帖子，特征为帖子所有单词的 word vector 。如果某个用户同时在两个帖子上发表评论，则这两个帖子之间存在链接。节点类别为帖子所属的 community 。
- PPI 数据集：数据集包含 24 个图，每个图对应于一个人体组织的蛋白质结构图。图中每个节点都有 positional gene sets, motif gene sets, immunological signatures 作为特征， gene ontology sets 作为标签。
  我们使用 20 个图进行训练、2 个图进行验证、剩余的 2 个图作为测试。
数据集的统计信息如下表所示：
baseline 模型：GCN 、GraphSage、GAT 。
实验配置：
- 在 transductive 实验中，我们只允许访问单个图中的节点子集作为训练数据，剩余节点作为验证集/测试集。
  在 Citeseer, Cora, Reddit 数据集上的实验是 transductive 的。
- 在 inductive 实验中，我们使用多个完整的图作为训练数据，并使用训练时未见过的、剩余的图作为验证集/测试集。
  在 PPI 数据集上的实验是 inductive 的。
对于 Citeseer 和 Cora 数据集，我们选择GCN 作为 base 模型，因为在我们的数据集实验中它超越了 GAT 。
我们分别选择 MaxPooling(JK-MaxPool)、Concatenation(JK-Concat)、LSTM-attention(JK-LSTM) 作为最终聚合层来构建 JK-Net。在进行最终聚合时，被聚合的 representation 除了图卷积中间层的 representation 之外，我们还考虑了第一个线性变换的 representation （可以理解为第零层的 representation）。最终预测是通过 final 聚合层的 representation 之上的全连接层来完成。
我们将每个图的节点根据 60%:20%:20% 的比例随机拆分为训练集、验证集、测试集。对于每个模型，我们将层数从 1 到 6 ，针对验证集选择性能最佳的模型（及其对应的卷积层深度）。
JK-Net 配置：
- 学习率为 0.005 的 Adam 优化器。
- 比例为0.5 的 dropout 。
- $\{16,32\}$ 中选择 hidden feature 维度（Citeseer 为 16，Cora 为 32 ）。
- 0.0005 $L_2$ 正则化。
每组实验随机执行3 次并报告准确率 accuracy 的均值和标准差（标准差在括号中给出），实验结果如下表所示。可以看到：
- 就预测准确率而言，JK-Net 优于 GAT 和 GCN 这两个baseline 。
- 尽管 JK-Net 总体表现良好，但是没有始终如一的赢家，并且各个数据集上的性能略有不同。
- 模型名字后面括号中的数字（1~6 之间）表示表现最佳的层数。仔细研究 Cora 的结果发现：
  - GCN 和 GAT 都在模型为2 层或 3 层时才能达到最佳准确率。这表明局部信息比全局信息更有助于分类。
    层数越浅，则表明邻域范围越小，则表明是局部信息。
  - JK-Net 在模型为 6 层上获得最佳性能，这表明全局信息和局部信息事实上都有助于提高性能。这就是 JK-Net 这类模型发挥价值的所在。
- LSTM-attention 可能由于复杂性太高，从而不适用于此类小模型。因此 JK-LSTM 在这两个数据集中表现最差。
对于 Reddit 数据集，由于它太大使得无法由 GCN 或 GAT 很好地处理。因此我们使用可扩展性更高的 GraphSAGE 作为 JK-Net 的 base 模型。
在 GraphSAGE 中存在不同的节点聚合方式，我们分别使用 MeanPool 和 MaxPool 来执行节点聚合，然后跟一个线性变换。考虑到 JK-Net 最后一层的三种聚合模式MaxPooling、Concatenation、LSTM-attention ，两两组合得到 6 种 JK-Net 变体。
我们采用和原始论文完全相同的 GraphSAGE 配置，其中模型由两层卷积层组成，hidden layer 维度为 128 维。我们使用学习率维 0.01 的 Adam 优化器，无权重衰减。
实验结果如下表所示，评估指标维 Micro-F1 得分。结论：
- 当采用 MaxPool 作为节点聚合器、Concat 作为层聚合器时，JK-Net 获得了最佳的 Micro-F1 得分。
  注意：原始的 GraphSAGE 在 Reddit 数据集上的表现已经足够好（Micro-F1 = 0.950），JK-Net 继续将错误率下降了 30% 。
- Reddit 数据集中的社区是从表现良好的中等规模大小的社区中挑选而来，这是为了避免太大的社区中包含大量噪音、太小的社区是 tree-like 的。结果，该图比原始 Reddit 数据集更加规则，因此不会出现子图结构多样性的问题。
  在这种情况下，node-specific 自适应邻域选择所增加的灵活性可能不是那么重要，而 concatenation 的稳定特点开始发挥作用。这也是为什么 JK-Concat 效果较好的原因。
对于 PPI 数据集，我们用它来证明自适应 JK-Net 的强大能力，该数据集的子图结构比 Reddit 数据集的子图结构更多样和复杂。
我们将 GraphSAGE 和 GAT 都作为 JK-Net 的 base model。GraphSAGE 和 GAT 有很大的区别：GraphSAGE 基于采样，其中对每个节点的邻域采样固定的邻居数量；GAT 基于 attention，它考虑每个节点的所有邻居。这种差异在可扩展性和性能方面导致巨大的差距。鉴于 GraphSAGE 可以扩展到更大的图，因此评估 JK-Net 在 GraphSAGE 上的提升显得更有价值。但是我们的实验在二者上都进行。我们的评估指标为 Micro-F1 得分。
- 对于 GraphSAGE，我们遵循 Reddit 实验中的配置，只是在可能的情况下使用 3 层网络，并训练 10 到 30 个 epoch。带有 * 的模型采用2 层（由于 GPU 内存限制），其它模型采用 3 层。作为对比，采用两层的 GraphSAGE 性能为 0.6 （未在表中给出）。
  实验结果见下表。
- 对于 GAT 及其 JK-Net 变体，我们使用两层或三层网络，其中有 4 个 attention head，每个 head 有 256 维（共 1024 维）。最后一个预测层有 6 个 attention head，每个head 有 121 维。我们将这 6 个 head 执行均值池化，并灌入到 sigmoid 激活函数。我们在中间 attention 层之间引入跳跃链接。
  所有这些模型都使用学习率为 0.005 的 Adam 优化器，并使用 batch size = 2 的 mini-batch 训练。
  我们的 baseline 为 GAT 和 MLP 模型，网络层数从 2,3 之间选择。由于 GPU 内存限制，JK-Dense-Concat 和 JK-Dense-LSTM 的层数为 2 。
  实验结果见下表。
- 结论：
  - 带有 LSTM-attention 聚合器的JK-Net 超越了具有 concatenation 聚合器的非自适应性 JK-Net 模型，以及 GraphSAGE/GAT/MLP 等 baseline 模型。
  - 在训练 30 个 epoch 之后，JK-LSTM 在 Micro-F1 得分上比 GraphSAGE 高出 0.128（绝对提升）。
  - 结构感知的节点自适应模型在 PPI 这类具有不同结构的复杂图上特别有效。

十六、PPNP[2018]

目前有很多流行的图神经网络算法。
- graph embedding 算法使用随机游走或矩阵分解来直接训练每个节点的 embedding，这类算法通常以无监督的方式学习并且不需要节点的特征信息。
- 另外一些方法以有监督方式学习，并且同时利用了图结构和节点特征信息，其中包括谱图卷积神经网络 spectral graph convolutional neural network 、消息传递 message passing方法（或者也称作邻域聚合 neighbor aggregation 方法）以及基于 RNN 的邻域聚合方法。
所有这些方法中，消息传递方法由于其灵活性和良好的性能最近引起了特别的关注。已有一些工作通过使用 attention 机制、随机游走、edge feature来改善基础的邻域聚合方式，并使得邻域聚合可以扩展到大图。但是，所有这些方法对于每个节点仅支持非常有限的邻域规模。事实上，如果能够使用更大的邻域，则可以为模型提供更多的有效信息。尤其是对于图的外围节点或者标签稀疏的节点。
增加这些算法的邻域大小并不简单，因为这些方法中的邻域聚合本质上是拉普拉斯平滑的一种，如果层数太多将导致过度平滑 over-smoothing 。在JK-Net 的论文中，作者强调了这个挑战，并建立了随机游走和消息传递机制之间的关联。通过这个关联我们发现：随着层数的增加，GCN 会收敛到随机游走的极限分布。这个极限分布是整个图的属性，和随机游走的起始节点无关。因此这个分布无法描述随机游走起始节点的邻域（因为过度平滑）。因此 GCN 的性能必然会随着卷积层数量（具体而言是随着 aggregation 层的数量）的增加而下降。
为解决这个问题，论文 《 PREDICT THEN PROPAGATE: GRAPH NEURAL NETWORKS MEET PERSONALIZED PAGERANK》 首先分析了这个极限分布和 PageRank 之间的内在联系，然后提出了personalized propagation of neural predictions: PPNP 算法，该算法利用 Personalized PageRank 衍生而来的消息传递方案。PPNP 算法增加了消息回传根节点的机会，从而确保 PageRank Score 编码了每个根节点的局部邻域。这个回传概率 teleport probability 使得我们能够平衡以下两方面的需求：保留节点的局部性（即，避免过度平衡） vs 利用来自大型邻域的信息。
作者表明，这种消息传递方案允许使用更多的层（理论上无限多），而不会导致过度平滑。另外，PPNP 的训练时间相比以前的模型相同或者更快，参数数量相比以前的模型相同或者更少，计算复杂度和边的数量呈线性关系。此外，PPNP 利用一个大的、可调整的邻域来分类，并且可以轻松地和任何神经网络相结合。实验表明，PPNP 超越了最近提出的几种 GCN-like 的半监督分类模型。
在传统的消息传递方法中， propagation 和 classification 固有地耦合在一起，即 classification 依赖于 propagation。但是在 PPNP 中，作者将 propagation 和 classification 解耦，使得二者相互独立。这使得我们能够在不改变神经网络的情况下实现更大的邻域。而在消息传递方法中，如果想多传递一个 step 就需要多加一个 layer 。
PPNP 的基本思想是：首先预测节点的标签（classification 步骤），然后利用标签传播算法重新修正得到最终的标签（propagation 步骤）。这种方法有效的前提是：相邻节点具有相似的 label 。
PPNP 还允许传播算法、以及根据节点特征执行预测的神经网络独立开发。这意味着我们可以将任何 state-of-the-art 预测方法和PPNP 的传播算法相结合。作者甚至发现：在训练期间没有使用到任何图结构信息的模型，仅在inference 阶段使用PPNP 的传播算法可以显著提升模型预测的准确性。
相关工作：
- 有些工作试图在每个节点添加跳跃连接，从而改善消息传递算法的训练，以及增加每个节点上可用的邻域大小。如，JK-Net 将跳跃连接和邻域聚合方案相结合。但是这些方法的邻域范围仍然有限，当消息传递的 layer 数量很少的情况下非常明显。
  虽然可以在我们的 PPNP 中使用的神经网络中添加跳跃连接，但是这不会影响我们的传播方案。因此，我们解决邻域范围的方法和这些模型无关。
- 《Deeper Insights Into Graph Convolutional Networks for Semi-Supervised Learning》通过将消息传递和 co-training & self-training 相结合来促进训练，通过这种组合实现的改善与其它半监督分类模型报告的结果相似。
  注意，大多数算法，包括我们的算法，都可以用 co-training & self-training 进行改进。但是，这些方法使用的每个 additional setp 都对应一个完整的训练周期，因此会大大增加训练时间。
- 在最近的工作中，人们通过将跳跃连接和 batch normalization 相结合，提出了避免过度平滑问题的Deep GNN （《Mean-field theory of graph neural networks in graph partitioning》、《Supervised Community Detection with Line Graph Neural Networks》）。
  但是，我们的模型通过解耦预测和传播，从而简化了体系结构并解决该问题。并且我们的方法不依赖于任何临时性ad-hoc 技术，这些临时性的技术进一步复杂化模型并引入额外的超参数。
  此外，我们的 PPNP 在不引入额外层的情况下增加了邻域范围，因此和 Deep GNN 相比，训练速度会更快更容易。

16.1 模型

$G=(V,E)$ $V=\{v_1,\cdots,v_n\}$ $E=\{e_{i,j}\}$ $n$ $m$ 为边数量。
$v_i$ $\mathbf{\vec x}_i\in \mathbb R^{d_f}$ $d_f$ $\mathbf X\in \mathbb R^{n\times d_f}$ $i$ $\mathbf{\vec x}_i$ 。
$v_i$ $y_i$ $K$ $y_i$ one-hot $\mathbf{\vec y}_i\in \mathbb R^K$ $\mathbf Y\in \mathbb R^{n\times c}$ $i$ $\mathbf{\vec y}_i$ 。
$\mathbf A\in \mathbb R^{n\times n}$ $\tilde{\mathbf A} = \mathbf A + \mathbf I_n$ 为添加了自循环self-loops 的邻接矩阵。

16.1.1 GCN 及其限制

卷积神经网络GCN是一种用于半监督分类的简单且应用广泛的消息传递算法。假设有两层消息传递，则预测结果为：
$Z = softmax (\hat{\tilde{A}} relu (\hat{\tilde{A}} X W_{0}) W_{1})$
其中：
- $\hat{\tilde{\mathbf A}} = \tilde{\mathbf D}^{-1/2} \tilde{\mathbf A}\tilde{\mathbf D}^{-1/2}\in \mathbb R^{n\times n}$ $\tilde{\mathbf D}$ $\tilde D_{i,i} = \sum_j \tilde A_{i,j}$ 。
- $\mathbf Z\in \mathbb R^{n\times K}$ 为每个节点预测的 label 分布。
- $\mathbf W_0, \mathbf W_1$ 为待训练的权重矩阵。
对于两层 GCN，它仅考虑 2-hop 邻域中的邻居节点。基本上有两个原因使得消息传递算法（如 GCN）无法自然地扩展到使用更大的邻域：
- 首先，如果使用太多的层，则基于均值的聚合会导致过度平滑over-smoothing。因此，模型失去了局部邻域的信息。
- 其次，最常用的邻域聚合方案在每一层使用可学习的权重矩阵，因此使用更大的邻域必然会增加神经网络的深度和参数数量。虽然参数数量可以通过权重共享来避免，但这不是通用的做法。
理论上，邻域大小和神经网络的深度是不相关的、完全正交的两个因素。它们应该互不影响才对。实际上在 GCN 中它们是相互捆绑的（给定神经网络深度就意味着给定了邻域大小），并导致了严重的性能问题。
JK-Net $L$ GCN $y$ $x$ $I(x ,y) = \sum_{s=1}^{d_f}\sum_{t=1}^{d_h} |J(x,y)_{s,t}|$ $\tilde G$ $G$ $x$ $y$ $L$ $P_{rw}(x\rightarrow y, L)$ $\mathbf J(x,y) = \left[\frac{\partial \mathbf{\vec h}_x^{(L)}}{\partial \mathbf{\vec h}_y^{(0)}}\right]$ $x$ $y$ 。
$L\rightarrow \infty$ irreducible $P_{rw}(x\rightarrow y, L)$ $P_{\lim}(\rightarrow y)$ 。可以通过求解方程来获得该分布：
${\vec{π}}_{lim} = \hat{\tilde{A}} {\vec{π}}_{lim}$
$x$ $x$ $x$ 无关）。

16.1.2 PPNP

我们可以考察极限分布和 PageRank 之间的联系来解决这个局部邻域失去焦点 lost focus 问题。
极限分布和 PageRank 的区别仅在于前者在邻接矩阵中增加了自循环，并对分布进行了归一化。原始的 PageRank 的分布为：
${\vec{π}}_{pr} = A_{rw} {\vec{π}}_{pr}$
$\mathbf A_\text{rw} = \mathbf A \mathbf D^{-1}\in \mathbb R^{n\times n}$ 。
建立这种联系之后，我们现在可以考虑使用结合了根节点的 PageRank 变体 -- Personalized PageRank 。
teleport vector $\mathbf{\vec i}_x$ $x$ one-hot $x$ 对应的元素为1 、其它元素为 0 。
$x$ ，其 Personalized PageRank 的分布为：
${\vec{π}}_{ppr}^{(x)} = (1 - α) \hat{\tilde{A}} {\vec{π}}_{ppr}^{(x)} + α {\vec{i}}_{x}$
$\alpha \in (0,1]$ 为回传概率 teleport probability （也叫做重启概率）。
通过求解该等式，我们得到：
${\vec{π}}_{ppr}^{(x)} = α {(I_{n} - (1 - α) \hat{\tilde{A}})}^{- 1} {\vec{i}}_{x}$
$\mathbf{\vec i}_x$ $x$ 的局部邻域。
$y$ $x$ $I(x,y)$ $\vec\pi_\text{ppr}^{(x)}$ $y$ $\alpha$ 决定了当我们远离根节点时，影响力得分的衰减速度。
Personalized PageRank $\mathbf \Pi_\text{ppr}\in \mathbb R^{n\times n}$ ：
$Π_{ppr} = α {(I_{n} - (1 - α) \hat{\tilde{A}})}^{- 1}$
$\mathbf \Pi_\text{ppr}$ $x$ $\vec\pi_\text{ppr}^{(x)}$ $\Pi_\text{ppr}(y,x)$ $y$ $x$ 的影响力得分。
$\mathbf \Pi_\text{ppr} = \mathbf \Pi_\text{ppr}^\top$ $y$ $x$ $x$ $y$ 的影响力得分。
$\mathbf I_n - (1-\alpha) \hat{\tilde{\mathbf A}}$ $\mathbf \Pi_\text{ppr}$ $\mathbf I_n - (1-\alpha) \hat{\tilde{\mathbf A}}$ $\mathbf \Pi_\text{ppr}$ $\mathbf \Pi_\text{ppr}$ 一定存在。
$\mathbf \Pi_\text{ppr} = \alpha \left( \mathbf I_n - (1-\alpha) \hat{\tilde{\mathbf A}}\right)^{-1}$ $\text{det}\left( \mathbf I_n - (1-\alpha) \hat{\tilde{\mathbf A}}\right)\ne 0$ 。
$1-\alpha \ne 0$ $\text{det}\left( \mathbf I_n - (1-\alpha) \hat{\tilde{\mathbf A}}\right)\ne 0$ $\det\left( \hat{\tilde{\mathbf A}} - \frac{1}{ (1-\alpha)}\mathbf I_n\right)\ne 0$ 。
Gershgorin circle theorem $\hat{\tilde{\mathbf A}}$ 1 $\frac{1}{1-\alpha}\gt 1$ $\hat{\tilde{\mathbf A}}$ $\det\left( \hat{\tilde{\mathbf A}} - \frac{1}{ (1-\alpha)}\mathbf I_n\right)\ne 0$ $\mathbf \Pi_\text{ppr}$ 一定存在。
为了将上述影响力得分用于半监督分类，我们首先根据每个节点的自身特征来生成预测 prediction，然后通过我们的 Personalized PageRank 机制来传播prediction 从而生成最终的预测结果。这就是personalized propagation of neural predictions: PPNP 的基础。
PPNP 模型为：
$\begin{matrix} {\vec{h}}_{i} = f_{θ} ({\vec{x}}_{i}) \\ Z = softmax (Π_{ppr} H) \end{matrix}$
其中：
- $f_{\theta}(\cdot)$ $\theta$ $i$ $\mathbf{\vec x}_i$ $i$ $\mathbf{\vec h}_i\in \mathbb R^K$ $\mathbf H\in \mathbb R^{n\times K}$ 为所有节点根据其特征来生成的预测的矩阵，每行对应一个节点。
  $f_\theta(\cdot)$ 在每个节点的特征上独立执行，因此可以并行进行。
- $\mathbf Z\in \mathbb R^{n\times K}$ 为PPNP每个节点预测的 label 分布。
$\hat{\tilde{\mathbf A}}$ $\mathbf A_\text{rw}$ 。
可以看到，PPNP 将神经网络预测和图的传播相互分离。这种分离还解决了上述提到的第二个问题：神经网络的深度现在完全独立于传播算法。正如我们将在 GCN 和 PageRank 联系时所看到的，Personalized PageRank 能够有效地使用无限多个卷积层，这在传统的消息传递框架中显然是不可能的。此外，分离还使得我们可以灵活地运用任何方法来生成预测。
这个就是标签传播 label propagation: LP 的思想，将 MLP 和 LP 相结合。该方法有效的前提是：相邻节点具有相似的 label 。
PPNP 传播的是 prediction，而传统 GCN 传播的是 representation 。
虽然在 inference 阶段，生成单个节点的预测和传播这个预测是连续进行的（看起来是多阶段的），实际上模型的训练是端到端的。即，在反向传播期间梯度流经传播框架（相当于隐式地考虑了无限多个邻域聚合层）。因此，采用传播框架之后大大提高了模型的准确性。

16.1.3 APPNP

Personalized PageRank $\mathbf \Pi_\text{ppr}$ $\mathbb R^{n\times n}$ $O(n^2)$ 的计算复杂度和空间复杂度。
为解决这个问题，重新考虑等式：
$\begin{matrix} T = Π_{ppr} H \\ Z = softmax (T) \end{matrix}$
$\mathbf T$ Personalized PageRank $\mathbf \Pi_\text{ppr}$ prediction $\mathbf H$ Topic-sensitive PageRank $\mathbf H$ 的每一列都定义了一个在所有节点上的分布（非归一化的），这个分布充当 teleport set 。因此，我们可以通过采用 Topic-sensitive PageRank 来近似计算 PPNP，我们称其为 approximate personalized propagation of neural predictions: APPNP 。
APPNP 通过 Topic-sensitive PageRank 的幂次迭代 power iteration 来达到线性复杂度。Topic-sensitive PageRank 的幂次迭代和带重启的随机游走相关，它的每个幂次迭代步定义为：
$\begin{matrix} T^{(0)} = H = f_{θ} (X) \\ T^{(l + 1)} = (1 - α) \hat{\tilde{A}} T^{(l)} + α H \\ Z = softmax ((1 - α) \hat{\tilde{A}} T^{(L - 1)} + α H) \end{matrix}$
prediction $\mathbf H$ 扮演了 starting vectorteleport set $L$ 定义了幂次迭代的数量。
$\mathbb R^{n\times n}$ $\mathbf H,\mathbf T^{(l)},\mathbf Z$ $\mathbb R^{n\times K}, K\ll n$ ）。
$\tilde{\mathbf A} = \mathbf A + \mathbf I_n$ $\mathbb R^{n\times n}$ $\hat{\tilde{\mathbf A}}$ $\tilde{\mathbf A}$ $\hat{\tilde{\mathbf A}} \mathbf T^{(l)}$ $O(n^2K)$ ，对于千万甚至亿级的图而言，这个计算复杂度仍然是不可行的。
$L\rightarrow\infty$ 时， APPNP 收敛到 PPNP 。
证明：APPNP 的迭代公式：
$T^{(l + 1)} = (1 - α) \hat{\tilde{A}} T^{(l)} + α H$
$L$ 步传播之后：
$T^{(L)} = ((1 - α)^{L} {\hat{\tilde{A}}}^{L} + α \sum_{i = 0}^{L - 1} (1 - α)^{i} {\hat{\tilde{A}}}^{i}) H$
$L\rightarrow\infty$ $\alpha \in (0,1]$ $\hat{\tilde{\mathbf A}}$ $\text{det}(\hat{\tilde{\mathbf A}}) \le 1$ ，因此第二项收敛。因此有：
$\begin{matrix} T^{(\infty)} = α {(I_{n} - (1 - α) \hat{\tilde{A}})}^{- 1} H = Π_{ppr} H \\ Z = softmax (T^{(\infty)}) = softmax (Π_{ppr} H) \end{matrix}$
这就是 PPNP。
PPNP/APPNP 的传播框架 propagation scheme 不需要训练任何其它额外的参数。与 GCN 这样的模型不同，GCN 通常需要为每个 propagation layer （GCN 中的传播层就是聚合层）提供更多的参数。因此，PPNP/APPNP 中可以使用很少的参数传播得更远。实验结果表明：这种传播能力确实非常有益。
将 PPNP 视为不动点fixed-point 迭代，这和最原始的图神经网络 GNN 模型存在关联。图神经网络中也是需要通过迭代来求解不动点，但是PPNP 和GNN 存在以下几点不同：
- PPNP 的不同点迭代实际上通过 Personalized PageRankPersonalized PageRank $\mathbf \Pi_\text{ppr}$ 。无需一步一步地迭代计算。
- PPNP 在传播之前应用学到的特征变换，而 GNN 中在传播过程中应用学到的特征变换。
PPNP/APPNP $\alpha$ 进行调整，这可以使得我们能够针对不同类型的图（不同的图需要考虑不同的邻域大小）来优化模型。
$\alpha$ 越大，则停留在局部的概率越大，邻域越小；反之，则邻域越大。
最后，我们给出 PPNP 模型的示意图。
- $f_{\theta}(\cdot)$ $\mathbf{\vec x}_i$ $\mathbf{\vec h}_i$ 。
- Personalized PageRank $\mathbf{\vec h}_i$ 。
注意该模型是端到端训练的，而不是 pipeline 训练的。

16.2 实验

数据集：我们使用四个文本分类数据集。
- CITESEER：引文网络，每个节点代表一篇论文，边代表它们之间的引用。
- CORA-ML：引文网络，每个节点代表一篇论文，边代表它们之间的引用。
- PUBMED：引文网络，每个节点代表一篇论文，边代表它们之间的引用。
- MICROSOFT ACADEMIC 数据集：引文网络，每个节点代表一篇论文，边代表 co-authorship。
对于每个图，我们使用其最大连通分量。所有数据集都使用论文摘要的 bag-of-word 作为特征。下图给出了这些数据集的统计信息，其中 SP 表示平均最短路径长度。
注意：更大的图不一定具有较大的直径（以 SP 来衡量）。总体而言，这些图的平均直径为 5~10，因此常规的两层 GCN 网络无法覆盖整个图。
因为使用了不同的训练配置和过拟合，很多实验评估都遭受了肤浅的统计评估superficial statistical evaluation 和实验偏差experimental bias 。
实验偏差的原因是：对于训练集/验证集/测试集的单次拆分没有明显区分验证集和测试集，或者对于每个数据集甚至是数据集的每次拆分都微调超参数。正如我们评估结果中显示的，消息传递算法对于数据集的拆分以及权重初始化非常敏感，因此精心设计的评估方法非常重要。
我们的工作旨在建立一个全面彻底的评估方法：
- 首先，我们对每个实验执行 100 次，其中每次都是随机拆分训练集并随机初始化权重。我们采用 Glorot 权重初始化方法。
- 其次，我们将数据集拆分为可见集和测试集，这种拆分固定不变。其中测试集仅用于报告最终性能，并不会进行训练和超参数择优。
  - 对于引文网络，可见集采样了 1500 个节点，剩余节点为测试集。
  - 对于 MICROSOFT ACADEMIC 网络，可见集采样了 5000 个节点，剩余节点为测试集。
  可见集被随机拆分为训练集、验证集、以及早停集。训练集中每种类别包含 20 个节点，早停集包含 500 个节点，剩余节点作为验证集。
  我们选择20个不同的随机数种子并固定下来，接下来选择其中的一部分用于随机拆分可见集--测试集、另一部分用于随机拆分训练集--验证集。另外，每种数据拆分都进行 5 次随机初始化，因此实验一共进行 100 次。
- 为进一步防止过拟合，考虑到所有实验的数据集都使用 bag-of-word 特征，因此我们对所有数据集都采用相同数量的层数、相同的hiddel layerdropout $L_2$ 正则化参数、相同的学习率。
- 为防止实验偏差，我们使用 CITESEER 和 CORA-MLpatience = 100 $10000$ 个 epoch（实际上永远无法达到这么多 epoch）。
  只要在早停数据集的准确率提升或者损失函数降低，则重设 patience。我们选择在早停数据集上准确率最高的 patience。该准则受到 GAT 的启发。
- 最后，为了确保我们实验配置的统计鲁棒性，我们通过 bootstrapping 计算出置信区间，并报告主要结论的 t-test 的 p-value。
据我们所知，这是迄今为止对 GCN 模型的最严格的研究。
Baseline 方法：
- GCN：图卷积神经网络。
- N-GCN ：结合了无监督的随机游走和半监督学习两方面优势的 N-GCN 模型。
- GAT ：图注意力神经网络。
- bootstrapped feature propagation: FP ：将经典的线性的图扩散结合 self-training 框架，从而得到的 FP 网络。
- jumping knowledge networks with concatenation: JK ：JK-Net 网络。
- 对于 GCN 我们还给出了未经过超参数优化的普通版本 V.GCN 来说明早停和超参数优化的强大影响。
模型配置：
- V.GCN $h=16$ dropout $L_2$ $\lambda = 5\times 10^{-4}$ 。并且采用原始论文的早停配置：在损失函数上最多迭代 200 个 step，以及早停的 patience = 10 。
- GCN $h=64$ 、邻接矩阵上使用 dropout rate = 0.5dropout $L_2$ $\lambda = 0.02$ 。
- N-GCN：每个随机游走长度使用 4head $h=16$ ，随机游走长度从 1 step4 step $\lambda = 10^{-5}$ $L_2$ 正则化来正则化所有层。使用 attention 机制来合并所有head 的预测。
- GAT $L_2$ $\lambda = 0.001$ 以及学习率为 0.01。和原始论文相反，对于 PUBMED 数据集我们并未使用不同的超参数。
- FP $\alpha = 0.2$ 的回传概率，以及 10 个传播 step、10 个 self-training stepstep $r=0.1\times n$ 个训练节点。
  我们在预测中添加交叉熵最小的训练节点。每个类别添加的节点数基于预测的类别的比例。注意，该模型在初始化时不包含任何随机性，因此我们在每个 train/early stopping/test 集合拆分时仅拆分一次。
- JK-Netconcatenation $h=64$ $\lambda = 0.001$ $L_2$ 正则化，并在所有层执行 dropout rate = 0.5 的 dropout 。但是正则化和 dropout 并不作用在邻接矩阵上。
- PPNP：为确保公平的模型比较，我们为 PPNPGCN $h=64$ 。
  $\lambda = 0.005$ $L_2$ 正则化，在所有层的权重矩阵以及邻接矩阵上应用 dropout rate = 0.5 的 dropout 。
  - 对于 APPNP，我们在每个幂次迭代步之后，都会对邻接矩阵的 dropout 重新采样。
  - $\alpha = 0.1$ $L=10$ 个幂次迭代步。
    MICROSOFT ACADEMIC $\alpha = 0.2$ 的重启概率，因为该数据集的结构不同。
  PPNP $L$ 相结合，从而获得最佳效果。下图表示 APPNP 不同深度的网络对于验证集的准确率。可以看到：更深的预测网络无法提高准确率，这可能是因为简单的 Bag-of-word 特征以及训练集太小导致的。
另外，我们使用 Adam0.01 $L_1$ 归一化。
不同模型在测试集上的指标如下表所示，其中第一张表为 Micro-F1 Score，第二张表为 Macro-F1 Score，最后两张表为 t 检验结果。* 表示模型在 PUBMED, MS ACADEMIC 上 Out Of Memory 。
结论：
- 我们的 PPNP/APPNP 在所有数据集上均明显优于 SOA baseline 方法。
- 我们的严格的比较方式可能会低估 PPNP/APPNPt $p \le 0.05$ 。
- 这种严格的比较方式还表明：当考虑更多的数据集拆分、适当地超参数优化、合理地模型训练时，最近的一些工作（如 N-GCN, GAT, JK-Net, FP 等）的优势实际上消失了。
  在我们的配置中，一个简单的、经过超参数优化的 GCN 就超越了最近提出的这几种模型。
我们给出不同模型在不同数据集上，由于不同的随机初始化以及不同的数据集拆分带来的测试准确率的变化。这表明严格的评估方式对于模型比较的结论至关重要。
此外，这还展示了不同方法的鲁棒性。如 PPNP, APPNP, GAT 通常具有较低的方差。
我们考虑不同模型的训练时间。这里考虑每个 epoch 的平均训练时间（而不是整个训练过程的时间）。我们并未考虑收敛速度（需要多少个 epoch 收敛），因为不同模型的超参数都各自调优，并且不同模型使用的 early stopping 准则不同（调优之后各自的 patience 不一样）。* 表示无法实现，因为无法训练；** 表示在 PUBMED, MS ACADEMIC 上 Out Of Memory 。
结论：
- PPNP 只能应用于中等规模的图，APPNP 可以扩展到大图。
- 平均而言，APPNP 比 GCN 慢 25%，因为 APPNP 的矩阵乘法的数量更多。但是 APPNP 的可扩展性和 GCN 相似。
  APPNP 比 GCN 慢一些但是效果好一点点，所以这是一个速度和效果的 trade-off 。此外，如果 GCN 总的训练时间与 APPNP 相同（即，GCN 多 25% 的 epoch ），是否二者效果一致？这样的话，APPNP 就没有什么优势了。
- APPNP 比其它更复杂的模型（如 GAT ）快得多。
由于现实世界数据集的 labelCORA_ML, CITESEER, PUBMED $n_\text{train,per\;class}$ 对于模型性能的影响（以测试准确率为指标）。
结论：训练的label 节点越稀疏，PPNP/APPNP 的优势越大。这可以归因于 PPNP/APPNP 较高的传播范围，从而将label 节点传播到更远的地方。
为支持这种归因，我们找到了更多的证据：我们比较了 APPNP 和 GCNhop $\bar n$ 为该最短路径的测试节点数量。可以看到：APPNP 相对于 GCN 的性能提升，随着测试节点到训练集的距离的增加而增加。这表明距训练集较远的节点从 APPNP 的传播范围的增加中收益更多。
power iteration $L$ （原始论文用 K 来表示）对于模型准确性的影响。
结论：
- GCN-like $\alpha = 0$ PageRank $L$ 的增加而下降。
- APPNP $\alpha = 0.1$ Personalized PageRank $L$ 的增加而提升。这证明了个性化传播确实是有效的。
  $L$ 增加到无穷大时，APPNPPPNP $L=10$ 时，APPNP 已经足以有效地逼近 PPNP。有趣的是，我们发现这个数字和数据集的半径相符。
$\alpha$ （重启概率）对于模型准确率的影响。
结论：
- $\alpha$ $\alpha \in [0.05,0.2]$ 之间时模型表现最佳。
- $\alpha$ ，因为不同的图展示出不同的邻域结构。
$\alpha$ 会提高模型训练的收敛速度。
PPNPAPPNP $f_\theta$ 以及传播两个部分，但是它是端到端训练的。通过研究模型在没有传播时的表现，可以体现传播的价值。下图给出了传播如何影响模型训练和推断。
- NeverMLP $f_\theta$ 。
- Training：表示我们使用APPNPinference $f_\theta$ 来预测（而不考虑传播）。
- Inference $f_\theta$ ，但是在 inference 时结合传播来预测。
- Inf & Training ：表示常规的 APPNP 模型，即在训练和 inference 时总是使用传播。
结论：
- Inf & Training 总是可以获得最佳结果，这验证了我们的方法。
- 在大多数数据集上，仅在 inference 中使用传播时，准确率下降得很少。
  训练期间跳过传播可以大大减少大型数据集的训练时间，因为所有节点都可以独立地处理。
  这也表明我们的模型可以与不包含任何图结构信息的预训练神经网络相结合，并可以显著提高其准确性。
- Training 相对于 Never 也有较大的改善。这表明仅在训练期间进行传播也是有价值的。因此我们的模型也可以应用于 online/inductive learning，其中只有特征信息（而不是观察到的邻域信息）可用。

十七、VRGCN[2017]

图卷积网络 graph convolution network: GCN 将卷积神经网络CNN 推广到图结构化数据。图卷积 graph convolution 操作对节点的所有邻居应用相同的线性变换，然后是均值池化和非线性激活函数。通过堆叠多个图卷积层，GCN 可以利用来自遥远邻居的信息来学习 node representation 。GCN 及其变体已被应用于半监督节点分类、inductive node embedding 、链接预测、以及知识图谱，超越了不使用图结构的多层感知机 MLP 以及不使用节点特征的 graph embedding 方法。
GCN $L$ GCN $l$ hidden feature $l-1$ 层 hidden feature 来计算。因此，如下图 (a) 所示，单个节点的感受野receptive field 的大小随网络层数呈指数型增长。
- 为解决感受野太大的问题，《Semi-supervised classification with graph convolutional networks》 提出通过 batch 算法来训练 GCN，该方法同时计算 batch 内所有节点的 representation。但是，由于 batch 算法收敛速度慢，以及需要将整个数据集放入到 GPU 中，因此无法处理大规模数据集。
- 《Inductive representation learning on large graphs》 尝试邻域采样 neighbor sampling: NS 的方法为GCNNS $l$ $D^{(l)}$ (b) $\prod_l D^{(l)}$ GCN $D^{(1)}=10, D^{(2)} = 25$ 可以实现与原始 GCN 相当的性能。
$D^{(l)} = 1$ 时（即每个节点的预测仅依靠它本身，不依赖任何其它邻域节点）计算效率最高，此时模型退化为基于节点的多层感知机 MLP 。虽然 HamiltonMLP $D^{(1)}\times D^{(2)} = 250$ 倍，仍然无法让人满意。
另外，使用基于邻域采样的随机训练算法能否确保模型收敛，尚无理论上的保证。
在论文 《Stochastic Training of Graph Convolutional Networks with Variance Reduction》 中，作者为 GCN 设计了新颖的基于控制变量的 control variate-based 随机逼近算法，即 GCN with Variance Reduction: VRGCN 。
VRGCN 利用节点的历史激活值（即历史hidden feature）作为控制变量control variate 。作者表明：通过邻域采样NS 策略得到的 hidden feature 的方差取决于 hidden feature 的幅度magnitude（因为 hidden feature 是一个向量），而VRGCN 得到的 hidden feature 的方差取决于 hidden feature 和它历史均值之间的差异 difference 。
另外，VRGCN 还带来了理论上的收敛性保证。VRGCN 可以给出无偏的（相比较于原始的 GCNGCN $D^{(l)}$ 无关。理论分析表明：VRGCN 可以通过仅对节点采样两个邻居节点来显著降低模型的时间复杂度，同时保持模型的质量。
作者在六个 graph 数据集上对 VRGCN 进行了实验测试，并表明 VRGCN 显著降低了具有相同感受野大小的 NS 的梯度的偏差 biasvariance $D^{(l)} = 2$ 个邻居，但是 VRGCN 在所有数据集上的可比数量的 epoch 中实现了与精确算法相同的预测性能，即，VRGCN 降低了时间复杂度同时几乎没有损失收敛速度，这是我们可以预期的最好结果。在最大的 Reddit 数据集上，VRGCN 算法的训练时间相比精确算法（《Semi-supervised classification with graph convolutional networks》）、邻域采样算法（《Inductive representation learning on large graphs》）、重要性采样算法（《Fastgcn: Fast learning with graph convolutional networks via importance sampling》）要少 7 倍。

17.1 模型

17.1.1 GCN

我们以半监督节点分类任务的 GCN 作为说明，当然我们的算法不局限于任务类型，也不局限于模型类型。我们的算法适用于任何涉及到计算邻居平均激活值的其它模型，以及其它任务。
$G=(\mathcal V,\mathcal E)$ $\mathcal V=\{v_1,\cdots,v_n\}$ $\mathcal E=\{e_{i,j}\}$ $e_{i,j} = (v_i,v_j)$ 为无向边。
$v\in \mathcal V$ $\mathbf{\vec x}_v$ label $y_v$ label $\mathcal V_Y$ $\mathcal V_U = \mathcal V- \mathcal V_Y$ 中每个节点的 label 。
$\mathbf A\in \mathbb R^{|\mathcal V|\times |\mathcal V|}$ $A_{i,j}$ $v_i,v_j$ $v_i,v_j$ $A_{i,j} = 0$ $\mathbf A$ 是对称矩阵。
propagation matrix $\mathbf P\in \mathbb R^{|\mathcal V|\times |\mathcal V|}$ 为归一化的邻接矩阵：
$\begin{matrix} \tilde{A} = I + A \\ \tilde{D} = diag ({\tilde{D}}_{i, i}), {\tilde{D}}_{i, i} = \sum_{j} {\tilde{A}}_{i, j} \\ P = {\tilde{D}}^{- 1 / 2} \tilde{A} {\tilde{D}}^{- 1 / 2} \end{matrix}$
$\tilde{\mathbf A}$ 为添加了 self-loop 的邻接矩阵。
$l+1$ 层）：
$\begin{matrix} Z^{(l + 1)} = P H^{(l)} W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) \end{matrix}$
其中：
- $\mathbf H^{(l)}$ $l$ 层的hidden feature 矩阵，也称作激活矩阵 activataion matrix。
  $v$ $\mathbf{\vec h}_v^{(l)}$ $v$ 的 hidden feature 向量，也称作激活值 activation。
- $\mathbf H^{(0)} = \mathbf X$ $v$ $\mathbf{\vec x}_v$ $v$ 的特征向量。
- $\mathbf W^{(l)}$ $l+1$ 层模型待学习的权重矩阵，它在所有节点上共享。
- $\sigma(\cdot)$ 为非线性激活函数。
GCN $L$ 层，则GCN 模型的训练损失函数为：
$J = \frac{1}{| V_{Y} |} \sum_{v \in V_{Y}} f (y_{v}, {\vec{z}}_{v}^{(L)})$
其中：
- $f(\cdot,\cdot)$ 为单个节点的损失函数。
- $\mathbf{\vec z}_v^{(L)}$ $\mathbf Z^{(L)}$ $v$ $v$ 的 final representation。
$\mathbf P\mathbf H^{(l)}$ $v$ $\mathcal N_v$ $v$ 的邻域均值 hidden feature 向量为：
${\vec{n}}_{v}^{(l)} = \sum_{u = 1}^{V} P_{v, u} {\vec{h}}_{u}^{(l)} = \sum_{u \in N_{v}} P_{v, u} {\vec{h}}_{u}^{(l)}$
$\mathbf P \mathbf H^{(l)}$ $v$ 行，等于邻域hidden feature 的加权和。
$v$ $l$ receptive field $\mathbf{\vec z}_v^{(L)}$ $\mathbf{\vec h}_u^{(l)}$ 的节点集合。
- $L$ GCN $v$ 的所有感受野就是它的 L-hop 邻域集合。
- $\mathbf P = \mathbf I$ 时，GCNMLP $v$ $\{v\}$ 。
GCN 训练损失函数的 batch 梯度为：
$\nabla J = \frac{1}{| V_{Y} |} \sum_{v \in V_{Y}} \nabla f (y_{v}, {\vec{z}}_{v}^{(L)})$
$\mathcal V_Y$ ，因此计算 batch 梯度代价太大。
一个可行的方案是采用随机梯度作为 batch 梯度的近似值：
$\nabla J ≃ \frac{1}{| V_{B} |} \sum_{v \in V_{B}} \nabla f (y_{v}, {\vec{z}}_{v}^{(L)})$
$\mathcal V_B\sub \mathcal V_Y$ 为标记节点集合的一个 mini-batch 。
但是，由于感受野太大，mini-batch 梯度的计算代价仍然很高。例如，NELL 数据集的 2-hop 邻域平均包含 1597 个节点，这意味着在一个 2 层 GCN 中，为计算单个节点的梯度需要涉及 1597/65755 = 2.4% 的全部节点。

17.1.2 GraphSAGE

为降低感受野大小，GraphSAGEneighbor sampling: NS $l$ NS $D^{(l)}$ $v$ hidden feature $\mathbf{\vec n}_v^{(l)}$ $\mathbf{\vec n}_{NS,v}^{(l)}$ ：
${\vec{n}}_{v}^{(l)} ≃ {\vec{n}}_{N S, v}^{(l)} = \frac{| N_{v} |}{D^{(l)}} \sum_{u \in {\hat{N}}_{v}^{(l)}} P_{v, u} {\vec{h}}_{u}^{(l)}$
$\hat{\mathcal N}_v^{(l)}\sub \mathcal N_v$ $D^{(l)}$ $\mathcal N_v$ 的一个随机子集。
因此 NSL-hop $\prod_{l=1}^L D^{(l)}$ 。
$\mathbf{\vec n}_{NS,v}^{(l)}$ $\mathbf{\vec n}_v^{(l)}$ NS $\mathbf{\vec n}_v^{(l)}$ 为精确值 exact 。
上述邻域采样策略以矩阵的形式可以重写为：
$\begin{matrix} Z^{(l + 1)} = {\hat{P}}^{(l)} H^{(l)} W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) \end{matrix}$
$\mathbf P$ $\hat{\mathbf P}^{(l)}$ $\mathbb E\left[\hat{\mathbf P}^{(l)}\right ] = \mathbf P$ $\hat{\mathbf P}^{(l)}$ 为：
$\begin{matrix} {\hat{P}}_{v, u}^{(l)} = {\begin{cases} \frac{| N_{v} |}{D^{(l)}} P_{v, u} & , u \in {\hat{N}}_{v}^{(l)} \\ 0 & , else \end{cases} \end{matrix}$
在 GraphSAGE 的随机梯度下降过程中，存在两个随机性来源：
- mini-batch $\mathcal V_B\sub \mathcal V_Y$ 引入的随机性。
- $D^{(l)}$ $\hat{\mathcal N}_v^{(l)}\sub \mathcal N_v$ 引入的随机性。
$\hat{\mathbf P}^{(l)}$ $\mathbf P$ $\sigma(\cdot)$ $\sigma\left(\hat{\mathbf P}^{(l)}\mathbf H^{(l)} \mathbf W^{(l)}\right)$ $\sigma\left(\mathbf P ^{(l)}\mathbf H^{(l)} \mathbf W^{(l)}\right)$ 的无偏估计。因此，在 NSfinal representaion $\mathbf Z^{(L)}$ $\nabla f\left(y_v,\mathbf{\vec z}_v^{(L)}\right)$ 都是有偏的。最终 NSSGD $D^{(l)}$ $\nabla f\left(y_v,\mathbf{\vec z}_v^{(L)}\right)$ 是有偏的，无法保证它是沿着梯度的正确方向。
在 GraphSAGENS $D^{(l)}$ 必须很大，从而确保模型得到和 exact 策略相近的预测性能。
在 GraphSAGEHamilton $D^{(1)} = 10, D^{(2)} = 25$ $D^{(1)}\times D^{(2)} = 250$ ，这远大于 MLP 的感受野（大小为 1），因此训练仍然代价较高。

17.1.3 FastGCN

FastGCN 是另一种类似于NS 的基于采样的算法。FastGCN 并没有为每个节点采样邻域，而是直接采样每一层的、所有节点共享的感受野。
$l$ FastGCN $D^{(l)}$ $\mathbb S^{(l)}=\left\{v_1^{(l)},\cdots,v_{ D^{(l) }}^{(l)}\right\}$ $D^{(l)}$ $v$ hidden feature $\mathbf{\vec n}_v^{(l)}$ ：
${\vec{n}}_{v}^{(l)} = \sum_{u = 1}^{V} P_{v, u} {\vec{h}}_{u}^{(l)} ≃ \frac{| V |}{D^{(l)}} \sum_{u \in S} P_{v, u} {\vec{h}}_{u}^{(l)} / q (u)$
其中重要性分布：
$q (u) \propto \sum_{v = 1}^{| V |} P_{u, v}^{2}$
我们将这种邻域均值 hidden feature 的估计称作重要性采样 importance sampling: IS 。
- 注意，ISNS $l$ $D^{(l)}$ $l$ $D^{(l)}$ 个节点。
- $D^{(l)}$ $q(u)\propto \sum_{(u,v)\in \mathcal E} \frac{1}{|\mathcal N_v|}$ 时，ISNS $v$ $\frac{1}{|\mathcal N_v|}$ $u$ 。因此 NS 可以看作是 IS 的一种。
IS $\sum_l D^{(l)}$ NS $\prod_l D^{(l)}$ IS $D^{(l)}$ 达到无穷大时才可以确保模型收敛。
从实验来看，我们发现 IS 策略的效果要比 NS 更差，这是因为：在 IShidden feature $\mathbf{\vec n}_v^{(l)}$ hidden feature $\mathbf{\vec h}_v^{(l)}$ 为零。

17.1.4 控制变量

我们提出一种新的基于控制变量control variate: CV的算法，该算法基于历史 hidden feature 来降低估计量的方差。
hidden feature $\mathbf{\vec n}_v^{(l)} = \sum_{u\in \mathcal N_v} P_{v,u} \mathbf{\vec h}_u^{(l)}$ $\mathbf{\vec h}_u^{(l)}$ $\mathbf{\vec h}_u^{(l)}$ $\bar{\mathbf{\vec h}}_u^{(l)}$ affordable $\mathbf{\vec h}_u^{(l)}$ $\mathbf{\vec h}_u^{(l)}$ $\bar{\mathbf{\vec h}}_u^{(l)}$ $\bar{\mathbf{\vec h}}_u^{(l)}$ $\mathbf{\vec h}_u^{(l)}$ 是近似的。
$\Delta \mathbf{\vec h}_u^{(l)} = \mathbf{\vec h}_u^{(l)} - \bar{\mathbf{\vec h}}_u^{(l)}$ ，则有：
${\vec{n}}_{v}^{(l)} = \sum_{u \in N_{v}} P_{v, u} {\vec{h}}_{u}^{(l)} = \sum_{u \in N_{v}} P_{v, u} Δ {\vec{h}}_{u}^{(l)} + \sum_{u \in N_{v}} P_{v, u} {\bar{\vec{h}}}_{u}^{(l)}$
定义：
${\vec{n}}_{C V, v}^{(l)} = \frac{| N_{v} |}{D^{(l)}} \sum_{u \in {\hat{N}}_{v}^{(l)}} P_{v, u} Δ {\vec{h}}_{u}^{(l)} + \sum_{u \in N_{v}} P_{v, u} {\bar{\vec{h}}}_{u}^{(l)}$
$\hat{\mathcal N}_v^{(l)}\sub \mathcal N_v$ $D^{(l)}$ $\mathcal N_v$ 的一个随机子集。
$\bar{\mathbf{\vec h}}_u^{(l)}$ $\Delta \mathbf{\vec h}_u^{(l)}$ 需要递归计算，但是仅对它采样一小部分的邻域。同时，这进一步促进了模型权重的缓慢变化。
因为主要部分是精确值，次要部分是近似值，因此这会大幅度降低近似计算带来的影响。
$\mathbf{\vec n}_{ v}^{(l)} \simeq \mathbf{\vec n}_{CV,v}^{(l)}$ $\mathbf{\vec n}_{CV,v}^{(l)}$ hidden feature $\mathbf{\vec n}_v^{(l)}$ 的 CV 估计量。写作矩阵的形式为：
$\begin{matrix} Z^{(l + 1)} = ({\hat{P}}^{(l)} (H^{(l)} - {\bar{H}}^{(l)}) + P {\bar{H}}^{(l)}) W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) \end{matrix}$
$\bar{\mathbf H}^{(l)}$ $\bar{\mathbf{\vec h}}_u^{(l)}$ 拼接而成。
$\Delta{\mathbf{\vec h}}_u^{(l)}$ $\bar{\mathbf{\vec h}}_u^{(l)}$ 取平均是可以接受的，因为它们不需要进行递归地计算。
$\bar{\mathbf{\vec h}}_u^{(l)}$ $\mathbf{\vec h}_u^{(l)}$ $\Delta \mathbf{\vec h}_u$ $\mathbf{\vec n}_{CV,v}^{(l)}$ $\mathbf{\vec n}_{NS,v}^{(l)}$ $\bar{\mathbf{\vec h}}_u^{(l)}$ $\mathbf{\vec h}_u^{(l)}$ ，因此有：
${\vec{n}}_{C V, v}^{(l)} = 0 + \sum_{u \in N_{v}} P_{v, u} {\bar{\vec{h}}}_{u}^{(l)} = \sum_{u \in N_{v}} P_{v, u} {\vec{h}}_{u}^{(l)} = {\vec{n}}_{v}^{(l)}$
即估计量的偏差和方差都为零。
我们定义控制变量 control variate 为：
${\vec{δ}}_{v}^{(l)} = {\vec{n}}_{C V, v}^{(l)} - {\vec{n}}_{N S, v}^{(l)} = \sum_{u \in N_{v}} P_{v, u} {\bar{\vec{h}}}_{u}^{(l)} - \frac{| N_{v} |}{D^{(l)}} \sum_{u \in {\hat{N}}_{v}^{(l)}} P_{v, u} {\bar{\vec{h}}}_{u}^{(l)}$
$\vec \delta_v^{(l)}$ NS $\mathbf{\vec n}_{NS,v}^{(l)}$ 中，从而降低估计量的方差。
$\vec \delta_v^{(l)}$ $\bar{\mathbf{\vec h}}_u^{(l)}$ $\vec \delta_v^{(l)}$ 也不需要递归计算。
采用 CV 估计量来训练 GCN 的方法和 NS 估计量都相同。具体而言，在 GCN 的每轮迭代中都执行以下算法。
VRGCN 迭代算法：
- mini-batch $\mathcal V_B\sub \mathcal V_Y$ 。
- 构建一个计算图，其中包含当前 mini-batch 每个节点的 hidden featurehidden feature $\mathbf{\vec h}_v^{(l)}$ $\bar{\mathbf{\vec h}}_v^{(l)}$ 。
- 根据下面的前向传播公式进行传播：
  $\begin{matrix} Z^{(l + 1)} = ({\hat{P}}^{(l)} (H^{(l)} - {\bar{H}}^{(l)}) + P {\bar{H}}^{(l)}) W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) \end{matrix}$
  $\vec \delta_v^{(l)}$ $\mathbf P\bar{\mathbf H}^{(l)} - \hat{\mathbf P}^{(l)}\bar{\mathbf H}^{(l)}$ 。
- 通过反向传播计算梯度，并更新参数。
- hidden feature $\bar{\mathbf{\vec h}}_v^{(l)}$ 。
$\mathcal R^{(l)}$ $\hat {\mathbf P}^{(l)}$ $\mathcal R^{(l)}$ $l$ hidden feature $\mathbf{\vec h}_v^{(l)}$ 来计算当前的 mini-batch 。
$\mathcal R^{(l)}$ $\hat {\mathbf P}^{(l)}$ ：
- $\mathcal R^{(L)} = \mathcal V_B$ 。
- $l$ $\mathcal R^{(l+1)}$ $D^{(l)}$ $\mathcal R^{(l)}$ 中。
  $\mathbf{\vec h}_v^{(l)}$ $\mathbf{\vec h}_v^{(l+1)}$ $v$ 每次都作为其自己的邻居一定被选中。
VRGCN 的感受野如下图 (c)hidden feature $\mathbf{\vec h}_v^{(l)}$ 来计算当前的 mini-batchhidden feature $\bar{\mathbf{\vec h}}_v^{(l)}$ 也用于计算当前的 mini-batch 。

17.1.5 理论分析

为便于理论分析估计量的方差，这里我们假设所有的特征都是一维的。通过分别处理每个维度，我们的分析结论可以推广到多维。
$\hat{\mathcal N}^{(l)}_v$ $\mathcal N_v$ $D^{(l)}$ 个样本得到，则我们有结论：
${Var}_{{\hat{N}}_{v}^{(l)}} [\frac{| N_{v} |}{D^{(l)}} \sum_{u \in {\hat{N}}_{v}^{(l)}} x_{u}] = \frac{C_{v}^{(l)}}{2 D^{(l)}} \sum_{u_{1} \in N_{v}} \sum_{u_{2} \in N_{v}} (x_{u_{1}} - x_{u_{2}})^{2}$
$C_v^{(l)} = 1-(D^{(l)}-1)/(|\mathcal N_v| - 1)$ 。证明见原始论文的附录。
根据以上结论，对于 NS 估计量我们有：
${Var}_{{\hat{N}}_{v}^{(l)}} [n_{N S, v}^{(l)}] = \frac{C_{v}^{(l)}}{2 D^{(l)}} \sum_{u_{1} \in N_{v}} \sum_{u_{2} \in N_{v}} {(P_{v, u_{1}} h_{u_{1}}^{(l)} - P_{v, u_{2}} h_{u_{2}}^{(l)})}^{2}$
即邻域内所有邻居pairhidden feature $P_{v,u}h_u$ 都相等，则该方差为零。此时，任何邻域节点都包含了整个邻域的信息。
同样地，对于 CV 估计量我们有：
${Var}_{{\hat{N}}_{v}^{(l)}} [n_{C V, v}^{(l)}] = \frac{C_{v}^{(l)}}{2 D^{(l)}} \sum_{u_{1} \in N_{v}} \sum_{u_{2} \in N_{v}} {(P_{v, u_{1}} Δ h_{u_{1}}^{(l)} - P_{v, u_{2}} Δ h_{u_{2}}^{(l)})}^{2}$
NS $h_u^{(l)}$ $\Delta h_u^{(l)}$ $\Delta h_u^{(l)}$ $h_u^{(l)}$ 更小，因此 CV 估计量通常都比 NS 估计量的方差更小。
$\Delta h_u^{(l)}$ 收敛到零，因此我们不仅降低了方差，甚至消除了方差。
除了较小的方差，CV 估计量比 NS 估计量还具有更强的理论收敛性保证。这里我们提出两个定理：
- 如果模型参数固定，则在 inferenceCV $L$ $L$ 为卷积层的层数）个 epoch 之后产生 exact 预测。
- 无论邻域采样大小如何，模型都会朝着局部最优解收敛。
假设算法执行多个 epochepoch $\mathcal V$ $I$ mini-batch $\{\mathcal V_1,\cdots,\mathcal V_I\}$ $i$ mini-batch $\mathcal V_i$ 中的节点进行前向传播和反向传播，从而更新模型参数以及节点的历史 hidden feature 均值。
注意：在每个 epoch 中我们扫描所有节点，而不仅仅是标记的训练节点，从而确保每个 epoch 中对每个节点的历史 hidden feature 均值至少进行了一次更新。
$i$ $\mathbf W_i$ $\mathbf W_i$ SGD $\mathbf W = \mathbf W_T$ $T$ 为迭代的总次数。
$i$ exact hidden feature $\mathbf H ^{(l)}_i$ $\mathbf Z$ $\mathbf Z_i ^{(l)}$ ；使用 CVhidden feature $\mathbf H_{CV,i}^{(l)}$ $\mathbf Z$ $\mathbf Z_{CV,i}^{(l)}$ 。
$i$ mini-batch $\mathcal V_i$ 的损失函数和梯度，其中：
- 对于 exact 算法，其损失函数和梯度分别为：
  $\begin{matrix} J (W_{i}) = \frac{1}{| V_{i} |} \sum_{v \in V_{i}} f (y_{v}, {\vec{z}}_{i, v}^{(L)}) \\ G_{i} (W_{i}) = \nabla J_{W} ≃ \frac{1}{| V_{i} |} \sum_{v \in V_{i}} \nabla_{W_{i}} f (y_{v}, {\vec{z}}_{i, v}^{(L)}) \end{matrix}$
  exact $\mathbf W_i$ constant $i$ 。
- 对于 CV 算法，其损失函数和梯度分别为：
  $\begin{matrix} J_{C V} (W_{i}) = \frac{1}{| V_{i} |} \sum_{v \in V_{i}} f (y_{v}, {\vec{z}}_{i, C V, v}^{(L)}) \\ G_{i, C V} (W_{i}) = \nabla J_{C V, W} ≃ \frac{1}{| V_{i} |} \sum_{v \in V_{i}} \nabla_{W_{i}} f (y_{v}, {\vec{z}}_{i, C V, v}^{(L)}) \end{matrix}$
  $\mathbf G_{i,CV} (\mathbf W_i)$ 有两个随机性来源：
  - mini-batch $\mathcal V_i\sub \mathcal V_Y$ 引入的随机性。
  - $D^{(l)}$ $\hat{\mathcal N}_v^{(l)}\sub \mathcal N_v$ $\hat{\mathbf P}$ 来刻画）。
  $\mathbf G_{i,CV} (\mathbf W_i)$ $\mathcal V_i$ $\hat{\mathbf P}$ 的期望、或者对二者的共同期望。
以下定理解释了 CV 的近似预测和 exact 预测之间的关系：
constant sequence $\mathbf W_i = \mathbf W$ $i\gt L\times I$ $L$ 个 epoch 之后），通过 CV 估计量计算的 hidden feature 和 exact 计算的相等。即：
$\begin{matrix} H_{i, C V}^{(l)} = H_{i}^{(l)}, 1 \leq l \leq L \\ Z_{i, C V}^{(l)} = Z_{i}^{(l)}, 1 \leq l \leq L \end{matrix}$
其证明见原始论文附录。
该定理表明：在 inferenceCV $L$ epoch $L$ GCN $L=2$ ），然后得到 exact 预测。这优于 NS 估计量，因为除非邻域大小无穷大，否则 NS 估计量无法恢复 exact 预测。
和直接进行 exact 预测的 batch 算法相比，CV 估计量可扩展性更强，因为它不需要将整个图加载到内存中。
$D^{(l)}$ $\mathbf G_{i,CV} (\mathbf W_i)$ SGD $D^{(l)}$ 而不必担心收敛性。
定理：假设：
- $\sigma(\cdot)$ $\rho-\text{Lipschitz}$ 。
- $\nabla_{\mathbf{\vec z}}f(y,\mathbf{\vec z})$ $\rho-\text{Lipschitz}$ 且有界的。
- $\hat{\mathbf P}$ $\tilde{\mathcal V}$ $||\mathbf G (\mathbf W) ||_\infty, || \mathbf G_{\tilde{\mathcal V},CV} (\mathbf W )||_\infty, ||\nabla_{\mathbf W} \mathcal J(\mathbf W)||_\infty$ $G$ $G\gt 0$ ）。
- $\mathcal J(\mathbf W)$ $\rho-\text{smooth}$ $\mathbf W_1, \mathbf W_2$ ，有：
  $| J (W_{2}) - J (W_{1}) - < \nabla J (W_{1}), W_{2} - W_{1} > | \leq \frac{ρ}{2} | | W_{2} - W_{1} | |_{F}^{2}$
  $<\mathbf A,\mathbf B> = \text{tr}\left(\mathbf A^\top \mathbf B\right)$ $\mathbf A$ $\mathbf B$ 的内积。
$K\gt 0$ $\forall N\gt L\times I$ $1\le R\le N$ 次 SGD 迭代时，有：
$E_{R} | | \nabla J (W_{R}) | |_{F}^{2} \leq 2 \frac{J (W_{1}) - J (W^{*}) + K + ρ K}{\sqrt{N}}$
其中：
- $R$ 为 [1, N] 之间均匀随机分布的变量。
- CV $\mathbf G_{i,CV} (\mathbf W_i)$ ：
  $W_{i + 1} = W_{i} - γ \times G_{i, C V} (W_{i})$
  $\gamma = \min\{\frac{1}{\rho}, \frac{1}{\sqrt N}\}$ 。
$\lim_{N\rightarrow \infty} \mathbb E_R||\nabla \mathcal J(\mathbf W_R)||_F^2 = 0$ $N$ 趋向于无穷时，我们的训练算法收敛到局部最优解（梯度为零）。完整的证明见原始论文附录。
$\mathbf G_{i,CV} (\mathbf W_i)$ $\mathbf G_{i} (\mathbf W_i)$ $i\rightarrow \infty$ 这种渐进无偏的 SGD 收敛到局部最优解。

17.1.6 dropout

这里我们引入第三种随机性来源：对输入特征的随机 dropout 。
$\mathcal D_p(\mathbf X) = \mathbf M \circ \mathbf X$ dropout $M_{i,j}\sim Bern(p)$ iid $\circ$ 是逐元素的乘积。
$\mathbb E_\mathbf M[\cdot]$ 为针对 dropout 的期望。
引入 dropout 之后，即使在 GCN 中采用 exacthidden feature $\mathbf{\vec h}_v^{(l)}$ 也是随机变量，其随机性来源于 dropout 。
hidden feature $\mathbf{\vec n}_v^{(l)}$ $\mathbf{\vec n}_{CVD,v}^{(l)}$ $\mathbf{\vec n}_v^{(l)}$ 具有相同的均值和方差。即：
$\begin{matrix} E_{{\hat{N}}_{v}^{(l)}} E_{M} [{\vec{n}}_{C V D, v}^{(l)}] = E_{M} [{\vec{n}}_{v}^{(l)}] \\ {Var}_{{\hat{N}}_{v}^{(l)}} {Var}_{M} [{\vec{n}}_{C V D, v}^{(l)}] = {Var}_{M} [{\vec{n}}_{v}^{(l)}] \end{matrix}$
dropout $\Delta \mathbf{\vec h}_u^{(l)} = \mathbf{\vec h}_u^{(l)} - \bar{\mathbf{\vec h}}_u^{(l)}$ $\bar{\mathbf{\vec h}}_u^{(l)}$ $\mathbf{\vec h} _u^{(l)}$ 具有相同分布的时候。为此，我们设计了另一种随机逼近算法，称作 dropout 控制变量 control variate for dropout: CVD 。
weight scaling $\vec\mu_v^{(l)} = \mathbb E_\mathbf M\left[\mathbf{\vec h}_v^{(l)}\right]$ 。即在 dropout 模型中，我们可以运行没有 dropoutcopy $\vec\mu_v^{(l)}$ ，如下图 (d) 所示。
$\vec\mu_u^{(l)}$ $\bar{\vec\mu}_u^{(l)}$ 来设计 CVD 估计量。
$\mathbf{\vec n}_v^{(l)}$ 重写为：
${\vec{n}}_{v}^{(l)} = \sum_{u \in N_{v}} P_{v, u} {\vec{h}}_{u}^{(l)} = \sum_{u \in N_{v}} P_{v, u} ({\overset{˚}{\vec{h}}}_{u}^{(l)} + Δ {\vec{μ}}_{u}^{(l)} + {\bar{\vec{μ}}}_{u}^{(l)})$
其中：
- $\Delta \vec{\mu}_u^{(l)} = \vec\mu_u^{(l)} - \bar{\vec\mu}_u^{(l)}$ $\vec\mu_u^{(l)}$ $\bar{\vec\mu}_u^{(l)}$ $\vec\mu_u^{(l)}$ CV $\mathbf{\vec h}_u^{(l)}$ 。
- $\mathbf{\mathring{\vec h}}_u^{(l)} = \mathbf{\vec h}_u^{(l)} - \vec\mu_u^{(l)}$ $\mathbf{\vec h}_u^{(l)}$ dropout $\vec\mu_u^{(l)}$ （不带 dropout ）之间的差距。
因此定义：
${\vec{n}}_{C V D, v}^{(l)} = \sqrt{\frac{| N_{v} |}{D^{(l)}}} \sum_{u \in {\hat{N}}_{v}^{(l)}} P_{v, u} {\overset{˚}{\vec{h}}}_{u}^{(l)} + \frac{| N_{v} |}{D^{(l)}} \sum_{u \in {\hat{N}}_{v}^{(l)}} P_{v, u} Δ {\vec{μ}}_{u}^{(l)} + \sum_{u \in N_{v}} P_{v, u} {\bar{\vec{μ}}}_{u}^{(l)}$
$\mathbf{\vec n}_v^{(l)}\simeq \mathbf{\vec n}_{CVD,v}^{(l)}$ 。
第一项考虑 dropout current value 和 no-dropout current valuegap $\sqrt{\cdot}$ 是为了计算方差的方便。第二项考虑 no-dropout current value 和 no-dropout avg value 之间的 gap。第三项就是 no-dropout avg value 本身。
dropout $\mathbb E_\mathbf M \left[\mathbf{\mathring{\vec h}}_u^{(l)}\right] = 0$ ，因此有：
$E_{{\hat{N}}_{v}^{(l)}} E_{M} [{\vec{n}}_{C V D, v}^{(l)}] = 0 + E_{{\hat{N}}_{v}^{(l)}} E_{M} [{\vec{n}}_{C V, v}^{(l)}] = E_{M} [{\vec{n}}_{v}^{(l)}]$
第一个等式成立是因为当移除 dropout 时， CVD 估计量就退化为 CV 估计量。
CVD $\mathbf{\vec h}_v^{(l)}$ 之间不相关，则 CVD 估计量具有良好的方差。
hidden feature $\forall v_1\ne v_2, \text{Cov}_\mathbf M\left[ \mathbf{\vec h}_{v_1}^{(l)}, \mathbf{\vec h}_{v_2}^{(l)}\right] = 0$ ，则我们得到两个结论：
- $\hat{\mathcal N}^{(l)}_v$ $\mathcal N_v$ $D^{(l)}$ $x_1,\cdots,x_{|\mathcal V|}$ 为一维随机变量，且满足：
  $\begin{matrix} \forall v, E [x_{v}] = 0 \\ \forall v_{1} \neq v_{2}, Cov [x_{v_{1}}, x_{v_{2}}] = 0 \end{matrix}$
  则有：
  ${Var}_{{\hat{N}}_{v}^{(l)}} {Var}_{X} [\frac{| N_{v} |}{D^{(l)}} \sum_{u \in {\hat{N}}_{v}^{(l)}} x_{u}] = \frac{| N_{v} |}{D^{(l)}} \sum_{u \in N_{v}^{(l)}} Var [x_{u}]$
- $X$ $Y$ $f(X,Y)$ $g(Y)$ $\mathbb E_{X}[f(X,Y)] = 0$ ，则有：
  ${Var}_{X, Y} [f (X, Y) + g (Y)] = {Var}_{X, Y} f (X, Y) + {Var}_{Y} g (Y)$
这些结论的证明参考原始论文的附录。
通过上述结论，我们有：
$\begin{matrix} {Var}_{{\hat{N}}_{v}^{(l)}} {Var}_{M} [{\vec{n}}_{C V D, v}^{(l)}] = {Var}_{{\hat{N}}_{v}^{(l)}} {Var}_{M} [\sqrt{\frac{| N_{v} |}{D^{(l)}}} \sum_{u \in {\hat{N}}_{v}^{(l)}} P_{v, u} {\overset{˚}{\vec{h}}}_{u}^{(l)}] \\ + {Var}_{{\hat{N}}_{v}^{(l)}} [\frac{| N_{v} |}{D^{(l)}} \sum_{u \in {\hat{N}}_{v}^{(l)}} P_{v, u} Δ {\vec{μ}}_{u}^{(l)} + \sum_{u \in N_{v}} P_{v, u} {\bar{\vec{μ}}}_{u}^{(l)}] \end{matrix}$
我们将第一项视为从 dropout 中引入的方差 variance from dropout: VD，第二项视为从邻域采样中引入的方差 variance from neighbor sampling: VNSVD $\text{Var}_{\mathbf M}\left[\mathbf{\vec n}_v^{(l)}\right]$ 、VNS 应该等于零。
$\mathbf{\vec h}_v^{(l)}$ $\vec\mu_v^{(l)}$ 来分析 VNS 。令：
$\begin{matrix} {\vec{s}}_{u}^{(l)} = {Var}_{M} [{\vec{h}}_{v}^{(l)}] = {Var}_{M} [{\overset{˚}{\vec{h}}}_{u}^{(l)}] \\ {\vec{ξ}}_{v}^{(l)} = {Var}_{M} [{\vec{n}}_{v}^{(l)}] = \sum_{u \in N_{v}} P_{v, u}^{2} {\vec{s}}_{u}^{(l)} \end{matrix}$
根据这里的第一个结论，CVDVD $\sum_{u\in \mathcal N_v} P_{v,u}^2 \mathbf{\vec s}_u^{(l)} = {\vec \xi}_v^{(l)}$ ，刚好就是 exact 估计量的 VD 部分。
我们总结出所有这些估计量及其方差，推导过程参考原始论文。
- exact ： VNSVD ${\vec \xi}_v^{(l)}$ 。
- NSVNS $\frac {C_v^{(l)}}{2D^{(l)}}\sum_{u_1\in \mathcal N_v}\sum_{u_2\in \mathcal N_v}\left(P_{v,u_1}\vec\mu_{v_1}^{(l)} - P_{v,u_2}\vec\mu_{v_2}^{(l)}\right)^2$ VD $\frac{|\mathcal N_v|}{D^{(l)}} {\vec \xi}_v^{(l)}$ 。
- CVVNS $\frac {C_v^{(l)}}{2D^{(l)}}\sum_{u_1\in \mathcal N_v}\sum_{u_2\in \mathcal N_v}\left(P_{v,u_1}\Delta\vec\mu_{v_1}^{(l)} - P_{v,u_2}\Delta\vec\mu_{v_2}^{(l)}\right)^2$ VD $\left(3+\frac{|\mathcal N_v|}{D^{(l)}} \right) {\vec \xi}_v^{(l)}$ 。
- CVDVNS $\frac {C_v^{(l)}}{2D^{(l)}}\sum_{u_1\in \mathcal N_v}\sum_{u_2\in \mathcal N_v}\left(P_{v,u_1}\Delta\vec\mu_{v_1}^{(l)} - P_{v,u_2}\Delta\vec\mu_{v_2}^{(l)}\right)^2$ VD ${\vec \xi}_v^{(l)}$ 。
CV/CVDVNS $\Delta\vec\mu_{v}$ $\Delta\vec\mu_{v}$ 收敛到零；NSVNS $\vec\mu_{v}$ 。

17.1.7 预处理

有两种可能的dropout 方式：
$\begin{matrix} Z^{(l + 1)} = P D_{p} (H^{(l)}) W^{(l)} \\ Z^{(l + 1)} = D_{p} (P H^{(l)}) W^{(l)} \end{matrix}$
区别在于：第一种方式是在邻域聚合之前应用 dropout、第二种方式在邻域聚合之后应用 dropout 。《Semi-supervised classification with graph convolutional networks》 采用前者，而我们采用后者。
$\mathbf U^{(0)} = \mathbf P\mathbf H^{(0)} = \mathbf P\mathbf X$ $\mathbf U^{(0)}$ 作为新的输入。采用这种方式之后，图卷积层的实际数量减少了一层。现在第一层仅是一个全连接层，而不是图卷积层。
由于大多数GCN 仅有两层卷积层，因此这种方式可以显著减少感受野大小，并加快训练速度。我们称该优化为预处理策略 preprocessing strategy 。

17.2 实验

我们在六个数据集上通过实验验证了 VRGCN 算法的方差和收敛性，其中包括来自GCN 的 Citeseer, Cora, PubMed, NeLL 四个数据集以及来自 GraphSAGE 的 PPI, Reddit 两个数据集。
对于这些数据集的统计见下表所示。最后两列给出了节点的 1-hop 邻域平均大小、2-hop 邻域平均大小。由于是无向图，因此每条边被计算两次，但是 self-loop 仅被计算一次。
- 对于每个数据集，所有模型在该数据集上采用相同的训练集/验证集/测试集拆分（而不是每个模型单独的一个拆分）。
- 对于 PPI 数据集（多标签分类数据集）我们报告测试集的 Micro-F1 指标，对于其它多分类数据集我们报告准确率 accuracy 。
- 对于Citeseer, Cora, PubMed, NELL 数据集，baseline 模型为 GCN ；对于 PPI, Reddit 数据集，baseline 模型为 GraphSAGE 。
- 对于收敛性实验，我们在 Citeseer, Cora, PubMed, NELL 数据集上重复执行 10 次，在 Reddit, PPI 数据集上重复执行 5 次。
- 所有实验都在 Titan X GPU 上完成。
首先我们评估预处理PreProcessing: PP的影响。我们比较了三种配置：
- M0：dropout 在前、计算邻域均值在后，且计算邻域的 exact 均值（未对邻域进行任何采样）
- M1：计算邻域均值在前、dropout 在后，且计算邻域的 exact 均值（未对邻域进行任何采样）
- M1 + PPdropout $D^{(l)} = 20$ $\mathbf P\mathbf H^{(0)}$ 使得第一层邻域均值是 exact的。
实验结果如下所示。我们固定了训练的 epoch，然后给出不同配置的 GCN 在不同数据集上的测试accuracy 。我们的实现不支持 NELL 上的 M0 配置，因此未报告其结果。
可以看到：三种配置都具有相近的性能，即更换 dropout 的位置不会影响模型的预处性能。因此后续的收敛性实验中，我们以最快的 M1 + PP 配置作为 exact baseline 。
然后我们评估 VRGCN 的收敛性。我们将 M1 + PPexact baseline $D^{(l)} = 2$ $D^{(l)} = 1$ $D^{(l)}= 1$ MLP $D^{(l)} = 2$ ：
- NS ：没有使用预处理的 NS 估计量（邻域采样）。
- NS + PP：采用了预处理的 NS 估计量。
- IS + PP：采用了预处理的 IS 估计量（重要性采样）。
- CV + PP：采用了预处理的 CV 估计量。
- CVD + PP：采用了预处理的 CVD 估计量。
$D^{(l)} =2$ 时这四种算法在每个 epochbaseline M1 + PP $D^{(l)}= 20$ 。我们比较了这些方法和 baseline 相比，它们的收敛速度。
- 首先我们不考虑 dropout （dropout rate = 0 ），然后绘制不同方法每个 epoch 的损失函数值，如下图所示。
  在前 4 个数据集中，CV + PP 的损失曲线和 exact 损失曲线相重叠；部分数据集上未给出 NS 损失曲线和 IS + PP 损失曲线，因为损失太大；我们并未绘制 CVD + PP ，因为当 dropout rate = 0 时，它等价于 CV + PP 。
  结论：
  - CV + PP 总是可以达到和 M1 + PP 相同的训练损失。
  - NS, NS + PP, IS + PP 由于它们的梯度是有偏的，因此其训练损失更高。
  这些结果和前述定理相符。定理指数：CVexact $D^{(l)}$ 无关。
- 然后我们考虑使用 dropout，然后比较每个 epoch 使用不同方式训练的模型验证accuracy 。其中不管训练算法采取何种方式，inference 都采用 exact 算法来预测。结果如下图所示。注意：NS 在Reddit 数据集上收敛到 0.94、在 PPI 数据集上收敛到 0.6，由于太低所以未在图中给出。
  结论：
  - 当存在 dropout 时，CVD + PP 是唯一可以在所有数据集上达到和 exact 算法相近的验证准确率的算法。
  - 当存在 dropout 时，CVD + PP 的收敛速度（以 epochM1 + PP $D^{(l)}$ 小了 10倍，但是 CVD + PP 的收敛速度几乎没有损失。
    这已经是我们期待的最佳结果：具有和 MLP 可比的计算复杂度，但是具有和 GCN 相近的模型质量。
  - 在 PubMed 数据集上，CVD + PP 性能比 M1 + PP 好得多，我们怀疑它找到了更加的局部最优值。
  - 对 PPI 以外的所有其它数据集，简单的 CV + PP 的准确率就可以和 M1 + PP 相媲美。
  - 在 Reddit,PPI 数据集上，IS + PP 性能比 NS + PP 更差。这可能是部分节点没有采样到任何邻居，正如我们前文所述。
  - 我们对 IS + PP 的准确率结果和 FastGCN 的报告结果相符，而他们的 GraphSAGE baseline 并未实现预处理技术。
下面给出了在最大的 Reddit 数据集上达到给定的 96% 验证准确率所需要的平均训练 epoch 和训练时间。可以看到：CVD + PP 比 exact 快 7 倍左右。这是因为 CVD + PP 的感受野大小显著降低。
另外，NS, IS + PP 无法收敛到给定的准确率（即无法收敛到 96% 验证准确率）。
我们使用相同的、由 M1 + PP 训练的模型，然后采用不同的算法进行预测，并给出预测质量。
如前所述，CV 可以达到和 exact 算法相同的测试准确率，而 NS, NS + PP 的性能要差得多。
最后，我们比较了训练期间第一层权重每一维梯度的平均 bias 和方差（对权重自身进行了归一化）。
结论：
- 对于没有 dropout 的模型，CV + PP 的梯度几乎所无偏的。
- 对于存在 dropout 的模型，CV + PP he CVD + PP 梯度的bias 和方差通常小于 NS 和 NS + PP 。

十八、ClusterGCN[2019]

图卷积网络 graph convolutional network: GCN 在解决许多 graph-based 的应用程序中变得越来越流行，包括半监督节点分类、链接预测、推荐系统。给定一个图，GCN 使用图卷积操作逐层获得 node embedding ：在每一层，节点的 embedding 是通过收集其邻居的 embedding 来获得的，然后是一层或几层的线性变换和非线性激活。然后将最后一层的 embedding 用于一些终端任务。
由于 GCN 中的图卷积运算需要利用图中节点之间的交互来传播 embedding，因此 GCN 的训练非常困难。和其它神经网络不同，GCN 的损失函数中每个节点对应的损失不是相互独立的，而是依赖于大量其它节点，尤其是当GCN 的深度很深时。相比之下，其它神经网络的损失函数中，每个样本的损失是相互独立的。由于节点的依赖性，GCN 的训练非常缓慢并且需要大量的内存，因为反向传播阶段需要将图中所有的 embeding 存储到 GPU 内存中。
为了说明研究可扩展的 GCN 训练算法的必要性，我们从以下三个因素来讨论现有算法的优缺点：内存需求、epoch 训练速度（每个 epoch 的训练时间）、epoch 收敛速度（每个 epoch 损失函数下降的值）。这三个因素对于评估训练算法至关重要。注意：内存需求直接限制了算法的可扩展性，epoch 训练速度和epoch 收敛速度一起决定了整个训练时间。
$n$ $d$ embedding $L$ 为 GCN 的深度。
- full-batch 梯度下降：GCN 原始论文使用 full-batch 梯度下降来训练。为计算整个训练集损失的梯度，它需要存储所有中间 embeddingintermediate embedding $O(ndL)$ 的内存需求，因此难以扩展到大型图。
  另外，尽管每个 epoch 训练时间高效（单个 epoch 训练时间很短），但是单个 epoch 的收敛速度很慢，因为每个 epoch 仅更新一次参数。
  整体而言，full-batch 梯度下降内存需求差、epoch 训练速度快、epoch 收敛速度慢。
- mini-batch 随机梯度下降：GraphSAGE 使用了基于 mini-batch 的随机梯度下降来训练。由于每次迭代仅基于 mini-batch 梯度，因此它可以减少内存需求，并在每个 epoch 进行多次更新从而加快 epoch 收敛速度。
  mini-batch $L$ $L-1$ embedding $L-2$ 层的 embeddingGCN $L$ 呈指数关系。
  GraphSAGE 提出使用固定数量的邻域样本，而 FastGCN 提出了重要性采样。但是这些方法的开销仍然很大，并且当 GCN 层数更深时情况更糟。
  整体而言，mini-batch 随机梯度下降内存需求好、epoch 训练速度慢、epoch 收敛速度快。
- VR-GCN：VR-GCN 提出方差缩减variance reduction技术来减少邻域采样规模。尽管这种方法成功地降低了邻域采样的数量（在Cluster-GCN 的实验中，VR-GCN 对每个节点仅采样 2embedding $O(ndL)$ 的内存需求。如果图的节点规模达到数百万，则 VR-GCN 的内存需求可能太高导致无法放入到 GPU 中。
  整体而言，VR-GCN 内存需求差、epoch 训练速度快、epoch 收敛速度快。
论文 《Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks》 提出了一种新的 GCN 训练算法，该算法利用图聚类结构 graph clustering structure 来加速GCN 的训练。
作者发现：mini-batch 算法的效率可以通过 embedding 利用率 embedding utilization 的概念来刻画。 embedding 利用率和单个 batch 内的边的数量成正比。这一发现促使作者利用图聚类算法来设计 batch，目标是构造分区partition 使得同一个分区内的边的数量比跨区之间的边的数量更多。
基于图聚类 graph clustering 的思想，作者提出了 Cluster-GCN：一种基于图聚类算法（如 METIS）来设计 batch 的算法。进一步地，作者提出一个随机多聚类框架 stochastic multi-clustering framework 来改善 Cluster-GCN 的收敛性。
核心思想是：尽可能地将内存和计算控制在 batch 内。这要求仔细安排 batch 内节点。
但是，这么做破坏了 mini-batchmini-batch $b$ $b$ 为 batch-size），而 Cluster-GCN 中的采样方法不再随机。这使得 mini-batch 梯度不再是 full-batch 梯度的无偏估计。
作者的解决办法是：随机将多个簇合并为一个大簇，然后将这个大簇作为 mini-batch ，使得 batch 内的节点分布尽可能和 full-batch 一致。
Cluster-GCN 带来了巨大的内存优势和计算优势：
- 在内存需求方面，Cluster-GCN 仅需要将当前 batchembedding $O(bdL)$ $b$ 为 batch-size 。这比 VR-GCN、full-batch 梯度下降、以及其它 mini-batch 随机梯度下降等方法要小得多。
- 在计算复杂度方面，Cluster-GCN 在每个 epoch 都具有相同的时间代价，并且比邻域搜索方法快得多。
- 在收敛速度方面，Cluster-GCN 相比其它 SGD-based 方法具有可比的竞争力。
- 最后，Cluster-GCN 算法易于实现，因为它只需要计算矩阵乘法，而无需任何邻域采样策略。
整体而言，Cluster-GCN 内存需求好、epoch 训练速度快、epoch 收敛速度快。
通过对几个大型图数据集进行全面实验，证明了 Cluster-GCN 的效果：
- Cluster-GCN 在大型图数据集（尤其是深层 GCN）上实现了最佳的内存使用效率。例如在 Amazon2M 数据集上的 3 层 GCN 模型中，Cluster-GCN 使用的内存比 VR-GCN 少 5 倍。
- 对于浅层网络（例如 2 层），Cluster-GCN 达到了和 VR-GCN 相似的训练速度；但是当网络更深（如 4 层）时，Cluster-GCN 可以比 VR-GCNCluster-GCN $L$ VR-GCN $L$ 的指数级。
- Cluster-GCN 能够训练具有很大 embedding size 并且非常深的网络。
  尽管之前的一些工作表明：深层 GCN 无法提供更好的性能，但是作者发现通过适当的优化，深层 GCN 可以帮助提高模型准确性。例如使用 5 层 GCN，Cluster-GCN 在 PPI 数据集上的accuracy 为 99.36，而之前的最佳效果为 98.71 。

18.1 模型

$G=(\mathcal V,\mathcal E,\mathbf A)$ ，其中：
- $\mathcal V=\{v_1,\cdots,v_n\}$ $n$ 为节点数量。
- $\mathcal E=\{e_{i,j}\}_{i,j}$ $e_{i,j}$ $v_i$ $v_j$ 之间的边。
- $\mathbf A\in \mathbb R^{n\times n}$ $v_i,v_j$ $A_{i,j} = 1$ $A_{i,j} = 0$ 。
- $v$ $d_f$ $\mathbf{\vec x}_v\in \mathbb R^{d_f}$ $\mathbf X\in \mathbb R^{n\times d_f}$ $v$ $v$ $\mathbf{\vec x}_v$ 。
- $v$ label $y_v$ label $\mathcal V_Y$ ，即观测节点集合。
$L$ GCN $l+1$ 层卷积层为：
$\begin{matrix} Z^{(l + 1)} = P H^{(l)} W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) \end{matrix}$
其中：
- $\mathbf H^{(l)}\in \mathbb R^{n\times d_l}$ $l$ representation $d_l$ $l$ representation $\mathbf H^{(l)}$ $v$ $\mathbf{\vec h}_v^{(l)}$ $v$ $l$ 层的 representation 向量。
  $d_f = d_1=\cdots=d_L = d$ 。
- $\mathbf H^{(0)} = \mathbf X$ $v$ $\mathbf{\vec x}_v$ $v$ 的特征向量。
- $\mathbf P\in \mathbb R^{n\times n}$ 为归一化的邻接矩阵：
  $\begin{matrix} \tilde{A} = I + A \\ \tilde{D} = diag ({\tilde{D}}_{i}), {\tilde{D}}_{i} = \sum_{j} {\tilde{A}}_{i, j} \\ P = {\tilde{D}}^{- 1 / 2} \tilde{A} {\tilde{D}}^{- 1 / 2} \end{matrix}$
  $\tilde{\mathbf A}$ 为添加了 self-loop 的邻接矩阵。
- $\mathbf W^{(l)}\in \mathbb R^{d_l\times d_{l+1}}$ $l+1$ 层模型待学习的权重矩阵，它在所有节点上共享。
- $\sigma(\cdot)$ 为非线性激活函数，通常为 ReLU 。
GCN 模型的损失函数为：
$J = \frac{1}{| V_{Y} |} \sum_{v \in V_{Y}} f (y_{v}, {\vec{z}}_{v}^{(L)})$
其中：
- $f(\cdot,\cdot)$ 为单个节点的损失函数。
- $\mathbf{\vec z}_v^{(L)}$ $\mathbf Z^{(L)}$ $v$ $v$ 的 final representation。
我们首先讨论之前方法的一些不足，从而启发我们提出 Cluster-GCN 。
- 原始GCN：原始 GCN 中，作者通过 full-batch 梯度下降来训练 GCN，其计算代价和内存需求都很高。
  - $O(ndL)$ embedding $\left\{\mathbf Z^{(l)}\right\}_{l=1}^L$ 。
  - 在收敛速度方面，由于模型每个 epoch 仅更新一次参数，因此模型需要训练很多个 epoch 才能收敛。
- GraphSAGE：GraphSAGE 通过 mini-batch SGD 来改善 GCN 的训练速度和内存需求。SGD 不需要计算完整的梯度，而是仅在每轮更新中基于一个 mini-batch 来计算梯度。
  mini-batch $\mathcal B\sub \mathcal V_Y$ $b=|\mathcal B|$ ，则每轮 SGD 迭代中，梯度的估计量为：
  $\frac{1}{b} \sum_{v \in B} \nabla f (y_{v}, {\vec{z}}_{v}^{(L)})$
  尽管mini-batch SGD 在收敛速度方面更快，但是它在 GCN 训练过程中引入了另一种计算开销，这使得它与 full batchepoch $v$ $\nabla f\left(y_v, \mathbf{\vec z}_v^{(L)}\right)$ $v$ embedding $\mathbf{\vec z}_v^{(L)}$ $\mathbf{\vec z}_v^{(L)}$ $v$ $L-1$ representation $L-2$ 层的 representation ，... 。
  GCN $L$ degree $D$ $v$ $O\left(D^L\right)$ $v$ hop-k $k=1,2,\cdots,L$ $v$ $\mathbf W^{(l)}$ representation $O(d^2)$ $O(D^Ld^2)$ 。
  如果一个 batchtop-k $O(bD^L)$ 。
为反应 mini-batch SGD 的计算效率，我们定义 embedding 利用率 embedding utilization 的概念，从而刻画计算效率。
$v$ $l$ embedding $l+1$ embedding $u$ $\mathbf{\vec z}_v^{(l)}$ embedding $u$ 。
- mini-batch SGD $u$ $u$ 是一个很小的常数（即节点的 hop-k 邻域之间几乎没有重叠），则 mini-batch SGDbatch $O(bD^L)$ 个 embeddingmini-batch $O(bD^L d^2)$ epoch $O(nD^Ld^2)$ 。
- 相反，对于 full-batchembedding $D$ 次（平均 degree），因此具有最大的 embedding 利用率。结果 full-batch SGDepoch $O(nL)$ embedding $O(nLd^2)$ $O(L)$ 个 embeddingmini-batch SGD $O(D^L)$ 个 embedding。
如下图所示给出了传统的GCN 中指数级邻域扩展（左图）。红色节点是扩展的起始节点，不同颜色代表不同的 hop 。
为了使得 mini-batch SGD 顺利工作，已有的一些算法试图限制邻域扩展的大小，但是这无法提升 embedding 利用率。
- GraphSAGE $r$ $O\left(r^L\right)$ 个 embedding，并且也使得梯度估计的准确性降低。
- FastGCN 提出了一种重要性采样策略来改善梯度估计。
- VR-GCN $n$ $L$ 层上所有 embedding 的历史均值，从而应用于未采样邻居节点的 embedding 计算。
  $nL$ embedding $r$ $r=2$ ）也可以产生很好的收敛。

18.1.1 Cluster-GCN

Cluster-GCN 技术受到以下问题的启发：在 mini-batch SGD 更新过程中，能否设计 mini-batch 以及对应的计算子图，使得最大程度地提高 embedding 利用率？解决该问题的关键在于将 embedding 利用率和聚类相结合。
batch $\mathcal B$ 1 $L$ embedding $\mathcal B$ $\mathbf A_{\mathcal B,\mathcal B}$ $\mathcal B$ 内部的链接。可以看到 embeddingbatch $||\mathbf A_{\mathcal B,\mathcal B}||_0$ $||\cdot||_0$ 为矩阵的非零元素的个数。
因此，为了最大化 embeddingbatch $\mathcal B$ 来最大化 batch 内链接的数量，这使得我们可以将 SGD 更新的效率和图聚类算法联系起来。
Cluster-GCN $G$ $C$ $\mathcal V = [\mathcal V_1,\cdots,\mathcal V_C]$ $\mathcal V_c$ $c$ $1\le c\le C$ $C$ 个子图 subgraph：
$\bar{G} = [G_{1}, \dots, G_{C}] = [(V_{1}, E_{1}), \dots, (V_{C}, E_{C})]$
$\mathcal E_c$ $\mathcal V_c$ 中节点的链接组成。
$G$ $\mathbf A$ $C^2$ 个子矩阵：
$\begin{matrix} A = \bar{A} + Δ = [\begin{matrix} A_{1, 1} & A_{1, 2} & \dots & A_{1, C} \\ A_{2, 1} & A_{2, 2} & \dots & A_{2, C} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ A_{C, 1} & A_{C, 2} & \dots & A_{C, C} \end{matrix}] \\ \bar{A} = [\begin{matrix} A_{1, 1} & 0 & \dots & 0 \\ 0 & A_{2, 2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & A_{C, C} \end{matrix}], Δ = [\begin{matrix} 0 & A_{1, 2} & \dots & A_{1, C} \\ A_{2, 1} & 0 & \dots & A_{2, C} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ A_{C, 1} & A_{C, 2} & \dots & 0 \end{matrix}] \end{matrix}$
其中：
- $\mathbf A_{c,c}\in \mathbb R^{|\mathcal V_c|\times |\mathcal V_c|}$ $G_c$ 中的邻接矩阵。
- $\bar{\mathbf A}$ $\bar G$ $\bar G$ $G$ 经过分组之后移除组间的链接得到的新的图。
- $\mathbf A_{s,t}$ $\mathcal V_s$ $\mathcal V_t$ 之间的链接。
- $\Delta$ $\mathbf A$ 的所有非对角线的块组成的矩阵。
$[\mathcal V_1,\cdots,\mathcal V_C]$ $[\mathbf X_1,\cdots,\mathbf X_C]$ label $[\mathbf Y_1,\cdots,\mathbf Y_C]$ $\mathbf X_c$ $\mathbf Y_c$ $\mathcal V_c$ 中节点的特征向量和 label 组成。
$\bar{\mathbf A}$ $\mathbf A$ ，即不考虑分组之间的链接。这种近似的好处是：目标函数可以划分为不同的cluster（每个 cluster 对应一个 batch）。
$\bar{\mathbf P}$ $\bar{\mathbf A}$ $\bar{\mathbf P}$ 的块对角形式，最终的 embedding 矩阵变为：
$\begin{matrix} Z^{(L)} = \bar{P} σ (\bar{P} σ (\dots \bar{P} σ (\bar{P} X W^{(0)}) W^{(1)} \dots)) W^{(L - 1)} \\ = [\begin{matrix} {\bar{P}}_{1, 1} σ ({\bar{P}}_{1, 1} σ (\dots {\bar{P}}_{1, 1} σ ({\bar{P}}_{1, 1} X_{1} W^{(0)}) W^{(1)} \dots)) W^{(L - 1)} \\ ⋮ \\ {\bar{P}}_{C, C} σ ({\bar{P}}_{C, C} σ (\dots {\bar{P}}_{C, C} σ ({\bar{P}}_{C, C} X_{C} W^{(0)}) W^{(1)} \dots)) W^{(L - 1)} \end{matrix}] \end{matrix}$
$\bar{\mathbf P}_{c,c}$ $\bar{\mathbf P}$ $c$ 个对角块。
因此损失函数可以分解为：
$\begin{matrix} L_{\bar{P}} = \sum_{c} \frac{| V_{c} |}{n} L_{{\bar{P}}_{c, c}} \\ L_{{\bar{P}}_{c, c}} = \frac{1}{| V_{c} |} \sum_{v \in V_{c}} f (y_{v}, {\vec{z}}_{v}^{(L)}) \end{matrix}$
$\mathcal V_c$ $\mathcal L_{\bar{\mathbf P}_{c,c}}$ 的梯度来进行 SGDbatch $\mathbf A_{c,c}$ $\mathbf X_c$ label $\mathbf Y_c$ $\left\{\mathbf W^{(l)}\right\}_{0=1}^L$ 。
可以看到，Cluster-GCN 仅需要进行矩阵乘法和前向/反向传播，而之前的 SGD-based 方法中需要对邻域进行搜索，因此我们的方法更容易实现。
Cluster-GCN 使用图聚类算法对图进行分组。图聚类算法（如 Metis 和 Graclus）旨在对图的节点进行划分，使得簇内的链接比簇间的链接更多，从而更好地捕获图的聚类和社区结构。这正是我们需要的结果，因为：
- 如前所述， embedding 利用率等于每个 batch 的batch 内链接数量。
- $\bar{\mathbf A}$ $\mathbf A$ $\Delta$ 。所以我们需要找到一个划分，从而最大程度地减少簇间链接的数量。
$G$ $\bar G$ （右图）上的邻域扩展。红色节点是扩展的起始节点，不同颜色代表不同的 hop 。
可以看到：Cluster-GCN 可以避免繁重的邻域搜索，从而将精力集中在每个簇内的邻居上。
我们比较了两种不同的节点划分策略：随即划分random partition 、聚类划分 clustering partition 。
我们分别通过随即划分、METIS 聚类划分将图划分为 10 个分组，然后每个分组作为一个 batch 来执行 SGD 更新。数据集为三个 GCN 公共数据集，评估指标为测试集 F-1 score。可以看到：在相同 epoch 下，使用聚类划分可以获得更高的准确性。这表明使用图聚类很重要，并且不应该使用随机划分。
$\mathcal V_c$ $\mathbf A_{c,c}$ batch $\bar{\mathbf P}_{c,c} \mathbf H_c^{(l)} \mathbf W^{(l)}$ batch $O(||\mathbf A_{c,c}||_0 d + b d^2)$ $||\mathbf A_{c,c}||_0$ $\mathcal V_c$ epoch $O(||\mathbf A||_0 d + nd^2)$ $||\mathbf A||_0$ $G$ 的边的数量。
batch $O(bL)$ embedding $L$ batch $O(bLd)$ ，它具有比所有之前算法更高的内存效率。
另外，我们的算法仅需要将子图加载到 GPU 内存中，无需加载整个图（虽然整个图的存储通常不是瓶颈）。
我们在下表中总结了时间复杂度和空间复杂度。显然，所有 SGD-basedVR-GCN $r$ 很小，它也可以导致巨大的空间复杂度，即，可能超出 GPU 的内存容量。
接下来我们介绍我们的 Cluster-GCN 算法，它兼顾了 full-batch 梯度下降下每个 epoch 的时间复杂度、以及在普通 SGD 梯度下降下的空间复杂度。
$L$ $m=||\mathbf A||_0$ $d$ 为 embeddingembedding $d$ $n$ $D$ node degree $b$ mibi-batch size $r$ 为邻域采样大小。
$\begin{array}{cc} TimeComplexity & MemoryComplexity \\ GCN & O (L m d + L n d^{2}) & O (L n d + L d^{2}) \\ Vanilla SGD & O (D^{L} n d^{2}) & O (b D^{L} d + L d^{2}) \\ GraphSAGE & O (r^{L} n d^{2}) & O (b r^{L} d + L d^{2}) \\ FastGCN & O (r L n d^{2}) & O (b r L d + L d^{2}) \\ VR-GCN & O (L m d + L n d^{2} + r^{L} n d^{2}) & O (L n d + L d^{2}) \\ Cluster-GCN & O (L m d + L n d^{2}) & O (b L d + L d^{2}) \end{array}$
注意：
- VR-GCN $r$ 可以远小于 GraphSAGE 和 FastGCN。
- $Ld^2$ $\left\{\mathbf W^{(l)}\right\}_{l=1}^L$ ，其它项是用于存储 embedding 。
- 为简单起见，我们忽略了存储Graph 以及子图的需求，因为它们通常都是固定的，且通常不是主要瓶颈。
- Cluster-GCN 具有最好的计算复杂度和最好的空间复杂度。
  从实验部分得知，Cluster-GCN 的最大优势是内存需求更小从而可以扩展到更大的图。训练速度和训练准确率方面，Cluster-GCN 和 VR-GCN 各有优势（在不同的层数方面）。

18.1.2 随机多重聚类 SMC

尽管前述的 Cluster-GCN 实现了良好的计算复杂度和空间复杂度，但是仍然有两个潜在的问题：
- $\Delta$ 的部分），因此模型的性能可能受到影响。
- 图聚类算法倾向于将相似的节点聚合在一起，因此每个batch 的节点分布和原始数据集不一致，从而导致在 SGD 更新时，batch 的梯度是完整梯度的一个有偏的估计。
我们以 Reddit 数据集为例，考察随机划分来选择 mini-batch 、通过 Metis 聚类算法选择 mini-batch 的数据分布的差异，划分数量为 300 个分区。数据分布以batch 内节点标签分布的熵来衡量。我们给出不同batch 的标签熵 label entropy 的分布直方图如下所示，可以看到：
- 大多数聚类batch 具有较低的标签熵，这表明聚类的 batch 倾向于某些特定的 label，从而与整体的数据分布不一致。这可能会影响 SGD 算法的收敛性。
- 随机batch 具有较高的标签熵，这表明随机 batch 的数据分布和整体数据分布更为一致。
为解决这些问题，我们提出了一个随机多重聚类框架 stochastic multiple clustering: SMC ，该框架通过随机合并多个簇，从而减少 batch 之间的数据分布差异。
$C$ $\mathcal V = [\mathcal V_1,\cdots,\mathcal V_C]$ $C$ batch $\mathcal B$ $q$ $c_1,\cdots,c_q$ batch $\mathcal B =\{\mathcal V_{c_1},\cdots, \mathcal V_{c_q}\}$ $\{\mathbf A_{i,j}\mid i,j\in c_1,\cdots,c_q\}$ 。
通过这种方式，所有簇间链接将被重新合并到模型中，并且簇的随机组合可以使得 batch 之间的数据分布的差异更小。
这种随机多重聚类框架如下图所示，每个 batch 包含 2 个簇，相同的 batch 的簇具有相同的颜色。不同的epoch 中选择不同的簇组合。
这种方法只能缓解问题，但是无法解决问题。因为即使是随机组合多个簇，新的 batch 内节点分布与整体分布仍然是有差异的。
我们在 Reddit 数据集上进行实验，对比了 SMC 和普通 Cluster-GCN 的效果。在 Cluster-GCN 中我们选择划分为 300 个分区，在 SMC 中我们选择划分为 1500 个分区并随机选择 5 个簇来构成一个 batch。
实验结果如下图所示，其中 x 轴为 epoch， y 轴为 F1-score 。可以看到随机多重聚类可以显著改善 Cluster-GCN 的收敛性。
Cluster-GCN 算法：
- 输入：
  - $G(\mathcal V,\mathcal E, \mathbf A)$
  - $\mathbf X$
  - $\mathbf Y$ （每行代表一个节点标签的 one-hot 或者 multi-hot 向量）
  - 最大迭代步 max-iter
  - $C$
  - batch $q$
- $\left\{\mathbf W^{(l)}\right\}_{l=1}^L$ embedding $\mathbf H^{(L)}$
- 算法步骤：
  - METIS $\mathcal V$ $C$ $\mathcal V_1,\cdots,\mathcal V_C$ 。
  - $\text{iter} = 1,2,\cdots,\text{max-iter}$ ，迭代过程：
    - $q$ $\{\mathcal V_{c_1},\cdots,\mathcal V_{c_q}\}$ 。
    - $\bar{\mathcal V} = \mathcal V_{c_1}\cup\cdots\cup\mathcal V_{c_q}$ $\bar G$ $\mathbf A_{\bar{\mathcal V}, \bar{\mathcal V}}$ 。
    - $\mathbf{\vec g} = \nabla \mathcal L_{\mathbf A_{\bar{\mathcal V}, \bar{\mathcal V}}}$ 。
    - Adam $\mathbf{\vec g}$ 来更新参数。
  - $\left\{\mathbf W^{(l)}\right\}_{l=1}^L$ embedding $\mathbf H^{(L)}$ 。
METIS 是 Karypis Lab 开发的一个功能强大的图切分软件包，支持多种切分方式。优势：
- METIS 具有高质量的划分结果，据称比常规的谱聚类要准确 10% ~ 50% 。
- METIS 执行效率非常高，比常见的划分算法块 1~2 个数量级。百万规模节点的图通常几秒钟之内就可以切分为 256 个簇。
- METIS 具有很低的空间复杂度和时间复杂度，从而降低了存储负载和计算量。

18.1.3 深层 GCN

GCN 原始论文表明：对 GCN 使用更深的层没有任何效果。但是，实验中的这些数据集太小，可能没有说服力。例如，实验中只有数百个节点的图，太深的GCN 可能会导致严重过拟合。
另外，我们观察到更深的 GCNGCN $l+1$ 层的卷积层为：
$\begin{matrix} Z^{(l + 1)} = P H^{(l)} W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) + H^{(l)} \end{matrix}$
这里我们提出另一种简单的技术来改善深层 GCN 的训练。在原始 GCN 中，每个节点都聚合了来自前一层邻域的representation。但是在深层 GCN 的背景下，该策略可能不太合适，因为它没有考虑深度。
$\mathbf A$ 的对角线部分，这样我们每个 GCN 层的聚合把更大的权重放到前一层的 representation 上。即：
$\begin{matrix} Z^{(l + 1)} = (P + I) H^{(l)} W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) \end{matrix}$
这种方式看起来似乎合理，但是这对所有节点都使用相同的权重，无论其邻居数量是多少，这现得有些不合适。此外，当使用更深的层时，某些数值可能出现指数型增长，可能会导致数值不稳定。因此我们提出修改版，从而更好地维护邻域信息和数值范围。
$\mathbf A$ 中并进行归一化：
$\tilde{P} = (D + I)^{- 1 / 2} (A + I) (D + I)^{- 1 / 2}$
$\tilde{\mathbf P}$ 就是带自环的归一化矩阵。
然后对消息进行传播：
$\begin{matrix} Z^{(l + 1)} = (\tilde{P} + λ diag (\tilde{P})) H^{(l)} W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) \end{matrix}$
$\lambda$ $\text{diag}(\tilde{\mathbf P})$ $\tilde{\mathbf P}$ 对角线组成的对角矩阵。
实验表明这种对角线增强 diagonal enhancement 技术可以帮助构建更深的 GCN 并达到 state-of-the-art 性能。
这就是人工构造的 attention：对 self 施加相对更大的重要性（这意味着对邻居施加更小的重要性）。可以通过 GAT 来自适应地学习 self 和邻居的重要性。
根据论文的实验，当层数很深时，模型效果退化并且训练时间大幅上涨，因此没有任何意义。所以这一小节的内容没有价值。

18.2 实验

我们在两种任务上评估了 Cluster-GCN 的效果：在四个公共数据集上的 multi-label 分类任务和 multi-class 分类任务。这些数据集的统计信息如下表所示。
注意：
- Reddit 数据集是迄今为止我们所看到的最大的 GCN 公共数据集。
- 而 Amazon2M 数据集是我们自己收集的，比 Reddit 数据集更大。
这些数据集的 training/validation/test 拆分如下表所示：
baseline 方法：我们比较了以下 state-of-the-art 的 GCN 训练算法以及 Cluster-GCN 方法：
- VRGCN：保留图中所有节点的历史embedding 均值，并仅采样少数几个邻居来加快训练速度。我们采用原始论文中的建议，将采用邻居数量设为 2 。
- GraphSAGEGCN $D^{(1)} = 25, D^{(2)} = 10$ 。
由于原始 GCN 很难扩展到大图，因此我们不比较原始 GCN 。根据 VRGCN 论文所述，VRGCN 比 FastGCN 更快，因此我们也不比较 FastGCN。
实验配置：我们使用 PyTorch 实现了 Cluster-GCN。对于其它baseline，我们使用原始论文提供的代码。
- 所有方法都采用 Adam 优化器，学习率为 0.01，dropout 比例为20%，权重衰减weight decay 为零。
- 所有方法都采用均值聚合，并且隐层维度都相同。
- 所有方法都使用相同的 GCN 结构。
- 在比较过程种我们暂时不考虑 diagonal enhancement 之类的技术。
- 对于 VRGCN 和 GraphSAGE ，我们遵循原始论文种提供的配置，并将 batch-size 设为 512 。
- 对于 Cluster-GCN，下表给出了每个数据集的分区数量，以及每个 batch 的簇的数量。
- 所有实验均在 20 核的 Intel Xeon CPU(2.20 GHz) + 192 GB 内存 + NVIDIA Tesla V100 GPU(16GB RAM) 上执行。
注意：在 Cluster-GCN 种，聚类算法被视为预处理步骤，并且未被计入训练时间。聚类只需要执行一次，并且聚类时间很短。
此外，我们遵从FastGCN 和 VR-GCNGCN $\mathbf A\mathbf X$ 的预计算 pre-compute，这使得我们节省了第一层昂贵的邻域搜索过程。
为了用于 inductive setting，其中测试节点在训练期间不可见，我们构建了两个邻接矩阵：一个邻接矩阵仅包含训练节点，另一个邻接矩阵包含所有节点。图划分仅作用在第一个邻接矩阵上。
为了计算内存用量，对于 TensorFlow 我们使用 tf.contrib.memory_stats.BytesInUse()，对于 PyTorch 我们使用 torch.cuda.memory_allocated() 。

18.2.1 中等规模数据集

我们首先在训练速度和训练准确性方面评估 Cluster-GCN。我们给出两层GCN、三层GCN、四层 GCN 在三个中等规模数据集PPI、Reddit、Amazon 上的训练时间和预测准确性，如下图所示。其中 x 轴为训练时间（单位秒），y 轴为验证集准确性（单位 F1-Score）。
由于 GraphSAGE 比 VRGCN、Cluster-GCN 更慢，因此 GraphSAGE 的曲线仅出现在 PPI、Reddit 数据集上。
Amazon $\mathbf I$ $\mathbf X$ $\mathbf W^{(0)}$ 334863 x 128 $\mathbf A \mathbf W^{(0)}$ ）。
结论：
- 在 PPI 和 Reddit 数据集中，Cluster-GCN 的训练速度最快，同时预测准确性也最好。
- 在 Amazon 数据集中，Cluster-GCN 训练速度比 VRGCN 更慢，预测准确性除了三层GCN 最高以外都差于 VRGCN 。
Cluster-GCN 比 VRGCN 更慢的原因可能是：不同框架的稀疏矩阵的运算速度不同。VRGCN 在Tensorflow 中实现，而 Cluster-GCN 在 PyTorch 中实现。PyTorch 中的稀疏张量支持目前处于早期阶段。
下表中我们显示了 Tensorflow 和 PyTorch 对于 Amazon 数据集执行前向、反向操作的时间，并使用一个简单的、两层线性网络对这两个框架进行基准测试，括号中的数字表示隐层的维度。我们可以清楚地看到Tensorflow 比 PyTorch 更快。当隐层维度更高时，差异会更大。这解释了为什么 Cluster-GCN 在Amazon 数据集中训练时间比 VRGCN 更长。
对于GCN 而言，除了训练速度以外，内存需求通常更重要，因为这将直接限制了算法的可扩展性。
- 内存需求包括训练多个 epoch 所需的内存。为加快训练速度，VRGCN 需要在训练过程中保持历史 embedding，因此和 Cluster-GCN 相比 VRGCN 需要更多的内存。
- 由于指数级邻域扩展的问题，GraphSAGE 也比 Cluster-GCN 需要更多的内存。
下表中，我们给出了不同方法在不同数据集上训练两层GCN、三层GCN、四层 GCN 所需要的内存。括号中的数字表示隐层的维度。可以看到：
- Cluster-GCN $\mathbf W^{(L)}$ ，相比较于子图以及节点特征，它需要的内存较少。
- 尽管 VRGCN 只需要保持每一层的历史 embedding 均值，但是这些 embedding 通常都是稠密向量。因此随着层的加深，它们很快统治了内存需求。
- Cluster-GCN 比 VRGCN 有更高的内存利用率。如在 Reddit 数据集上训练隐层维度为 512 的四层 GCN 时，VRGCN 需要 2064MB 内存，而 Cluster-GCN 仅需要 308MB 内存。

18.2.2 大规模数据集

迄今为止评估GCN 的最大的公共数据集是 Reddit 数据集，其统计数据如前所述。Reddit 数据集大约包含 200K 个节点，可以在几百秒之内训练 GCN 。
为测试 GCN 训练算法的可扩展性，我们基于 Amazon co-purchasing 网络构建了一个更大的图，图中包含 200 万节点、6100 万边。原始的 co-purchase 数据来自于 Amazon-3M 。
图中每个节点都是一个商品，图中的连接表示是否同时购买了两个商品。每个节点特征都是从商品描述文本中抽取的 bag-of-word ，然后通过 PCA 降维到 100 维。此外，我们使用 top-level 的类别作为节点的label 。下表给出了数据集中频次最高的类别：
我们在这个大型数据集上比较了 Cluster-GCN 和 VRGCN 的训练时间、内存使用、测试准确性（F1-Score 来衡量）。
可以看到：
- 训练速度：对于两层GCN ，VRGCN 训练速度更快；但是对于更深的GCN，Cluster-GCN 训练速度更快。
- 内存使用：VRGCN 比 Cluster-GCN 需要多得多的内存，对于三层GCN 时VRGCN 所需内存是 Cluster-GCN 的五倍。当训练四层GCN 时 VRGCN 因为内存耗尽而无法训练。
- 测试准确性：Cluster-GCN 在四层GCN 时可以达到该数据集上的最佳准确性。

18.2.3 深层 GCN

这里我们考虑更深层的 GCN。我们首先给出 Cluster-GCN 和 VRGCN 在 PPI 数据集上不同深度的训练时间的比较，其中每种方法都训练 200 个 epoch 。
可以看到：VRGCN 的训练时间因为其代价较高的邻域发现而呈现指数型增长，而 Cluster-GCN 的训练时间仅线性增长。
然后我们研究更深的GCN 是否可以得到更好的准确性（衡量指标为验证集的 F1-score ）。我们在 PPI 数据集上进行实验并训练 200 个 epoch ，并选择dropout rate = 0.1 。其中：
- Cluster-GCN with (1) 表示：原始的 Cluster-GCN。
- Cluser-GCN with (10) 表示：考虑如下的 Cluster-GCN：
  $\begin{matrix} \tilde{P} = (D + I)^{- 1 / 2} (A + I) (D + I)^{- 1 / 2} \\ Z^{(l + 1)} = \tilde{P} H^{(l)} W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) \end{matrix}$
- Cluster-GCN with (10) + (9) 表示：考虑如下的 Cluster-GCN：
  $\begin{matrix} \tilde{P} = (D + I)^{- 1 / 2} (A + I) (D + I)^{- 1 / 2} \\ Z^{(l + 1)} = (\tilde{P} + I) H^{(l)} W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) \end{matrix}$
- Cluster-GCN with (10) + (11) 表示：考虑如下的 Cluster-GCN：
  $\begin{matrix} \tilde{P} = (D + I)^{- 1 / 2} (A + I) (D + I)^{- 1 / 2} \\ Z^{(l + 1)} = (\tilde{P} + λ diag (\tilde{P})) H^{(l)} W^{(l)} \\ H^{(l + 1)} = σ (Z^{(l + 1)}) \end{matrix}$
  $\text{diag}(\tilde{\mathbf P})$ $\tilde{\mathbf P}$ 对角线组成的对角矩阵。
可以看到：
- 对于2 层到 5 层，所有方法的准确性都随着层深度的增加而提升，这表明更深的 GCN 可能是有效的。
- 当使用 7 层或 8 层时，前三种方法无法在 200 个 epoch 内收敛，并会大大降低准确性。可能的原因是针对更深GCN 的优化变得更加困难。其中红色的数字表示收敛性很差。
  即使是第四种方法，它在层数很深时虽然收敛，但是模型效果下降、训练时间暴涨（根据前面的实验），因此没有任何意义。
  此外，原始 Cluster-GCN 在五层时达到最好的效果，所以对角增强技术失去了价值。
GCN $\mathbf Z^{(l+1)} = \left(\tilde{\mathbf P} + \lambda \text{diag}\left(\tilde{\mathbf P}\right)\right)\mathbf H^{(l)} \mathbf W^{(l)}$ ）之后，八层的GCN 在不同 epoch 上的验证准确性（F1-Score）。
可以看到：我们提出的对角增强技术可以显著改善模型的收敛性，并得到较好的准确性。
采用了对角增强技术的 Cluster-GCN 能够训练更深的 GCN 从而达到更好的准确性（F1-Score）。我们在下表中给出不同模型在不同数据集上的测试F1-Score。
可以看到：
- 在 PPI 数据集上，Cluter-GCN 通过训练一个具有 2048 维的隐层的 5 层 GCN 来取得 state-of-the-art 效果。
- 在 Reddit 数据集上，Cluster-GCN 通过训练一个具有 128 维隐层的4 层 GCN 取得 state-of-the-art 效果。
这个优势并不是对角增强技术带来的，而是因为 Cluster-GCN 的内存需求更少从而允许训练更深的模型，而更深的模型通常效果更好。
前面的实验都未考虑 ClusterGCN 的预处理时间（如，数据集加载，graph clustering 等等）。这里我们给出 Cluster-GCN 在四个数据集上的预处理时间的细节。对于 graph clustering，我们使用 Metis 。结果如下表所示。可以看到：
- graph clustering 算法仅占用预处理时间的很小比例。
- graph clustering 可以扩展到大型的数据集。
此外，graph clustering 仅需要执行一次，并且之后被后续的训练过程重复使用。

十九、LDS-GNN[2019]

关系学习relational learning 同时利用了样本自身的属性以及样本之间的关系。例如：患者诊断不仅需要考虑患者本身的信息，还需要考虑患者亲属的信息。因此，关系学习不会假设数据点之间的独立性，而是显式建模它们之间的依赖关系。图是表示关系信息relational information的自然的方式，并且已经有很多利用图结构的方法，如图神经网络GNN 。
虽然图结构在某些领域可用（如社交网络），但是在另一些领域中我们必须构造图结构。
- 一种常用的人工构造图结构的方法是：基于样本之间的某种相似性来构建 kNNLLE,IsoMap $k$ 值的选择，也取决于相似性度量的选择。
  另外在这种方法中，图的构建和 GNN 参数的学习是相互独立的，图的构建需要启发式方法并反复实验。
- 另一种方法是简单地使用核矩阵 kernel matrix 来隐式建模样本之间的相似性，但是得到了稠密的相似性矩阵（对应于全连接图）维代价。
论文 《Learning Discrete Structures for Graph Neural Networks》 提出了不同的方法同时学习了图的构建和 GNN 参数，即 LDS-GNN 。简单而言，论文提出了学习图生成概率模型，其中节点来自于训练集和测试集，边被建模为随机变量，其参数视为 bilevel 学习框架中的超参数。论文在最小化内层目标函数（GCN 训练误差）的同时对图结构进行迭代式采样，并通过最小化外层目标函数（GCN 验证误差）来优化边的分布参数。
两层优化：内层在训练集上优化训练损失，外层在验证集上优化验证损失。该方法仅用于小型图，计算量很大并且不能保证收敛性。
据作者所知，这是针对半监督分类问题中，同时学习图结构和 GNN 参数的第一种方法。此外，论文使用基于梯度的超参数优化来处理不连续的超参数（边是否存在）。通过一系列实验，结果证明了论文的方法比现有方法的优势，同时验证了图生成模型具有有意义的边概率（即：边是否存在的概率）。
相关工作：
- 半监督学习 Semi-supervised Learning：基于图的半监督学习的早期工作使用图拉普拉斯正则化graph Laplacian regularization ，包括标签传播 label propagation: LP、流形正则化 manifold regularization: ManiReg、半监督嵌入 semi-supervised embedding: SemiEmb。这些方法假设给定一个图，其中边代表节点之间的某种相似性。
  - 后来，《Revisiting semi-supervised learning with graph embeddings》 提出了一种方法，该方法不使用图进行正则化，而是通过联合classification 和 graph context prediction 这两个任务来学习 embedding 。
  - 《Semi-supervised classification with graph convolutional networks》 提出了第一个用于半监督学习的 GCN。
  现在有许多 GCN 变体，所有这些变体都假设给定了图结构。与所有现有的 graph-based 半监督学习相反，LDS 即使在图不完整或图缺失的情况下也能工作。
- 图合成和生成 graph synthesis and generation：LDS 学习图的概率生成模型。
  - 最早的图概率生成模型是 《On the evolution of random graphs》 提出的随机图模型，其中边概率被建模为独立同分布的伯努利随机变量。
  - 人们已经提出了几种网络模型来建模特定的图属性，如 degree 分布（《Graphs overtime: densification laws, shrinking diameters and possible explanations》）、网络直径（《Collective dynamics of small-world networks》）。
  - 《Kronecker graphs: An approach to modeling networks》 提出了一种基于 Kronecker 乘积的生成模型，该模型将真实图作为输入并生成具有相似属性的图。
  - 最近，人们已经提出了基于深度学习的图生成方法。
  然而，这些方法的目标是学习一个复杂的生成模型 generative model，该模型反映了训练图的属性。另一方面，LDS 学习图生成模型，并将其作为分类问题的一种良好的手段，并且LDS 的输入不是图的集合。
  最近的工作提出了一种无监督模型，该模型学习推断实体之间的交互，同时学习物理系统（如弹簧系统）的动力学（《Neural relational inference for interacting systems》)。与 LDS 不同，该方法特定于动态交互系统，是无监督的，并且使用变分自编码器。
  最后，我们注意到 《Learning graphical state transitions》 提出了一个完全可微的神经模型，能够在 input/representation/output level 处理和生成图结构。然而，训练模型需要根据 ground truth graph 进行监督。
- 链接预测：链接预测是一个几十年前的问题。有几篇综述论文涵盖了从社交网络到知识图谱中的链接预测的大量工作。虽然大多数方法都是基于 node pair 之间的某种相似性度量，但是也有许多基于神经网络的方法（《Link prediction based on graph neural networks》）。
  我们在本文中研究的问题与链接预测有关，因为我们也想学习learn或扩张extend一个图。然而，现有的链接预测方法不会同时学习一个 GNN node classifier。统计关系学习 statistical relational learning: SRL 模型通常通过二元或一元谓词的存在来执行链接预测和节点分类。然而，SRL 模型本质上是难以处理的，并且网络结构和模型参数学习步骤是独立的。
- 离散随机变量的梯度估计：由于两个 bilevel objective的难以处理的特性，LDS 需要通过随机计算图 stochastic computational graph 来估计超梯度hypergradientREINFORCE $F$ 相对于采样的邻接矩阵和内部优化动态 inner optimization dynamics 是可微的。相反，路径估计器 path-wise estimator 并不容易使用，因为随机变量是离散的。
  LDS 借鉴了之前提出的解决方案（《Estimating or propagating gradients through stochastic neurons for conditional computation》），但是代价是估计有偏。

19.1 模型

19.1.1 背景知识

$G=(V,E, \mathbf A)$ ，其中：
- $V=\{v_1,\cdots,v_n\}$ $E\sube V\times V$ 为边集合。
- $\mathbf A \in \mathbb R^{n\times n}$ 为：
  $\begin{matrix} A_{i, j} = {\begin{cases} 1, & (v_{i}, v_{j}) \in E \\ 0, & (v_{i}, v_{j}) \notin E \end{cases} \end{matrix}$
- $\mathbf L = \mathbf D - \mathbf A$ $\mathbf D=\text{diag}(D_{i})\in \mathbb R^{n\times n}$ $D_{i } =\sum_{j} A_{i,j}$ 。
- $v_i$ $\mathbf{\vec x}_i\in \mathbb R^{d_f}$ $d_f$ 为特征向量的维度。
  $\mathbf X\in \mathbb R^{n\times d_f}$ $i$ $\mathbf{\vec x}_i$ 。
- $v_i$ label $y_i$ one-hot $\mathbf{\vec y}_i\in \mathbb R^K$ $K$ 为类别数量。
  所有节点的labellabel $\mathbf Y\in \mathbb R^{n\times K}$ $i$ $\mathbf{\vec y}_i$ 。
$\mathcal A_n\sube \mathbb R^{n\times n}$ $\mathcal X_n\sube \mathbb R^{n\times d_f}$ label $\mathcal Y_n\sube \mathbb R^{n\times K}$ 。
则图神经网络的目标是学习函数：
$f_{\vec{w}} : X_{n} \times A_{n} \to Y_{n}$
$\mathbf{\vec w}\in \mathbb R^{d_w}$ 为网络的参数，它将所有参数展平为一维向量。
为学习目标函数，我们在训练集上最小化经验损失:
$L (\vec{w}, A) = \sum_{v \in V_{train}} l (f_{\vec{w}} (X, A)_{v}, y_{v}) + Ω (\vec{w})$
其中：
- $f_{ \mathbf{\vec w}}(\mathbf X, \mathbf A)_v$ $f_{ \mathbf{\vec w}}$ $v$ 的输出。
- $l(\cdot,\cdot)$ 为point-wise 损失函数。
- $\Omega(\cdot)$ 为正则化函数。
GCN $f_ \mathbf{\vec w}$ 为：
$f_{\vec{w}} (X, A) = softmax (\hat{A} relu (\hat{A} X W_{1}) W_{2})$
其中：
- $\hat{\mathbf A} = \tilde{\mathbf D}^{-1/2} (\mathbf A + \mathbf I) \tilde{\mathbf D}^{-1/2}$ $\tilde{\mathbf D}=\text{diag}(\tilde D_i) ,\tilde{D}_i = 1 + \sum_{j}A_{i,j}$ 为归一化的度矩阵。
- $\mathbf{\vec w}$ $(\mathbf W_1,\mathbf W_2)$ 展平为一维向量的形式。
Bilevel program 是一种优化问题，其中目标函数中出现的一组变量被约束为另一个优化问题的最优解。Bilevel program 出现在很多常见下，比如超参数调优、多任务学习、meta-learning 学习等。
outer objective $\mathcal F$ inner objective $\mathcal L$ outer variable $\vec\theta\in \mathbb R^{d_m}$ inner variable $\mathbf{\vec w}\in \mathbb R^{d_w}$ ，则一个bilevel program 定义为：
$min_{\vec{θ}, {\vec{w}}_{\vec{θ}}} F ({\vec{w}}_{\vec{θ}}, \vec{θ}) s . t . {\vec{w}}_{\vec{θ}} \in \arg min_{\vec{w}} L (\vec{w}, \vec{θ})$
inner problem $\Phi$ $\mathcal L$ 的最小值。
$\mathbf{\vec w}_{\vec \theta,T}$ $T$ 次迭代之后的结果，即：
${\vec{w}}_{\vec{θ}, T} = Φ ({\vec{w}}_{\vec{θ}, T - 1}, \vec{θ}) = Φ (Φ ({\vec{w}}_{\vec{θ}, T - 2}, \vec{θ}), \vec{θ}) = \dots$
$\vec\theta$ $\mathbf{\vec w}$ $\mathcal F,\mathcal L$ $\Phi$ $\mathcal F$ $\vec\theta$ 的梯度为：
$\nabla_{\vec{θ}} F ({\vec{w}}_{\vec{θ}, T}, \vec{θ}) = \frac{\partial F ({\vec{w}}_{\vec{θ}, T}, \vec{θ})}{\partial \vec{w}} \nabla_{\vec{θ}} {\vec{w}}_{\vec{θ}, T} + \frac{\partial F ({\vec{w}}_{\vec{θ}, T}, \vec{θ})}{\partial \vec{θ}}$
hypergradient $\nabla_\vec \theta \mathbf{\vec w}_{\vec \theta,T}$ $O(T(d_w + d_m))$ 时间内高效地计算。
这种技术允许我们同时调优多个超参数，其调优数量比经典的超参数优化技术大几个量级。
$\Phi$ ，计算量剧烈增长。

19.1.2 LDS

在现实世界中，经常会出现带噪音的图（noisy graph）、结构残缺的图（incomplete graph ）、甚至完全没有图结构（ missing graph）。为解决这些问题，我们必须在训练 GCN 网络参数的同时，还需要学习图结构。
我们将这个问题构造为一个 Bilevel program 问题，其中外层变量为图生成概率模型的参数，内层变量为 GCN 模型的参数。我们的方法同时优化了 GCN 模型参数以及图生成概率模型的参数。下图给出了我们方法的示意图：
$\mathbf A$ nosisy, incomplete, missing $V_{\text{val}}$ $\mathbf A\in \mathcal A_n$ ：
$F ({\vec{w}}_{A}, A) = \sum_{v \in V_{val}} l (f_{{\vec{w}}_{A}} (X, A)_{v}, y_{v})$
$\mathbf{\vec w}_\mathbf A$ $\mathbf A$ $\mathcal L$ $\mathbf {\vec w}$ （假设存在且唯一）。
因此：
- $\mathcal L( \mathbf{\vec w},\mathbf A) = \sum_{v\in V_{\text{train}}} \mathcal l \left(f_{ \mathbf{\vec w}}(\mathbf X, \mathbf A)_v, y_v\right) + \Omega( \mathbf{\vec w})$ 设为内层目标函数，其目标是求解给定图结构的 GCN 的最佳参数。
- $\mathcal F(\mathbf{\vec w}_\mathbf A,\mathbf A) = \sum_{v\in V_{\text{val}}} \mathcal l(f_{\mathbf{\vec w}_\mathbf A}(\mathbf X, \mathbf A)_v, y_v)$ 设为外层目标函数，其目标是求解最佳的图结构。
  $\mathcal L$ $V_\text{train}$ $\mathcal F$ $V_\text{val}$ 上评估。
即使是很小的图，bilevel 问题也难以直接求解。另外，上述模型包含连续变量（GCN 参数）和离散变量（网络结构），这使得我们无法直接求解梯度（离散型变量无法求导）。
一种可能的解决方案是对离散型变量构造连续性松弛 continuous relaxation；另一种方案是对离散型变量使用概率分布。这里我们采用第二种方案。
$\mathbf A \in \text{Ber}\left(\vec\theta\right)$ $\vec\theta$ $\theta_{i,j}\in (0,1)$ 。
$v_1$ $v_2$ $v_2$ $v_3$ $v_1$ $v_3$ 之间存在边的可能性较大。也就是边的存在不是独立的。
我们基于图结构的生成模型来重写 bilevel 问题为：
$min_{\vec{θ}, {\vec{w}}_{\vec{θ}}} E_{A \sim Ber (\vec{θ})} [F ({\vec{w}}_{\vec{θ}}, A)] s . t . {\vec{w}}_{\vec{θ}} \in \arg min_{\vec{w}} E_{A \sim Ber (\vec{θ})} [L (\vec{w}, A)]$
利用期望，现在内层目标函数和外层目标函数都是伯努利分布的参数的连续函数。
上式给出的 bilevel 问题仍然难以有效求解，这是因为内层目标函数对于 GCN 而言没有闭式解（目标函数非凸）。因此有效的算法仅能找到近似的解。
GCN $n$ $G$ $P_\vec\theta$ $\vec\theta$ 为每条边的存在的概率），则 GCN 的期望输出为：
$f_{\vec{w}}^{exp} (X) = E_{A \sim P_{\vec{θ}}} [f_{\vec{w}} (X, A)] = \sum_{A} P_{\vec{θ}} (A) f_{\vec{w}} (X, A)$
不幸的是，即使对于很小的图，计算这个期望值也非常困难。于是我们可以计算期望输出的经验估计：
${\hat{f}}_{\vec{w}} (X) = \frac{1}{S} \sum_{s = 1}^{S} f_{\vec{w}} (X, A_{s})$
$S\gt 0$ $\mathbf A_s$ $P_{\vec\theta}(\mathbf A)$ $s$ 个图的邻接矩阵。
注意：
- $\hat f_{\mathbf {\vec w}} (\mathbf X)$ $f_{\mathbf{\vec w}}^{\text{exp}}(\mathbf X)$ 的一个无偏估计。因此，为了使用 bilevelGCN $f_{\mathbf{\vec w}}$ $P_\vec\theta$ $S$ $f_{\mathbf{\vec w}}$ 的均值作为预测结果。
- $f_{\mathbf{\vec w}}$ $\mathbb E[f_{\mathbf{\vec w}}(\mathbf X,\mathbf A)]\ne f_{\mathbf{\vec w}}(\mathbf X,\mathbb E[\mathbf A]) = f_{\mathbf{\vec w}}\left(\mathbf X, \vec \theta\right)$ 。最后一个等式成立是因为对于伯努利随机变量的期望等于其概率。
$P_\vec\theta \in \text{Ber}\left(\vec\theta\right)$ $O(n^2)$ 时间内采样一个新的图。由于不同边对应的随机变量是相互独立的，因此从大量伯努利随机变量进行采样是高效的、可并行化的，并且能够以百万每秒的速度执行。
- 如果将伯努利参数直接作为 GCNGCN $O(n^2d_w)$ 。
- $S$ GCN $O(Sn_ed_w)$ $n_e=\sum_{i,j}\theta_{i,j}$ 为期望的边的数量。因此相比于前一种方式，这种计算输出的方式的效率更高。
  另外，使用图生成模型的另一个优势是：我们能够在概率上解释它。而学习稠密的邻接矩阵则无法做到。
  $O(n^2)$ 时间复杂度的图采样过程完全是不可行的。因此该方法仅适用于小型图。
现在我们考虑 bilevel 问题的近似解。
我们基于图结构的生成模型来重写 bilevel 问题为：
$min_{\vec{θ}, {\vec{w}}_{\vec{θ}}} E_{A \sim Ber (\vec{θ})} [F ({\vec{w}}_{\vec{θ}}, A)] s . t . {\vec{w}}_{\vec{θ}} \in \arg min_{\vec{w}} E_{A \sim Ber (\vec{θ})} [L (\vec{w}, A)]$
$\vec\theta$ GCN $\mathbf{\vec w}$ 为内层变量。
- $\mathbb E_{\mathbf A\sim \text{Ber}\left(\vec\theta\right)}\left[\mathcal L\left( \mathbf{\vec w},\mathbf A\right)\right]$ $2^{n^2}$ $n^2$ 个伯努利随机变量，每个变量取值为 01 $\Phi$ $\mathcal L$ 的最小值：
  ${\vec{w}}_{\vec{θ}, t + 1} = Φ ({\vec{w}}_{\vec{θ}, t}, A_{t}) = {\vec{w}}_{\vec{θ}, t} - γ_{t} \nabla L ({\vec{w}}_{\vec{θ}, t}, A_{t})$
  $\gamma_t$ $\mathbf A_t\sim \text{Ber}\left(\vec\theta\right)$ 为每轮迭代中采样到的图的邻接矩阵。
  $t\rightarrow \infty$ SGD $\mathbf{\vec w}_\vec\theta$ $P_\vec\theta$ 。
  $\mathbf A_t$ step $\mathbf A_t$ 不断在变化，这导致 GCN 所应用的图在不断变化。
- $\mathbf{\vec w}_{\vec\theta,T}$ $\mathbb E[\mathcal L]$ $T$ $\vec\theta$ $\nabla_{\vec\theta}\mathbb E_{\mathbf A\sim \text{Ber}\left(\vec\theta\right)}[\mathcal F]$ 的近似估计。
  根据：
  $\nabla_{\vec{θ}} F ({\vec{w}}_{\vec{θ}, T}, \vec{θ}) = \frac{\partial F ({\vec{w}}_{\vec{θ}, T}, \vec{θ})}{\partial \vec{w}} \nabla_{\vec{θ}} {\vec{w}}_{\vec{θ}, T} + \frac{\partial F ({\vec{w}}_{\vec{θ}, T}, \vec{θ})}{\partial \vec{θ}}$
  我们有：
  $\nabla_{\vec{θ}} E [F ({\vec{w}}_{\vec{θ}, T}, A)] = E [\nabla_{\vec{θ}} F ({\vec{w}}_{\vec{θ}, T}, A)] = E [\frac{\partial F ({\vec{w}}_{\vec{θ}, T}, A)}{\partial \vec{w}} \nabla_{\vec{θ}} {\vec{w}}_{\vec{θ}, T} + \frac{\partial F ({\vec{w}}_{\vec{θ}, T}, A)}{\partial A} \nabla_{\vec{θ}} A]$
  straight-through $\nabla_\vec\theta \mathbf A = \mathbf I$ $\mathbf A$ $\vec\theta$ ）。
$\vec\theta$ $\vec\theta$ $\theta_{i,j}$ 都在 0 到 1 之间）。
$\Phi$ $\nabla_\vec \theta \mathbf{\vec w}_{\vec \theta,T}$ 时需要考虑到：
${\vec{w}}_{\vec{θ}, T} = Φ ({\vec{w}}_{\vec{θ}, T - 1}, \vec{θ}) = Φ (Φ ({\vec{w}}_{\vec{θ}, T - 2}, \vec{θ}), \vec{θ}) = \dots$
这在时间和空间上都代价太大。
$\tau$ $\tau$ short-horizon $\mathbf {\vec w}$ 的热重启 warm restart 。
LDS 算法：
- 输入：
  - $\mathbf X$
  - $\mathbf Y$
  - $\mathbf A$
  - $\eta$
  - $\tau$
  - kNN $k$ 值
- $\mathbf {\vec w}$ $P_\vec\theta$
- 算法步骤：
  - $\mathbf A$ kNN $\mathbf A\leftarrow \text{kNN}(\mathbf X,k)$
  - $\mathbf A$ $\vec\theta$ $\theta\leftarrow \mathbf A$
  - 外层迭代，当停止条件未满足时（基于验证集）：
    - $t\leftarrow 0$
    - 内层迭代，当内层目标函数还在下降时（基于训练集）：
      - $\mathbf A_t\sim \text{Ber}\left(\vec\theta\right)$
      - $\mathbf{\vec w}_{\vec \theta,t+1} \leftarrow \Phi_t(\mathbf{\vec w}_{\vec \theta,t},\mathbf A_t)$
      - $t\leftarrow t+1$
      - $\tau =0$ $t \text{ mod } \tau = 0$ ，则：
        $\mathbf A_t\sim \text{Ber} \left(\vec\theta\right)$
        $\mathbf{\vec q} =\frac{\partial \mathcal F\left( \mathbf{\vec w}_{\vec \theta,t},\mathbf A\right)}{\partial \mathbf{\vec w}}$
        $\mathbf G \leftarrow\frac{\partial \mathcal F\left( \mathbf{\vec w}_{\vec \theta,t},\mathbf A\right)}{\partial \mathbf A}$
        $s=t-1,\cdots, t-\tau$ ：
        $\mathbf A_s\sim \text{Ber} \left(\vec\theta\right)$
        $\mathbf{\vec p} \leftarrow \mathbf D_s (\mathbf{\vec w}_{\vec \theta,s},\mathbf A_s)\mathbf{\vec p}$ $\mathbf D_s (\mathbf{\vec w}_{\vec \theta,s},\mathbf A_s)= \frac{ \partial \Phi (\mathbf{\vec w}_{\vec \theta,s},\mathbf A_s)}{\partial\mathbf{\vec w}}$ 为雅可比矩阵
        $\mathbf G\leftarrow \mathbf G + \mathbf E_s (\mathbf{\vec w}_{\vec \theta,s},\mathbf A_s)\mathbf{\vec p}$ $\mathbf E_s (\mathbf{\vec w}_{\vec \theta,s},\mathbf A_s)= \frac{ \partial \Phi (\mathbf{\vec w}_{\vec \theta,s},\mathbf A_s)}{\partial\mathbf A_s}\frac{\partial \mathbf A_s}{\partial \vec\theta} = \frac{ \partial \Phi (\mathbf{\vec w}_{\vec \theta,s},\mathbf A_s)}{\partial\mathbf A_s}$
        $\vec \theta \leftarrow \vec\theta- \eta \mathbf G$ $\vec\theta$ 投影到单位立方体
  - $\mathbf {\vec w}$ $P_\vec\theta$
LDS 算法包含外层停止条件和内层停止条件。
- 对于内层停止条件，我们发现以内层目标函数的下降作为内层停止条件非常有效。
  $\mathcal L$ $\mathcal L(\mathbf{\vec w}_{t-1,\vec\theta},\mathbf A) (1+\epsilon) \ge \mathcal L(\mathbf{\vec w}_{t,\theta},\mathbf A)$ $\epsilon \gt 0$ $\epsilon = 10^{-3}$ $\mathcal L$ patience $p$ 个迭代步。
- 对于外层停止条件，我们发现使用早停策略非常有效。
  $V_{\text{valid}}$ $\hat f_{\mathbf {\vec w}} (\mathbf X) = \frac{1}{S}\sum_{s=1}^S f_ \mathbf{\vec w}(\mathbf X, \mathbf A_s)$ 来评估验证准确性。如果外层循环连续几次迭代都没有得到改善则提前停止优化过程。这有助于避免外层目标函数过拟合。
  但是当需要优化的参数数量太多、验证集规模太小时，可能会存在验证集的过拟合。
每次外层迭代中，对超梯度的估计都存在偏差。偏差即来自于 straig-through 估计，也来自于超梯度的截断。尽管如此，我们从实验中发现该算法能够取得良好的效果，并能够在边的分布空间中找到适合于当前任务的参数。
LDS 借鉴了之前提出的启发式方案，但是代价是超梯度估计是有偏的。
$h(z)$ $z$ $\theta$ $h(z) = (az-b)^2/2$ $a,b$ $z\sim \text{Ber}(\theta),\theta\in [0,1]$ 。
- $\mathbb E[h]$ $\theta$ 的梯度可以简单计算得到：
  $\frac{\partial}{\partial θ} E_{z \sim Ber (θ)} [h (z)] = \frac{\partial}{\partial θ} [θ \frac{(a - b)^{2}}{2} + (1 - θ) \frac{b^{2}}{2}] = \frac{a^{2}}{2} - a b$
- $\mathbb E[h]$ $\theta$ 的梯度对应的 straight-through 估计量为：
  $\hat{g} (z) = \frac{\partial h (z)}{\partial z} = (a z - b) a, z \sim Ber (θ)$
  则有：
  $E_{z \sim Ber (θ)} [\hat{g} (z)] = θ (a - b) a + (1 - θ) (- a b) = θ a^{2} - a b$
  $\theta\ne 1/2$ $\hat g$ 是一个有偏的估计。
LDS 算法有两个缺陷：
- 计算复杂度太高，导致无法扩展到大图。
- 仅限于 transductive learning，无法扩展到未见过的节点。对于新的、未见过的节点，需要从头开始重新训练模型。

19.2 实验

我们针对三个目标进行了一系列实验：
- 首先，我们在节点分类问题上评估 LDS，其中图结构虽然可用但是缺失了一定比例的边。这里我们将 LDS 和包括普通 GCN 在内的基于图的学习算法进行比较。
- 其次，我们想验证我们的假设，即 LDS 可以在没有图的半监督分类问题上取得有竞争力的结果。这里我们将 LDS 和许多现有的半监督分类算法进行比较。
  此外，我们对比了一些图算法，图是通过在数据集上创建的 kNN 近邻图。
- 最后，我们分析了学到的图生成模型，从而了解LDS 如何学到有意义的边的概率分布。
数据集：
- 图数据集：Cora, Citeseer 是图的两个基准数据集，输入特征是 bag of word，任务是节点分类。我们遵循之前的工作，执行相同的数据集拆分和实验配置。
  为评估残缺图上 LDS 的鲁棒性，我们通过随机采样 25%, 50%, 75% 的边来构造残缺图。
- 非图数据集：我们使用 scikit-learn 中的基准数据集，如 Wine, Breast Cancer(Cancer), Digits, 20 NewsGroup(20News) 等数据集，这些数据集都不是图结构。我们用这些非图数据集来评估 LDS。
  对于20 NewsGroup 数据集，我们从中挑选出 10 个类别，然后使用词频超过 5% 的单词的 TF-IDF 作为特征。
- FMA 数据集：该数据集从 7994 个音乐曲目中提取了 140 个音频特征，任务是音乐风格分类。
所有这些数据集的统计信息如下：
baseline 方法：
- 对于图算法，我们对比了以下方法：普通 GCN、GCN-RND、标签传播算法label propagation: LP、流形正则化算法manifold regularization: ManiReg、半监督 embedding 算法semi-supervised embedding: SemiEmb 。其中 ManiReg, SemiEmb 将一个 kNN 图作为拉普拉斯正则化的输入。
  GCN-RND 是在普通 GCN 的每个优化step 中添加随机采样的边。通过这种方法，我们打算证明：仅将随机边添加到 GCN 中不足以提高模型的泛化能力。
- 对于非图算法，我们对比了以下方法：GC、逻辑回归logistic regression: LogReg、支持向量机 support vector machines: Linear and RBF SVM、随机森林random forests: RF 、前馈神经网络 feed-forward neural networks:FFNN 。
- 当没有图结构时，GCN 退化为前馈神经网络，此时我们通过下列的手段来构造图结构：
  - 随机创建一个稀疏的图结构，记作 Sparse-GCN 。
  - 以相等的边概率构建一个稠密图，记作 Dense-GCN。
  - 基于输入特征构建一个 RBF 核的稠密图，记作 RBF-GCN。
  - 基于输入特征构建一个kNN 近邻图的稀疏图，记作 kNN-GCN 。
  对于 LDS，我们使用 KNN 近邻图作为初始的边概率，即 kNN-LDS 。另外，我们进一步比较了 LDS 的稠密版本，此时我们学习一个稠密的相似度矩阵，记作 kNN-LDS(dense) 。
当需要用到 kNNk $k\in \{2,3,\cdots,20\}$ ，以及度量函数为欧拉距离、cosine 距离，然后通过验证集的准确性来调优这两个超参数。
kNN-LDS $k\in \{10,20\}$ 。
GCN 和 LDS 配置：
- 对于所有用到 GCN 的网络，我们使用两层 GCN 网络，隐层维度为 16，采用 ReLU 激活函数。
- 我们使用 0.5 的 dropout rate 来执行 dropout，从而执行额外的正则化。
- Adam $\{0.005,0.01,0.02\}$ 中选择
- SemiEmb 核 FFNN 使用相同数量的隐层维度、相同的激活函数。
- 我们使用带正则化的交叉熵损失函数：
  $L (\vec{w}, A) = - \sum_{v \in V_{train}} {\vec{y}}_{v} \circ \log [f_{\vec{w}} (X, A)_{v}] + ρ {‖ \vec{w} ‖}^{2}$
  $\mathbf{\vec y}_v$ $v$ one-hot $\circ$ $\rho$ 为非负的正则化系数。
- 对于 LDSkNN $\theta_{i,j} = 1$ $\theta_{i,j} = 0$ 。
- 我们将验证集平均划分为验证集 (A) 和早停集(B)。对于外层目标，我们使用 (A) 上的不带正则化的交叉熵损失，并通过随机梯度下降对其进行优化。
- $\eta$ $\tau$ 。
- $S=16$ 个样本来计算输出的预测。
- 对于 LDS 和 GCN，我们以 20 步的窗口大小来应用早停。
其它方法的实现来自于 skicit-learn 或者原始论文。所有方法的超参数都是通过验证集的 accuracy 来调优。

19.2.1 图数据集

我们比较了在图数据集（Cora 左图、Citeseer 中间图）的残缺图上的结果。我们给出边的每个保留比例，以及对应的验证集准确率（虚线，用于早停）和测试集准确率（实线），阴影表示标准差。所有结果都随机执行5 次并取均值。
可以看到：
- LDS 在所有情况下都具有竞争性优势，准确率提升了 7% 。最终 Cora 和 Citeseer 的准确率分别为 84.1% 和 75.0%，超越了所有的 state-of-the-art 模型。
- 当保留所有的边（100%）时，LDS 还可以通过学习其它额外的、有用的边来提高 GCN 模型的泛化准确率。
- 从 GCN 和 GCN-RND 对比中可以看到，随机添加边并不能减少泛化误差，这对于模型没有任何帮助。
$\tau$ LDS $\tau=0$ 对应于内层、外层交替优化。可以看到：
- $\tau\gt 0$ （即：内层多步优化）的效果要远远超过交替优化
- $\tau$ 进一步提升到 20 并不会带来明显提升，同时会增加计算成本
上述实验更详细的结果如下表所示，其中（+- 表示标准差）。
我们考虑 LDS 在 Cora,Citeseer 数据集上期望的边的数量，从而分析学到的图生成器采样的图的属性。
- LDS 期望的边的数量高于原始图的边的数量，这是可以预期的，因为 LDS 具有比普通 GCN 更高的准确率。
- 尽管如此，LDS 学到的图仍然是非常稀疏的，如，对于 Cora 而言平均只有不到 0.2% 的边。这有助于 LDS 的内层循环中有效学习 GCN 。

19.2.2 半监督学习

我们考察 LDS 在所有数据集上的半监督学习效果。每个实验随机执行 5 次并报告平均的测试准确率和标准差（以 +- 表示）。有竞争力的结果以粗体展示。
结论：
- 非图算法在某些数据集上效果很好（如 Wine,Cancer,FMA），但是在 Digits,Citeseer,Cora,20news 等其它数据集上效果较差。
- LP, ManiReg, SemiEmb 只能改善 Digits,20news 数据集的效果。
- 和非图算法相比，kNN-GCN 效果很好，并提供了具有竞争力的结果。
- kNN-LDS 是所有数据集中最具竞争力的方法之一，并且在图数据集上获得最高的收益。
- kNN-LDS 的性能略优于其 dense 模型，并且其稀疏图可以扩展到更大的数据集。

19.2.3 图生成模型

LDS $\tau = 5$ ）在Cora 数据集（保留 25% 的边）学习过程中，三种类型的节点（训练集、验证集、测试集,对应于下图的从左到右）的平均的边概率的演变，每种类型一个节点。对于每个样本节点，所有其它节点被划分为四个分组：底层真实图中相邻的节点（True link）、相同类别的节点（Same class）、不同类别的节点（Different classes）、未知类别的节点（Unknown classes）。图中灰色竖线指示内层优化何时重启。纵坐标以 log 10 来表示。
- 平均而言，LDS 将相同类别标签样本之间存在边的概率提高了 10 到 100 倍。
- LDS 能够为真实相邻的边赋予一个较高的概率。
LDS $\tau = 5$ ）在Cora 数据集（保留 25% 的边）学习完成之后，三种类型的节点（训练集、验证集、测试集,对应于下图的从左到右）的边的概率的归一化直方图，每种类型一个节点。对于每个样本节点，所有其它节点被划分为两个分组：相同类别的节点（Same class）、不同类别或未知类别的节点（Different/Unknown classes）。直方图统计按照 log 10 分为六个桶。
可以看到：LDS 学到边的高度非均匀的概率分布能够反应节点的类别。
LDS $\tau = 5$ ）在Citeseer 数据集（保留 25% 的边）学习完成之后，被 kNN-GCN 误分类但是被 kNN-LDS 正确分类的测试集的三个节点的边的概率的归一化直方图。。对于每个样本节点，所有其它节点被划分为两个分组：相同类别的节点（Same class）、不同类别或未知类别的节点（Different/Unknown classes）。直方图统计按照 log 10 分为六个桶。
可以看到：
- LDS 学到边的高度非均匀的概率分布能够反应节点的类别，这和前面的结论相同。
- 可能更重要的是捕获有效的边的分布（即相同类别之间存在边的概率更高），而不是选择正确的连接。
我们用 t-SNE 进一步可视化了 GCN 和 LDS 学到的 embedding。下图给出了 Citeseer 数据集上使用 Dense-GCN（左）、kNN-GCN（中）、kNN-LDS（右）学到的 embedding 的的 t-SNE 可视化。该 embedding 是最后一层卷积层的输出。
可以看到：kNN-LDS 学到的 embedding 在所有不同类别之间提供了最佳分隔。

二十、DIAL-GNN[2019]

近年来图神经网络GNN 被广泛使用，不幸的是只有图结构的数据才能使用 GNN 。很多真实世界中的数据（如社交网络）天然就是图结构数据，但是对于下游任务而言，这些天然的图结构是否对于当前任务是最优的则不一定。更重要的是，很多场景下可能没有图结构数据，因此需要从原始数据中构造图结构数据。
- 在图信号处理领域，研究人员探索了从数据中学习图结构的各种方法，但是他们并未考虑下游任务。
- 另外，越来越多的工作研究交互系统的动态建模从而利用隐式的交互模型，但是这些方法无法在很多噪音甚至没有图结构的情况下直接联合学习图结构和 graph representation 。
- 最近，研究人员探索了对非图结构数据自动构建图结构并应用 GNN，但是这些方法仅优化了针对下游任务的图结构，并未利用已被证明在图信号处理中非常有用的技术。
- 最近，论文 《Learning Discrete Structures for Graph Neural Networks》 提出了一种新的方法（即，LDS-GNN ），该方法通过近似求解一个 bilevel programGCN $n^2$ $n$ 为图中节点数量）。更重要的是，它只能应用于 transductive learning，这意味着该方法在测试期间无法应用于新的、未见过的节点。
为解决这些限制，论文 《Deep Iterative and Adaptive Learning for Graph Neural Networks》 提出了一种用于 GNN 的深度迭代和自适应学习框架 Deep Iterative and Adaptive Learning for Graph Neural Networks: DIAL-GNN ，该框架共同学习针对具体任务的最优图结构和 GNN 网络参数。DIAL-GNN 将构建图的图学习graph learning 问题转换为数据驱动的相似性度量学习问题 similarity metric learning 。
然后作者利用自适应图正则化来控制生成的图结构的平滑性smoothness、连接性connectivity 以及稀疏性 sparsity 。更重要的是，作者提出了一种新颖的迭代方法来搜索隐藏的图结构hidden graph structure，该隐藏的图结构将初始图结构优化到监督学习（或半监督学习）任务的最优图结构。另外，论文的方法可以同时处理transductive learning 和 inductive learning。
最后，通过广泛的实验表明，在下游任务性能以及计算时间方面，论文提出的 DIAL-GNN 模型可以始终超越或者接近 state-of-the-art 基准模型。

20.1 模型

$n$ $\mathcal V=\{v_1,\cdots,v_n\}$ $v$ $\mathbf{\vec x}_v\in \mathbb R^d$ $\mathbf X\in \mathbb R^{d\times n}$ $v$ $v$ $\mathbf{\vec x}_v$ 。
$\mathcal G$ $\mathbf A\in \mathbb R^{n\times n}$ $\mathcal G$ 被 GNN-based 模型来应用于下游的预测任务。
大多数现有方法通过预处理过程来基于人工规则或特征来构造图，如 kNN 近邻图。和这些方法不同，我们提出的 DIAL-GNN 框架将问题描述为一个迭代式学习问题，该问题以端到端的方式联合学习图结构和 GNN 参数。
DIAL-GNN $\mathbf A_0$ ，它来自于真实的图结构(如果存在) 或者来自于kNN 近邻图构建的图结构。

20.1.1 相似度量学习

构建图的一个常用策略是：首先基于某种度量来计算节点pair 对之间的相似度，然后在下游任务中使用人工构建的图。和这些方法不同，我们为图结构学习设计了一个可学习的度量函数，它将与下游任务的模型一起训练。
Similarity Metric Learning：类似于 multi-head attention 机制，我们设计了 multi-head 余弦相似度：
$\begin{matrix} s_{i, j}^{(k)} = \cos ({\vec{w}}_{k} ⊙ {\vec{v}}_{i}, {\vec{w}}_{k} ⊙ {\vec{v}}_{j}) \\ s_{i, j} = \frac{1}{K} \sum_{k = 1}^{K} s_{i, j}^{(k)} \end{matrix}$
其中：
- $s_{i,j}^{(k)}$ $\mathbf{\vec v}_i$ $\mathbf{\vec v_j}$ $k$ $k=1,\cdots,K$ $K$ 为head 的数量。
- $\mathbf{\vec w}_k$ $k$ 个 head 的权重向量，它在所有节点之间共享，并代表一个视图 perspective 。每个视图捕获了节点之间的部分相似语义。
- $\odot$ 为逐元素乘积。
$K$ $K$ $\mathbf S$ 。
$\mathbf W_k\mathbf{\vec v}_i$ $\mathbf W_k$ vs $\mathbf{\vec w}_k$ ）。
这里多个视图的相似性取平均，也可以考虑取最大值或者中位数？
Graph Sparsificationmetric $s_{i,j}$ 取值范围是 [-1,1] 。此外，很多真实的图结构都是稀疏的。进一步地，一个稠密图不仅计算代价较高，而且对于大多数场景意义不大。
$\epsilon-\text{neighborhood}$ $\mathbf S$ $\mathbf A$ $\mathbf S$ $\epsilon\gt0$ 的元素：
$\begin{matrix} A_{i, j} = {\begin{cases} s_{i, j} & , s_{i, j} > ϵ \\ 0, & else \end{cases} \end{matrix}$
.

20.1.2 图正则化

在图信号处理 graph signal processing 中，对图信号广泛采用的假设是：value 在相邻节点之间平滑变化。
$\mathcal G$ $\mathbf A$ $n$ $\mathbf{\vec x}_1,\cdots,\mathbf{\vec x}_n\in \mathbb R^d$ 的平滑性 smoothness通常由迪利克雷能量 Dirichlet energy 来衡量：
$Ω (A, X) = \frac{1}{2 n^{2}} \sum_{i, j} A_{i, j} {‖ {\vec{x}}_{i} - {\vec{x}}_{j} ‖}^{2} = \frac{1}{n^{2}} tr (X^{⊤} L X)$
其中：
- $\mathbf L =\mathbf D-\mathbf A$ $\mathbf D = \text{diag}(D_{i }),D_i = \sum_j A_{i,j}$ 为图的度矩阵。
- $\text{tr}(\cdot)$ 为矩阵的迹trace 。
$\Omega(\mathbf A, \mathbf X)$ $\mathbf A$ 定义的图上强化图信号的平滑性。
上述平滑损失 smoothness losstrivial solution $\mathbf A = \mathbf 0$ 。另外除了平滑性，我们还希望控制图结构的稀疏性sparsity。考虑 《How to learn a graph from smooth signals》 的做法，我们对学习的图结构施加了额外的约束：
$f (A) = \frac{- β}{n} {\vec{1}}^{⊤} \log (A \vec{1}) + \frac{γ}{n^{2}} | | A | |_{F}^{2}$
$\beta,\gamma$ $||\cdot||_F$ 为矩阵的 F 范数。
- 第一项通过对数的 barrier 来惩罚不连续图的形成，即连通性connectivity 。
  ${\vec{1}}^{⊤} \log (A \vec{1}) = \sum_{i} \log (\sum_{j} A_{i, j})$
  $i$ $\sum_j A_{i,j}$ $A_{i,i}$ $-\beta\log 0$ 趋向于正无穷，因此第一项趋近于正无穷。
- 第二项惩罚第一项造成的较大degree，从而控制稀疏性。
  $\mathbf A$ $\epsilon$ 的元素置零来人工提供稀疏性。而这里通过正则化进一步提供而稀疏性。
图的总体正则化损失为上述损失之和，从而控制学习的图结构的平滑性、连通性、稀疏性：
$L_{G} = α Ω (A, X) + f (A)$
$\alpha,\beta,\gamma$ 都是非负的超参数。

20.1.3 迭代式图学习

a. Joint Graph Structure and Representation Learning

我们期望图结构能起到两个作用：它应该遵循节点之间的语义关系；它应该适合下游预测任务的需求。
因此，我们通过结合任务预测损失和图正则化损失来联合学习图结构和graph representation，即：
$L = L_{pred} + L_{G}$
注意：我们的图学习框架与各种GNN 无关，也和预测任务无关。为方便讨论，我们采用两层 GCN，其中第一层将节点特征映射到 embedding 空间，第二层将embedding 映射到输出空间：
$\begin{matrix} Z = relu (\tilde{A} X W_{1}) \\ \hat{Y} = output (\tilde{A} Z W_{2}) \\ L_{pred} = l (\hat{Y}, Y) \end{matrix}$
其中：
- $\tilde{\mathbf A}$ 为归一化的邻接矩阵。
- $\text{output}(\cdot)$ 为具体任务的输出函数（如，sigmoid 或 softmax ）。
- $\mathcal l(\cdot)$ 为具体任务的损失函数。
- $\mathbf Y$ label $\hat{\mathbf Y}$ 为节点的预测输出矩阵。
$\text{output}(\cdot)$ softmax $\mathit l(\cdot,\cdot)$ 为预测损失的交叉熵函数。
$\tilde{\mathbf A}$ 。我们的初步实验表明：如果初始图结构 initial graph structure 可用，则完全丢失初始图结构是有害的。
之前的一些工作通过执行 masked attention 从而将初始图结构注入到图结构学习中，但是这会限制图结构学习的能力。因为这种方法无法学到初始图结构中不存在、但是实际上有用的那些边。我们假设最优图结构和初始图结构的差异很小，因此我们认为最优图结构和初始图结构、度量学习学到的图结构满足以下关系：
$\tilde{A} = λ L_{0} + (1 - λ) (D^{- 1 / 2} A D^{- 1 / 2})$
其中：
- $\mathbf L_0 = \mathbf D_0^{-1/2} \mathbf A_0 \mathbf D_0^{-1/2}$ $\mathbf D_0$ 为初始图结构的度矩阵。
- $\lambda$ 用于平衡初始图结构和度量学习学到的图结构。
$\tilde{\mathbf A} = \lambda \mathbf L_0 + (1-\lambda) \frac{A_{i,j}}{\sum_j A_{i,j}}$ 。

$\mathbf A_0$ 不可用，则我们使用余弦相似度构造 kNN 近邻图从而作为初始图结构。

$\lambda=1$ 时模型就回退到使用初始图结构的版本。

b. Iterative Method for Graph Learning:

以前的一些工作仅依靠原始节点特征并基于某些注意力机制来学习图结构。我们认为这有一些局限性，因为原始节点特征可能不包含足够的信息来学习号的图结构。我们的初步实验表明：简单地在这些原始节点特征上应用一些注意力函数无助于学习有意义的图。
为解决上述限制，我们提出了一种用于图神经网络的深度迭代和自适应学习框架，即 Deep Iterative and Adaptive Learning framework for Graph Neural Network: DIAL-GNN 。具体而言，除了基于原始特征计算节点相似度之外，我们还引入了另一个可学习的、基于节点 embedding 计算到的相似度度量函数。这么做的目的是在 node embedding 空间上定义的度量函数能够学习拓扑信息，从而补充仅基于原始节点特征学到的拓扑信息。为了结合原始节点特征和节点 embedding 双方的优势，我们将最终学到的图结构作为它们的线性组合：
${\bar{A}}^{(t)} = η {\tilde{A}}^{(t)} + (1 - η) {\tilde{A}}^{(0)}$
$\tilde{\mathbf A}^{(t)}$ $\tilde{\mathbf A}^{(0)}$ $\tilde{\mathbf A} = \lambda \mathbf L_0 + (1-\lambda)\left(\mathbf D^{-1/2}\mathbf A\mathbf D^{-1/2}\right)$ $t$ 轮迭代和初始迭代。
DIAL-GNN 算法：
- 输入：
  - $\mathbf X$ label $\mathbf Y$
  - $\mathbf A_0$
  - $K, \epsilon,\alpha,\beta,\gamma,\lambda,\delta, T,\eta, k$
- $\tilde{\mathbf A}^{(t)}$ $\Theta$ label $\hat{\mathbf Y}$
- 算法步骤：
  - GCN $\Theta$ 。
  - $\mathbf A_0$ kNN $\mathbf A_0 \leftarrow \text{kNN}(\mathbf X,k)$ $\mathbf A_0$ 。
  - $\mathbf{ A}_0$ $\mathbf X$ $\mathbf A^{(0)}$ $\tilde{\mathbf A}^{(0)}$ 。
    $\mathbf A^{(0)} = \mathbf A_0$ 。
  - embedding $\mathbf Z^{(0)} = \text{relu}\left(\tilde{\mathbf A}^{(0)} \mathbf X \mathbf W_1\right)$ 。
  - $\mathcal L_{\text{pred}}^{(0)} = \mathcal l\left(\text{output}\left(\tilde{\mathbf A }^{(0)} \mathbf Z^{(0)} \mathbf W_2\right), \mathbf Y \right)$ 。
  - $\mathcal L_ \mathcal G^{(0)} = \alpha \Omega(\mathbf A^{(0)}, \mathbf X) + f(\mathbf A^{(0)})$ 。
  - $\mathcal L^{(0)}\leftarrow \mathcal L^{(0)}_{\text{pred}} + \mathcal L_\mathcal G^{(0)}$ 。
  - $t\leftarrow 0$ 。
  - $t \gt 0$ $\left\|\mathbf A^{(t)} - \mathbf A^{(t-1)}\right\|_F^2 \le \delta \left\|\mathbf A^{(0)}\right\|_F^2$ $t \ge T$ 。迭代步骤：
    - $t\leftarrow t+1$ 。
    - $\mathbf{ Z}^{(t-1)}$ $\mathbf S$ 。
      基于 multi-head 余弦相似度来计算。
    - $\mathbf S$ $\mathbf A^{(t)}$ $\mathbf{ A}_0$ $\mathbf A^{(t)}$ $\tilde{\mathbf A}^{(t)}$ 。
    - $\bar{\mathbf A}^{(t)} = \eta\tilde{\mathbf A}^{(t)} + (1-\eta)\tilde{\mathbf A}^{(0)}$ 。
    - embedding $\mathbf Z^{(t)} = \text{relu}\left(\bar{\mathbf A}^{(t)} \mathbf X \mathbf W_1\right)$ 。
    - $\mathcal L_{\text{pred}}^{(t)} = \mathcal l\left(\text{output}\left(\bar{\mathbf A }^{(t)} \mathbf Z^{(t)} \mathbf W_2\right), \mathbf Y \right)$ 。
    - $\mathcal L_ \mathcal G^{(t)} = \alpha \Omega(\mathbf A^{(t)}, \mathbf X) + f(\mathbf A^{(t)})$ 。
    - $\mathcal L^{(t)}\leftarrow \mathcal L^{(t)}_{\text{pred}} + \mathcal L_\mathcal G^{(t)}$ 。
  - $\mathcal L\leftarrow \mathcal L^{(t)} + \sum_{i=1}^t \mathcal L^{(0)} /t$
  - $\mathcal L$ $\Theta$ 。
从上述算法可以看到：
- embedding $\mathbf Z^{(t-1)}$ $\tilde{\mathbf A}^{(t)}$ $\tilde{\mathbf A}^{(t)}$ embedding $\mathbf Z^{(t)}$ 。
  $T$ 被达到。
- 采用动态的阈值收敛相比固定的迭代步，在 mini-batch 训练时优势更为明显：我们可以使得mini-batch 中每个样本图exaple graph 动态停止（每个样本表示一个图）。
- 在所有迭代之后，总的损失将通过所有之前的迭代进行反向传播，从而更新模型参数。

20.1.4 理论分析

$\mathbf A$ embedding $\mathbf Z$ $\tilde{\mathbf A}, \bar{\mathbf A}$ 。
$t$ $\mathbf A^{(t)}$ $\mathbf Z^{(t-1)}$ $\mathbf Z^{(t)}$ $\tilde{\mathbf A}^{(t)}$ $\tilde{\mathbf A}^{(t)}$ $\mathbf A^{(t)}$ 来计算。
$\delta_\mathbf A^{(t)}$ $\mathbf A^{(t)}$ $\mathbf A^{(t-1)}$ $\delta_\mathbf Z^{(t)}$ $\mathbf Z^{(t)}$ $\mathbf Z^{(t-1)}$ 之间的差异。
- $\delta_\mathbf Z^{(1)}\lt \delta_\mathbf Z^{(0)}$ $\delta_\mathbf A^{(2)} \lt \delta_\mathbf A^{(1)}$ node embedding $\delta_\mathbf Z$ $\delta_\mathbf A$ ）。
- $\delta_\mathbf A^{(2)} \lt \delta_\mathbf A^{(1)}$ $\delta_\mathbf Z^{(2)}\lt \delta_\mathbf Z^{(1)}$ 。
根据这一推理链条，我们可以轻松地扩展到后续的迭代。
$\delta_\mathbf Z^{(1)}\lt \delta_\mathbf Z^{(0)}$ $\delta_{\mathbf Z}^{(0)}$ $\mathbf Z^{(0)}$ $\mathbf X$ $\mathbf Z^{(1)}$ $\mathbf Z^{(0)}$ $\delta_\mathbf Z^{(1)}$ 。
我们将在实验部分经验性地检验迭代式学习过程的收敛性。
模型复杂度：
- $O(n^2h)$ $n$ $h$ 为 embedding 维度。
- embedding $O(n^2d+ ndh)$ $d$ 为输入特征维度。
- $O(n^2h)$ 。
- $O(n^2d)$ 。
$T$ $O(Tn(nh + nd + hd))$ $d\simeq h$ $n\gg d$ $O(Tdn^2)$ 。

20.2 实验

这里我们进行一系列实验，从而验证DIAL-GNN 框架的有效性，并评估不同部分的影响。
数据集：
- 图数据集：Cora 和 Citeseer 是评估图学习算法的两个常用的基准数据集，输入的特征是 bag-of-word ，任务是节点分类。在这两个数据集中，图结构可用。
- 非图数据集：Wine, Breast Cancel, Digits 是三个非图数据集，任务是节点分类。在这些数据集中没有图结构。
- inductive learning 数据集：为了证明IDAL-GNN 在 inductive learning 任务上的有效性，我们分别对 20Newsgroups 数据集（20News）、movie review 数据集（MRD）进行文档分类和回归任务。我们将每个文档视为一个图，其中文档中的每个单词作为图的节点。
对于 Cora,Citeseer，我们遵循之前工作的实验配置（GCN, GAT, LDS-GNN ）。对于 Wine, Cancer, Digits ，我们遵循LDS-GNN 的实验配置；对于 20News，我们从训练数据中随机选择 30% 样本作为验证集；对于 MRD，我们使用 60%:20%:20% 的比例将数据集拆分为训练集、验证集、测试集。
所有实验都是采用不同的随机数种子执行 5 次的均值。
baseline 方法：
- 在 transductive learning 中的 baseline 为 LDS-GNN。与我们的工作类似，LDS-GNN 也是共同学习图结构和 GNN 参数，但是 LDS-GNN 无法应用于 inductive-learning 。因为它旨在直接优化底层图的边上的离散概率分布，这使得它无法在测试阶段处理 unseen 的节点或图。
  LDS-GNN 论文给出了几种半监督baseline 的实验结果，这里我们直接复制结果到这里，而并没有花时间重跑这些 baseline 。
- 对于 Cora,Cteseer 数据集，我们还将 GCN, GAT 作为 baseline。
  为评估 DIAL-GNN 在带噪音的图上的鲁棒性，我们还将 DIAL-GNN, GCN 在添加额外噪声的边、或删除已有的边的图上进行比较。
- 对于非图数据集，我们给出了一个 kNN-GCN 作为 baseline，其中先在数据集上构建 kNN 近邻图，然后对这个图应用 GCN。
- 对于 inductive learning，我们将 DIAL-GNN 和 BiLSTM, kNN-GCN 进行比较。
实验配置：
- 在我们所有实验中（拷贝的实验除外），除了输出层之外，我们在GCN 最后一层卷积层之后、输出层之前应用 dropout rate = 0.5 的 dropout 。
- 在迭代式学习过程中，除了 Citeseer（无 dropout）、Digits（dropout rate = 0.3），我们也在 GCN 中间的卷积层应用 dropout rate = 0.5 的 dropout 。
- 对于文本数据集，我们选择数据集中词频超过10 次的单词，并训练了一个 300 维的 GloVe 向量。
  对于长文本，为提高效率我们将文本长度限制为最大 1000 个单词。
  在word embedding 层和 BiLSTM 层之后，我们使用 dropout rate = 0.5 的 dropout 。
- 我们使用 Adam 优化器，batch size = 16。
- 对于 20News ，隐层维度为 128；对于 MRD，隐层维度为 64 。对于其它benchmark，隐层维度为 16 。
- 对于 text benchmark，我们将学习率设为0.001 ；所有其它benchmark0.01 $L_2$ 正则化，使用系数为 0.0005 的权重衰减。
下图给出了benchmark 上 DIAL-GNN 相关的超参数。所有超参数都在验证集上进行了优化：
在transductive learning 和 inductive learning 上的实验结果如下所示。其中上图为 transductive learning，评估指标为测试准确率accuracy（+- 标准差）；下图为 inductive learning，评估指标分别为测试准确率（分类问题）和测试 R2 score （回归问题），括号内为+- 标准差。
结论：
- DIAL-GNN 在 7 个 benchmark 中有6 个优于所有的 baseline 方法，这证明了 DIAL-GNN 的有效性。
- 即使图结构可用，DIAL-GNN 也可以极大地帮助完成节点分类任务。
- 当图结构不可用时，和 kNN-GCN 相比，DIAL-GNN 在所有数据集上始终获得更好的结果。这表明联合学习图结构和GNN 的强大能力。
- 和 LDS 相比，DIAL-GNN 在 5 个 benchmark 上的 4 个获得了更好的性能。
- 20News 和 MRD 上的良好表现证明了 DIAL-GNN 在 inductive learning 中的能力。
我们进行消融实验从而评估DIAL-GNN 框架不同部分的影响，评估指标为测试集accuracy（+- 标准差）。其中 w/o 表示 without 。
结论：
- 关闭迭代式学习（w/o IL），所有数据集的性能持续下降。这证明了迭代式学习对于图结构学习问题的有效性。
- 关闭图正则化（w/o graph reg.），所有数据集的性能也在持续下降。这证明了结合图正则化损失共同训练模型的好处。
为评估 DIAL-GNN 在噪音图上的鲁棒性，我们对于Cora 数据集构建了随机添加边、随机删除边的图。具体而言，我们随机删除原始图中 25%, 50%, 75% 的边（上图），或者随机添加原始图中 25%, 50%, 75% 的边（下图）。评估指标为测试集accuracy（+- 标准差）。
结论：
- 在所有的情况下，DIAL-GNN 都比 GCN 获得更好的结果，并且对带噪音的图更鲁棒。
- GCNDIAL-GNN $\tilde{\mathbf A} = \lambda \mathbf L_0 + (1-\lambda)\left(\mathbf D^{-1/2}\mathbf A\mathbf D^{-1/2}\right)$ $\lambda$ 的取值，我们强迫模型减少对包含过多加性随机噪音的初始图的依赖。
我们通过测试阶段的迭代式学习过程中的迭代，展示了迭代式学习学到的邻接矩阵的演变，以及模型测试 accuracy 的演变。
我们将迭代式学习过程中相邻矩阵之间的差定义为：
$δ_{A}^{(t)} = \frac{{‖ A^{(t)} - A^{(t - 1)} ‖}_{F}^{2}}{{‖ A^{(t)} ‖}_{F}^{2}}$
其典型取值范围是 0~1 。
结论：邻接矩阵和accuracy 都通过迭代快速收敛，这从经验上验证了我们对迭代式学习过程的收敛性做出的分析。
DIAL-GNN 迭代式学习方法的停止策略有两种：迭代固定数量的迭代步之后停止、应用某些停止条件从而动态停止。下图我们比较了两种策略的有效性，其中蓝线表示使用固定数量的迭代次数，红线表示使用动态停止条件。评估指标为 Cora 数据集的测试集上的平均accuracy。
结论：使用停止条件从而动态停止的效果更好。
最后，我们在各种 benchmark 中比较了 DIAL-GNN, LDS 以及其它经典GNN（如 GCN, GAT）的训练效率。
所有实验均在 Intel i7-2700K CPU, NVIDIA Titan XP GPU 和 16GB RAM 的同一台机器上运行，并使用不同随机数种子重复执行5 次。结果见下表（单位秒）。
结论：
- DIAL-GNN 和 LDS 都要比 GCN,GAT 更慢。这是可以预期的，因为 GCN 和 GAT 不需要同时学习图结构。
- DIAL-GNN 始终比 LDS 更快，但总体而言它们是差不多的水平。
- 通过移除迭代式学习（DIAL-GNN w/o IL）可以发现，迭代式学习的部分是 DIAL-GNN 中最耗时的。

二十一、HAN[2019]

现实世界中的数据很多包含图结构，如社交网络、引文网络、万维网。图神经网络 GNN 作为一种强大的图结构数据的深度representation learning 方法，在图数据分析中表现出卓越的性能，并引起广泛的研究。例如，一些工作（《A new model for learning in graph domains》、《Gated graph sequence neural networks》、《The graph neural network model》）利用神经网络来学习基于节点特征和图结构的 node representation 。一些工作（《Convolutional neural networks on graphs with fast localized spectral filtering》、GraphSAGE、GCN）通过将卷积推广到图来提出图卷积网络。
深度学习的最新研究趋势是注意力机制，该机制可以处理可变大小的数据，并鼓励模型更关注于数据中最重要的部分。注意力机制已被证明在深度神经网络框架中的有效性，并广泛应用于各个领域，如文本分析、知识图谱、图像处理。Graph Attention Network: GAT 是一种新颖的卷积式图神经网络，它利用注意力机制来处理仅包含一种类型的节点或边的同质图。
尽管注意力机制在深度学习中取得成功，但是目前的异质图神经网络架构尚未考虑注意力机制。事实上，现实世界中的图通常带有多种类型的节点和边，这通常被称作异质信息网络heterogeneous information network: HIN或异质图 heterogeneous graph。异质图包含更全面的信息和更丰富的语义，因此被广泛应用于许多数据挖掘任务中。由于异质图的复杂性，传统的 GNN 模型无法直接应用于异质图。
metapath 表示了不同类型对象之间的关系，它是一种广泛用于捕获语义的结构。以电影数据集 IMDB 为例，它包含三种类型的节点：电影 Movie、演员 Actor、导演 Director。
- metapath “电影-演员-电影” MAM 表示两部电影之间的共同演员关系。
- metapath “电影-导演-电影”MDM 表示两部电影之间的共同导演关系。
可以看到：采用不同的 metapath，异质图中节点之间的关系可以具有不同的语义。
由于异质图的复杂性，传统的图神经网络无法直接应用于异质图。
基于以上分析，在为异质图设计具有注意力机制的神经网络体系结构时，需要满足以下需求：
- 图的异质性：异质性heterogeneity是异质图的固有属性，即图中包含各种类型的节点和边。例如，不同类型的节点具有不同的特征，它们的特征可能位于不同的特征空间。如何同时处理如此复杂的异质图结构信息，同时保持多样化的特征信息是需要解决的问题。
- semantic-level 注意力：异质图涉及不同的有意义和复杂的语义信息，这些语义信息通常以 metapath 来刻画。因此，异质图中不同的 metapath 可以抽取不同的语义信息。如何选择最有意义的 metapath，并为 task-specific 融合语义信息是需要解决的问题。
  semantic-level 注意力旨在了解每个 metapath 的重要性，并为其分配适当的权重。如，电影 “《终结者》” 可以通过 Movie-Actor-Movie 连接到 “《终结者2》” （都是由施瓦辛格主演），也可以通过 Movie-Year-Movie 连接到 “《Birdy》” （都是在 1984 年拍摄）。但是在影片分类任务中，MAM 通常要比 MYM 更重要。
  因此，均匀对待所有 metapath 是不切实际的，这会削弱某些有用的 metapath 提供的语义信息。
- node-level 注意力：在异质图中，节点可以通过各种类型的关系来连接。给定一个 metapath，每个节点多有很多基于该 metapath 的邻居。我们需要知道如何区分邻居之间的重要性，并选择一些信息丰富的邻居。对于每个节点，node-level 注意力旨在了解 metapath-based 邻居的重要性，并为他们分配不同的注意力值。
为解决这些问题，论文《Heterogeneous Graph Attention Network》提出了一个新的异质图注意力网络 Heterogeneous graph Attention Network，简称 HAN。 HAN 同时考虑了同时考虑了node-level 注意力和 semantic-level 注意力。具体而言，给定节点特征作为输入：
- 首先，HAN 使用 type-specific 转换矩阵将不同类型节点的特征投影到相同的特征空间。
- 然后，HAN 使用 node-level 注意力机制来获得节点及其 metapath-based 邻居之间的注意力得分。
- 然后，HAN 使用 semantic-level 注意力机制来获得各 metapath 针对具体任务的注意力得分。
基于这两个级别学到的注意力得分，HAN 可以通过分层hierarchical 的方式获得邻居和多个 metapath 的最佳组合，使得学到的 node embedding 可以更好地捕获异质图中复杂的结构信息和丰富的语义信息。之后，可以通过端到端的反向传播来优化整个模型。
论文的主要贡献：
- 据作者所知，这是研究基于注意力机制的异质图神经网络的首次尝试。论文的工作使图神经网络能够直接应用于异质图，并进一步促进了基于异质图的应用。
- 论文提出了一种新颖的异质图注意力网络 heterogeneous graph attention network: HAN ，它同时包含 node-level attention 和 semantic-level attention 。受益于这种分层的注意力机制，所提出的 HAN 可以同时考虑节点重要性和 metapath 重要性。此外，HAN 模型效率高效，其复杂度是 metapath-based 节点 pair 对的数量的线性复杂度，因此可以应用于大规模异质图。
- 论文进行了广泛的实验来评估所提出模型的性能。通过与 state-of-the-art 模型进行比较，结果表明了 HAN 的优越性。更重要的是，通过分析分层注意力机制，HAN 展示了它对于异质图分析的潜在的量向好可解释性。
相关工作：
- GNN：
  - 《new model for learning in graph domains》 和 《The graph neural network model》 中介绍了旨在扩展深度神经网络以处理任意图结构数据的图神经网络GNN 。
  - 《Gated graph sequence neural networks》 提出了一种传播模型，该模型可以融合 gated recurrent unit: GRU 从而在所有节点上传播信息。
  最近很多工作在图结构数据上推广卷积运算。图卷积神经网络的工作一般分为两类，即谱域spectral domain卷积和非谱域non-spectral domain卷积。
  - 一方面，谱域卷积利用图的 spectral representation 来工作。
    - 《Spectral networks and locally connected networks on graphs》 通过找到图的傅里叶基Fourier basis从而将卷积推广到一般的图。
    - 《Convolutional neural networks on graphs with fast localized spectral filtering》 $K$ 阶切比雪夫多项式在谱域中近似 approximate 平滑的滤波器。
    - 《Semi-Supervised Classification with Graph Convolutional Networks》 提出了一种谱方法，称作图卷积网络Graph Convolutional Network: GCN。该方法通过普卷积的局部一阶近似来设计图卷积网络。
  - 另一方面，非谱域卷积直接在图上定义卷积。
    - 《Inductive Representation Learning on Large Graphs》 提出了 GraphSAGE，它在固定大小的节点邻域上执行基于神经网络的聚合器。它可以通过聚合来自节点局部邻域的特征来学习一个函数，该函数用于生成 node embedding 。
  注意力机制（如 self-attention 和 soft-attention）已经成为深度学习中最有影响力的机制之一。先前的一些工作提出了用于图的注意力机制，如 《Aspect-Level Deep Collaborative Filtering via Heterogeneous Information Network》、《Leveraging Meta-path based Context for Top-N Recommendation with A Neural Co-AttentionModel》。受到注意力机制的启发，人们提出 Graph Attention Network: GAT 来学习节点与其邻居之间的重要性，并融合 fuse 邻居进行节点分类。
  但是，上述图神经网络无法处理多种类型的节点和边，它们仅能处理同质图。
- Network Embedding：network embedding，即 network representation learning: NRL ，用于将网络嵌入到低维空间中并同时保留网络结构和属性，以便将学到的 embedding 应用于下游网络任务。如，基于随机游走的方法（node2vec, Deepwalk）、基于深度神经网络的方法（《Structural deep network embedding》）、基于矩阵分解的方法（《Asymmetric transitivity preserving graph embedding》,《Community Preserving Network Embedding》）、以及其它方法（LINE）。然而，所有这些算法都是针对同质图提出的。
  异质图嵌入主要聚焦于保留 metapath-based 的结构信息。
  - ESim 接受用户定义的 metapath 作为指导，在用户偏好 user-preferred 的 embedding 空间中学习 node embedding 从而进行相似性搜索。即使 ESim 可以利用多个 metapath，它也无法了解 metapath 的重要性。为了达到最佳性能，ESim 需要进行网格搜索从而找到所有的 metapath 的最佳权重。
  - metapath2vec 设计了一种 metapath-based 随机游走，并利用 skip-gram 来执行异质图嵌入。但是，metapath2vec 只能使用一个 metapath，可能会忽略一些有用的信息。
  - 与 metapath2vec 类似，HERec 提出了一种类型约束策略type constraint strategy来过滤节点序列并捕获异质图中反应的复杂语义。
  - HIN2Vec 执行多个预测的训练任务，同时学习节点和 metapath 的潜在向量。
  - 《PME: Projected Metric Embedding on Heterogeneous Networksfor Link Prediction》 提出了一个叫做 PME 的投影度量嵌入模型projected metric embedding model ，该模型可以通过欧式距离来保持节点邻近性。PME 将不同类型的节点投影到同一个关系空间 relation space 中，进行异质链接的预测。
  - 为了研究如何全面地描述异质图，《Easing Embedding Learning by Comprehensive Transcription of Heterogeneous InformationNetworks》 提出了 hEER，它可以通过 edge representation 来嵌入异质图。
  - 《Gotcha-sly malware!: Scorpion a metagraph2vec based malware detection system》 提出了一个嵌入模型 metapath2vec，其中网络结构和语义都被最大限度地保留从而用于恶意软件检测。
  - 《Joint embedding of meta-path and meta-graph for heterogeneous information networks》 提出了 metapath-based 的 network embedding 模型，该模型同时考虑了 meta-graph 的所有 meta 信息的隐藏关系 hidden relation 。
  综上所述，上述所有算法都没有考虑异质图 representation learning 中的注意力机制。

21.1 模型

异质图是一种特殊类型的信息网络，包含多种类型的节点或多种类型的边。
$\mathcal G = (\mathcal V, \mathcal E)$ $\mathcal V$ $\mathcal E$ 为边的集合。
- $\mathcal A$ $v\in \mathcal V$ $\phi(v)\in \mathcal A$ 。
- $\mathcal R$ $e\in \mathcal E$ $\psi(e)\in \mathcal R$ 。
$|\mathcal A| + |\mathcal R| \gt 2$ 。
metapath $\Phi$ $A_1\stackrel{R_1}{\longrightarrow} A_2\stackrel{R_2}{\longrightarrow}\cdots \stackrel{R_l}{\longrightarrow} A_{l+1}$ $A_1A_2\cdots A_{l+1}$ $A_i\in \mathcal A, R_i\in \mathcal R$ 。
metapath $A_1$ $A_{l+1}$ $R = R_1\circ R_2\circ\cdots\circ R_l$ $\circ$ 表示关系的组合composition 。
metapath 表示不同对象之间的语义路径semantic path 。
定义 metapath-basedmetapath $\Phi$ $v$ $v$ metapath-based $\mathcal N_v^\Phi$ $v$ metapath $\Phi$ 连接的邻居节点。注意：这里的邻居包含节点自身。
如下图所示，我们构建了IMDB 的一个异质图，它包含多种类型的节点（演员Actor:A，电影Movie:M，导演 Director:D ），以及多种类型的关系。
- 两个电影可以通过多种 metapath 连接，如 MAM, MDM 。
- 不同的 metapath 通常表示不同的语义，如：MAM 表示两部电影是同一个演员参演的；MDM 表示两部电影是同一个导演主导的。
- 图 dmetapath MAM $m_1$ metapath-based $m_1,m_2,m_3$ $m_1$ metapath MDM $m_1$ metapath-based $m_1,m_2$ $m_1$ 自身)。
现有的图神经网络可以处理任意图结构数据，但是它们都是针对同质网络来设计。由于 metapath 和 metapath-based 邻居是异质图的两个基本结构，因此我们为异质图设计一种新的半监督图神经网络 HAN。
HAN 采用 hierarchical attention 结构：node-level 注意力机制、semantic-level 注意力机制。下图给出了 HAN 的整体框架：
- 首先我们提出 node-level 注意力，从而获取 metapath-based 邻居的权重，并在特定语义下（每个metapath 对应一个语义）聚合这些邻居从而得到节点的 embedding 。
- 然后我们提出 semantic-level 注意力，从而区分 metapath 的权重。从而最终结合了 node-level 注意力和 semantic-level 注意力来获取 node embedding 的最佳加权组合。

21.1.1 node-level attention

每个节点的 metapath-based 邻居扮演了不同的角色，并且在 task-specific node embedding 学习中表现出不同的重要性。因此，我们考虑 node-level 注意力，它能够学习异质图中每个节点的 metapath-based 邻居的重要性，并聚合这些重要的邻居 embedding 从而生成node embedding。
$\phi_i\in \mathcal A$ type-specific $\mathbf M_{\phi_i}$ ，从而将不同类型节点的特征投影到相同的特征空间。注意：这里的转换矩阵是基于节点类型，而不是连接类型。
节点特征的投影过程为：
${\vec{x}}_{i}^{'} = M_{ϕ_{i}} {\vec{x}}_{i}$
$\mathbf{\vec x}_i$ $v_i$ $\mathbf{\vec x}_i^\prime$ $v_i$ 转换后的特征。
通过type-specific 特征投影过程，node-level 注意力可以处理任意类型的节点。
然后，我们利用self-attention 机制来学习 metapath-based 邻居之间的重要性。
$(v_i,v_j)$ metapath $\Phi$ node-level $e_{i,j}^{\Phi}$ $v_i$ $v_j$ 的重要性。
基于 metapathpair $(v_i,v_j)$ 的重要性可以表示为：
$e_{i, j}^{Φ} = {att}_{node} ({\vec{x}}_{i}^{'}, {\vec{x}}_{j}^{'}; Φ)$
其中：
- $\text{att}_{\text{node}}$ 表示执行 node-level 注意力的深度神经网络。
  metapath $\Phi$ $\text{att}_{\text{node}}$ 在所有 metapath-based 节点 pairmetapath $\Phi$ 下存在一些类似的连接模式。
- metapath $e_{i,j}^\Phi \ne e_{j,i}^\Phi$ 。这表明 node-level 注意力可以保留异质图的不对称性，而这种不对称性是异质图的关键特性。
  $e_{i,j}^\Phi = e_{j,i}^\Phi$ $\alpha_{i,j}^\Phi\ne \alpha_{j,i}^\Phi$ 。
- metapath $\Phi$ ， metapath-basedpair $(v_i.v_j)$ 的权重取决于它们的特征。
$\text{att}_{\text{node}} (\cdot)$ 函数为：
$e_{i, j}^{Φ} = {att}_{node} ({\vec{x}}_{i}^{'}, {\vec{x}}_{j}^{'}; Φ) = σ ({\vec{a}}_{Φ} \cdot [{\vec{x}}_{i}^{'} | | {\vec{x}}_{j}^{'}])$
其中：
- $\mathbf{\vec a}_\Phi$ metapath $\Phi$ 的 node-level 注意力向量attention vector ，它是 metapath-specific 的。
- $\sigma(\cdot)$ 为非线性激活函数。
- $[\cdot||\cdot]$ 为向量拼接操作。
masked attention $e_{i,j}^\Phi$ $j\in \mathcal N_i^\Phi$ $\mathcal N_i^\Phi$ $v_i$ 的metapath-based 邻居（包括其自身）。
在获得 metapath-based 节点 pairsoftmax $\alpha_{i,j}^\Phi$ ：
$α_{i, j}^{Φ} = {softmax}_{j} (e_{i, j}^{Φ}) = \frac{\exp (σ ({\vec{a}}_{Φ} \cdot [{\vec{x}}_{i}^{'} | | {\vec{x}}_{j}^{'}]))}{\sum_{k \in N_{i}^{Φ}} \exp (σ ({\vec{a}}_{Φ} \cdot [{\vec{x}}_{i}^{'} | | {\vec{x}}_{k}^{'}]))}$
可以看到：
- $\alpha_{i,j}^\Phi$ $v_i,v_j$ 的特征向量。
- $\alpha_{i,j}^\Phi$ $\alpha_{i,j}^\Phi\ne \alpha_{j,i}^\Phi$ 。这种不对称性不仅因为分子中的向量拼接顺序不同，还因为分母中归一化项有很大差异（不同节点具有不同的邻居集合）。
- $\alpha_{i,j}^\Phi$ 是针对单个metapath 生成的，因此它是 semantic-specific 的，并且能够捕获一种语义信息。
$v_i$ 的 metapath-based embedding 可以通过邻居的投影后的特征和相应的权重系数进行聚合：
${\vec{z}}_{i}^{Φ} = σ (\sum_{j \in N_{i}^{Φ}} α_{i, j}^{Φ} {\vec{x}}_{j}^{'})$
$\mathbf{\vec z}_i^\Phi$ $v_i$ metapath $\Phi$ 学到的 embedding 。
为更好地理解 node-level 聚合过程，我们以下图 (a) 为例进行简要说明。每个节点的 embeddingmetapath-based $\alpha_{i,j}^\Phi$ 是为单个 metapath 而生成的，因此它是 semantic-specific 并且能够捕获一种语义信息。
由于异质图的数据规模可大可小，其规模的方差很大。为使得 HAN 能够应用到各种规模的异质图，我们将 node-level 注意力扩展为 multi-head 注意力，从而使得训练过程更为稳定。
node-level $K$ 次，并将学到的 embedding 拼接，从而作为最终的 semantic-specific embedding ：
${\vec{z}}_{i}^{Φ} = ∥_{k = 1}^{K} σ (\sum_{j \in N_{i}^{Φ}} α_{i, j}^{Φ, k} {\vec{x}}_{j}^{'})$
$\alpha_{i,j}^{\Phi,k}$ $k$ 个 head 学到的权重系数。
metapath $\{\Phi_0,\Phi_1,\cdots,\Phi_P\}$ node-level $P$ semantic-specific node embedding $\{\mathbf Z_{\Phi_0},\mathbf Z_{\Phi_1},\cdots, \mathbf Z_{\Phi_P}\}$ 。其中每组 semantic-specific node embedding包含了图中所有的节点。
如何确定这个 metapath 集合，论文并未给出任何答案或方向。

21.1.2 semantic-level attention

通常异质图中每个节点都包含多种类型的语义信息，并且 smantic-specific node embedding仅能反映节点某个方面的语义。为学到更全面的节点 embedding，我们需要融合各种类型语义。
为解决多种类型语义融合的挑战，我们提出一种新的 semantic-level attention 机制，可以自动学习 task-specific 下不同 metapath 的重要性，从而融合多种类型的语义。
node-level $P$ semantic-specific node embedding $\{\mathbf Z_{\Phi_0},\mathbf Z_{\Phi_1},\cdots, \mathbf Z_{\Phi_P}\}$ metapath $\{\beta_{\Phi_0},\cdots, \beta_{\Phi_P}\}$ ，则有：
$(β_{Φ_{0}}, β_{Φ_{1}}, \dots, β_{Φ_{P}}) = {att}_{sem} (Z_{Φ_{0}}, Z_{Φ_{1}}, \dots, Z_{Φ_{P}})$
$\text{att}_{\text{sem}}$ 表示执行 semantic-level 注意力的深度神经网络。
为学习 metapath 的重要性：
- 我们首先通过非线性变换（如单层 MLP）来转换 semantic-specifc node embedding。
- 然后，我们将转后的 embedding 和一个 semantic-levelattention vector $\mathbf{\vec q}$ 计算相似性从而得到重要性。
- 最后我们聚合所有 semantic-specific node embedding的重要性，从而得到每个 metapath 的重要性。
metapath $\Phi_i$ $w_{\Phi_i}$ ，则有：
$w_{Φ_{i}} = \frac{1}{| V |} \sum_{v_{i} \in V} \vec{q} \cdot \tanh (W {\vec{z}}_{i}^{Φ} + \vec{b})$
其中：
- $\mathbf W$ $\mathbf{\vec b}$ 为偏置向量。
- $\mathbf{\vec q}$ 为 semantic-level 的注意力向量。
注意：为进行有意义的比较，所有的 metapathsemantic-specific node embedding $\left\{\mathbf W, \mathbf{\vec b},\mathbf{\vec q} \right\}$ 。
$w_{\Phi_i} = \mathbf{\vec q}\cdot\left[\frac{1}{|\mathcal V|} \sum_{v_i\in \mathcal V} \tanh\left(\mathbf W \mathbf{\vec z}_i^\Phi + \mathbf{\vec b}\right)\right]$ metapath $\Phi$ 计算 metapath-levelembedding $\frac{1}{|\mathcal V|} \sum_{v_i\in \mathcal V} \tanh\left(\mathbf W \mathbf{\vec z}_i^\Phi + \mathbf{\vec b}\right)$ $\mathbf{\vec q}$ 计算内积。
metapath $\mathbf W$ $\mathbf W_\phi$ $\mathbf{\vec z}_i^\phi$ 已经被投影到相同的特征空间了。
在得到每个 metapath 重要性之后，我们通过 softmaxmetapath $\Phi_i$ $\beta_{\Phi_i}$ 为：
$β_{Φ_{i}} = \frac{\exp (w_{Φ_{i}})}{\sum_{j = 1}^{P} \exp (w_{Φ_{j}})}$
$\beta_{\Phi_i}$ metapath $\Phi_i$ $\beta_{\Phi_i}$ metapath $\Phi_i$ metapath $\Phi_i$ 可以具有不同的权重。
使用学到的权重作为系数，我们可以融合这些 semantic-specifc node embedding，从而得到最终的 embedding 为：
$Z = \sum_{i = 1}^{P} β_{Φ_{i}} Z_{Φ_{i}}$
为更好地理解 sementic-level 聚合过程，我们在下图的 (b) 中进行简要说明。最终的 embedding 由所有 semantic-specific node embedding进行聚合。
对于不同的任务，我们可以设计不同的损失函数。对于半监督节点分类任务，我们可以使用交叉熵损失函数：
$L = - \sum_{v \in V_{Y}} {\vec{y}}_{v} \cdot \ln ({\vec{θ}}_{c} \cdot {\vec{z}}_{v})$
其中：
- $\mathcal V_Y$ 为所有的标记节点集合。
- $\mathbf{\vec y}_v$ $v$ 的真实label 的 one-hot 向量。
- $\mathbf{\vec z}_v$ $v$ 的 embedding向量。
- $\vec\theta_c$ 为分类器的参数。
在标记数据的指导下，我们可以通过反向传播优化 HAN 模型，并学习 node embedding 。
HAN 算法：
- 输入：
  - $\mathcal G = (\mathcal V, \mathcal E)$
  - $\left\{\mathbf{\vec x}_i,v_i\in\mathcal V\right \}$
  - metapath $\{\Phi_0,\Phi_1,\cdots,\Phi_P\}$
  - multi-head $K$
- 输出：
  - node embedding $\mathbf Z$
  - node-levelhead $\left\{\alpha_{i,j}^{\Phi_p,k}\right\}$
  - semantic-level $\{\beta_{\Phi_p}\}$
- 算法步骤：
  - metapath $\Phi \in \{\Phi_0,\Phi_1,\cdots,\Phi_P\}$ ，迭代过程为：
    - $k=1,\cdots,K$ ，迭代过程为：
      - type-specific $\mathbf{\vec x}_i^\prime \leftarrow \mathbf M_{\Phi } \mathbf{\vec x}_i$
      - $v_i\in \mathcal V$ ：
        metapath-based $\mathcal N_i^\Phi$
        $v_j\in \mathcal N_i^\Phi$ $\alpha_{i,j}^\Phi$ ：
        $α_{i, j}^{Φ} = {softmax}_{j} (e_{i, j}^{Φ}) = \frac{\exp (σ ({\vec{a}}_{Φ} \cdot [{\vec{x}}_{i}^{'} | | {\vec{x}}_{j}^{'}]))}{\sum_{k^{'} \in N_{i}^{Φ}} \exp (σ ({\vec{a}}_{Φ} \cdot [{\vec{x}}_{i}^{'} | | {\vec{x}}_{k^{'}}^{'}]))}$
        计算 semantic-specific 节点 embedding：
        ${\vec{z}}_{i}^{Φ} \leftarrow σ (\sum_{j \in N_{i}^{Φ}} α_{i, j}^{Φ} {\vec{x}}_{j}^{'})$
    - 拼接多头学到的 semantic-specific 节点 embedding：
      ${\vec{z}}_{i}^{Φ} = ∥_{k = 1}^{K} σ (\sum_{j \in N_{i}^{Φ}} α_{i, j}^{Φ, k} {\vec{x}}_{j}^{'})$
  - metapath $\Phi_i$ $\beta_{\Phi_i}$ ：
    $β_{Φ_{i}} = \frac{\exp (w_{Φ_{i}})}{\sum_{j = 1}^{P} \exp (w_{Φ_{j}})}$
  - semantic-specific node embedding $\mathbf Z \leftarrow \sum_{i=1}^P \beta_{\Phi_i} \mathbf Z_{\Phi_i}$
  - $\mathcal L = -\sum_{v\in \mathcal V_Y} \mathbf{\vec y}_v\cdot \ln\left(\vec\theta_c\cdot\mathbf{\vec z_v}\right)$
  - 反向传播并更新参数
  - $\mathbf Z$ $\left\{\alpha_{i,j}^{\Phi_p,k}\right\}$ $\{\beta_{\Phi_p}\}$

21.1.3 分析

HAN 可以处理异质图中各种类型的节点和各种类型的关系，并融合了丰富的语义信息。信息可以通过多种关系从一种类型的节点传播到另一种类型的节点。得益于这种异质的图注意力网络，不同类型节点的 embedding 能够不断相互促进提升。
HAN 是高效的，可以轻松并行化。每个节点的注意力可以独立地并行化，每条 metapath 的注意力也可以独立地计算。
metapath $\Phi$ node-level $O(|\mathcal V_\Phi| F_1F_2 K + |\mathcal E_\Phi| F_1 K)$ ，其中：
- $|\mathcal V_\Phi|$ metapath $\Phi$ $|\mathcal E_\Phi|$ metapath $\Phi$ 的节点 pair 对的数量。
- $K$ 为 multi-head 的数量。
- $F_1, F_2$ $\mathbf M_{\Phi}$ 的行数和列数。
总体复杂度和metapath 中节点数量成线性，和 metapath 中节点pair 对的数量成线性。
分层注意力的参数在整个异质图上共享，这意味着 HAN 的参数规模不依赖于异质图的大小，并且 HAN 可以应用于 inductive learning 。
HAN 对于学到的node embedding具有潜在的良好解释性，这对于异质图的分析是一个很大的优势。
有了节点重要性和 metapath 重要性，HAN 可以在具体任务下更关注于一些有意义的节点或 metapath，并给异质图一个更全面的描述。
根据注意力值，我们可以检查哪些节点或 metapath 为任务做出了更多（或更少）的贡献，这有助于分析和解释我们预测的结果。

21.2 实验

数据集：
- DBLP：我们提取了 DBLP 的子集，其中包含 14328 篇论文（paper:P）、 4057 位作者(author:A)、20个会议(conference:C)、8789 个术语 (term:T) 。作者分为四个领域：数据库 database、数据挖掘 data mining、机器学习 machine learning、信息检索 information retrieval。我们根据作者提交的会议来标记每个作者的研究领域。
  作者的特征是他们发表文档的关键词的 bag-of-wordmetapath $\{\text{APA},\text{APCPA},\text{APTPA}\}$ 进行实验。
- ACM：我们提取在 KDD, SIGMOD, SIGCOMM, MobiCOMM, VLDB 中发表的论文，并将论文分为三个类别：数据库 database、无线通信 wireless commmunication、数据挖掘 data mining。然后我们构建一个包含 3025 篇论文（paper:P）、5835名作者（auther:A）、56个主题（subject:S）的异质图，论文标签为它被发表的会议。
  论文的特征为关键词的 bag-of-wordmetapath $\{\text{PAP},\text{PSP}\}$ 进行实验。
- IMDB：我们提取 IMDB 的子集，其中包含 4780 部电影（movie:M）、5841 名演员（actor:A）、2269 位导演（director:D）。电影根据类型分为三个类别：动作片 Action、喜剧 Comedy、戏剧 Drama。
  电影的特征为电影情节的 bag-of-wordmetapath $\{\text{MAM},\text{MDM}\}$ 进行实验。
数据集的统计结果如下所示：
baseline 方法：我们和一些最新的 baseline 方法比较，其中包括：同质网络 embedding、异质网络 embedding、基于图神经网络的方法。为分别验证 node-level 注意力和 semantic-level 注意力，我们还测试了 HAN 的两个变体。
- DeepWalk：一种基于随机游走的网络 embedding 方法，仅用于同质图。这里我们忽略节点的异质性，并在整个异质图上执行 DeepWalk。
- ESim：一种异质图的embedding 方法，可以从多个 metapath 捕获语义信息。
  由于难以搜索一组 metapath 的权重，因此我们将 HAN 学到的 metapath 权重分配给ESim 。
- metapath2vec：一种异质图 embedding 方法，该方法执行metapath-based 随机游走，并利用 skip-gram 嵌入异质图。
  这里我们测试 metapath2vec 的所有 metapath并报告最佳性能。
- HERec：一种异质图 embedding方法，该方法设计了一种类型约束策略来过滤节点序列，并利用 skip-gram 来嵌入异质图。
  这里我们测试了HERec 的所有metapath并报告了最佳性能。
- GCN：用于同质图的半监督图神经网络。
  这里我们测试了 GCN 的所有 metapath，并报告了最佳性能。
- GAT：用于同质图的半监督神经网络，它考虑了图上的注意力机制。
  这里我们测试了 GAT 的所有 metapath，并报告了最佳性能。
- $\text{HAN}_{\text{nd}}$ ：HAN 的一个变体，它移除了 node-level注意力机制，并给节点的每个邻域赋予相同的权重。
- $\text{HAN}_{\text{sem}}$ ：HAN 的一个变体，它移除了 semantic-level 注意力机制，并给每个metapath 赋予相同的权重。
- HAN：我们提出的半监督图神经网络，它同时采用了 node-level 注意力和 semantic-level 注意力。
这里有些 baseline 是无监督的、有些是半监督的。将半监督方法和无监督方法进行比较是不公平的，因为半监督方法可以获得部分的 label 信息，因此半监督方法通常都会比无监督方法更好。
实验配置：
- HAN：
  - 随机初始化参数并使用 Adam 优化器，学习率为 0.005，正则化参数为 0.001。
  - semantic-level $\mathbf{\vec q}$ 的维度为 128multi-head $K=8$
  - attention dropout 比例为 dropout rate = 0.6
  - 执行早停策略，早停的 patience = 100。即：如果 100 个连续的 epoch 中，验证集损失没有降低则停止训练。
- 对于 GCN,GAT，我们使用验证集来调优其超参数。
- 对于 GCN,GAT,HAN 等半监督图神经网络，我们使用完全相同的训练集、验证集、测试集，从而确保公平性。
- 对于 DeepWalk, ESim, metapath2vec, HERec 等基于随机游走的方法，我们将每个节点开始的随机游走数量设为 40，每个随机游走序列长度为 100，上下文窗口大小为 5，负样本的采样数量为 5 。
- 为公平起见，我们将上述所有方法的 embedding 维度设为 64 。

21.2.1 分类任务

$k=5$ 的 KNN 分类器对节点进行分类，分类器的输入为模型学到的node embedding。由于图结构数据的方差可能很大，因此我们重复该过程 10 次，并报告平均的 Macro-F1 和 Micro-F1 。
- HAN 在所有数据集中超越了其它baseline 。
- 对于传统的异质图 embedding 方法，能够利用多个 metapath 的 ESim 比 metapath2vec 表现更好。
- 通常结合了图结构信息性和节点特征信息的图神经网络（如 GCN,GAT）要优于异质图 embedding 方法。
- GCN $\text{HAN}_{\text{nd}}$ 这些考虑节点邻居的均匀权重，GAT 和 HAN 可以对邻居进行适当地加权，从而提高了学到的 embedding 的性能。
- 和 GAT 相比，为异质图设计的 HAN 能够成功地捕获丰富的语义信息并展示其优越性。
- node-level $\text{HAN}_{\text{nd}}$ semantic-level $\text{HAN}_{\text{sem}}$ ）的情况下，二者性能会比 HAN 更差。这表明 node-level 注意力建模和 semantic-level 注意力建模的重要性。
- 相比 DBLP，HAN 在 ACM,IMDB 数据集的效果提升更明显，这是因为在 DBLP 中， metapath APCPA 比其它的 metapath 重要得多，因此仅针对该 metapath 的 HERec/GCN/GAT 已经能够取得很好的效果。。我们在下文通过分析 semantic-level 注意力来解释该现象。
因此，结论证明了在异质图中捕获node-level 和 semantic-level 的重要性非常重要。

21.2.2 聚类

我们还对学到的node embedding执行聚类，从而评估embedding 的聚类效果。这里我们使用 KMeans 聚类算法，聚类数量设为节点的类别数量。我们使用节点的真实类别为真实的聚类类别，并使用 NMI 和 ARI 来评估聚类结果的质量。
- 归一化互信息 NMI：
  $NMI(X, Y) = 2 \frac{I (X, Y)}{H (X) + H (Y)}$
  $H(X) = -\sum_{i}p(x_i)\log p(x_i)$ $I(X,Y) = \sum_x\sum_y p(x,y)\log \frac{p(x,y)}{p(x)p(y)}$ 为互信息。
- ADjusted Rand index:ARI：
  $\begin{matrix} RI = \frac{a + b}{C_{2}^{n}} \\ ARI = \frac{RI - E [RI]}{max (RI) - E [RI]} \end{matrix}$
  其中：
  - $C_2^n$ $n$ 为标记节点数量。
  - $a$ $b$ 为真实类别不同的一对节点、且聚类类别也不同的节点对的数量。
  - $\max(\text{RI})$ RI $\mathbb E[\text{RI}]$ 为随机拆分的 RI 指标的期望。这是为了使得随机聚类的情况下该指标为零。
由于 KMeans 的性能受到初始质心的影响，因此我们将该过程随机重复执行 10 次，并报告平均结果。
结论：
- HAN 在所有数据集上始终优于其它 baseline 。
- 基于图神经网络的算法通常可以获得更好的性能。
- 由于不区分节点和 metapath 的重要性，因此 metapath2vec 和 GCN 的聚类效果较差。
- 在多个 metapath 的指导下，HAN 的性能明显优于 GCN/GAT。
- node-level $\text{HAN}_{\text{nd}}$ semantic-level $\text{HAN}_{\text{sem}}$ ），则 HAN 的性能会退化。这表明 node-level 注意力建模和 semantic-level 注意力建模的重要性。
基于上述分析，我们发现 HAN 可以对异质图进行全面描述，并取得显著改善。

21.2.3 分层 attention

HAN 的一个显著特性是结合了分层 attention 机制，从而在学习 embedding 时同时考虑了节点邻居的重要性和 metapath 的重要性。为了更好地理解邻居重要性和 metapath 重要性，我们对分层注意力机制进行详细的分析。
node-level 注意力：如前所述，HAN 可以学到 metapath 中节点及其邻居之间的注意力值。对于具体的任务，重要的邻居往往具有更大的注意力值。
这里我们以 ACM 数据集中的论文 P831 为例。给定一个描述不同论文的 author 关系的 metapath Paper-Author-Paper ，我们枚举了论文 P831 的 metapath-based 邻居，其注意力值如下图所示。不同颜色表示不同的类别，如绿色表示数据挖掘、蓝色表示数据库、橙色表示无线通信。
- 从图 a 中可以看到：
  - P831 链接到 P699 和 P133，它们都属于数据挖掘。
  - P831 链接到 P2384 和 P2328，它们都属于数据集。
  - P831 和 P1973 相连，它们都属于无线通信。
- 从图 b 中可以看到：
  - P831 从node-level 注意力中获得最大的注意力值，这意味着 P831 自身在学习其 embedding 中起着最重要的作用。
    这是合理的，因为通常节点类别主要由其本身的特性决定，而邻居信息仅作为一种补充。
  - P699 和 P133 在 node-level 注意力种获得第二、第三大的注意力值。这是因为 P699 和 P133 也属于数据挖掘，它们为识别 P831 的类别做出重大贡献。
  - 其余邻居的注意力较小，无法为识别 P831 的类别做出重要贡献。
根据以上分析，我们可以看到 node-level 注意力可以区分邻居之间的差别，并为某些有意义的邻居分配更大的权重。
semantic-level 注意力：如前所述，HAN 可以学到 metapath 对特定任务的重要性。为验证 semantic-level 注意力的能力，我们以 DBLP 和 ACM 为例，给出了单个 metapath 聚类结果（NMI），以及对应注意力值。
- 显然，单个 metapath 的性能和它的注意力权重之间存在正相关。
- 对于 DBLP，HAN 赋予 APCPA 更大的权重，这意味着 HAN 认为 APCPA 是确定作者研究领域的最关键的 metapath。这是有道理的，因为作者的研究领域和他们提交的会议是高度相关的。如，一些 NLP 研究人员主要将其论文提交给 ACL 或 EMNLP；另一些数据挖掘研究人员可能将其论文提交给 KDD 或 WWW 。
  另外，APAmetapath $\text{HAN}_{\text{sem}}$ ），则模型性能大大下降。
  根据每个 metapath 的注意力值，我们发现 metapath APCPA 比 APA, APTPA 有用的多。因此，即使 HAN 将这些 metapath 聚合在一起，APCPA 在确定作者研究领域方面仍然起着主导作用。
  这也是为什么在 DBLP 中，HAN 性能可能不如 ACM 和 IMDB 中提升得那么多。
- 对于 ACM，我们也得出类似得结论。对于 ACM，PAP 的权重更高。
  由于 PAPPSP $\text{HAN}_{\text{sem}}$ 可以通过简单的平均操作获得良好的性能。

21.2.4 可视化

为直观地进行比较，我们执行可视化任务，从而在低维空间中可视化异质图。具体而言，我们基于模型学习节点 embedding，并将学到的 embedding 映射到二维空间。这里，我们使用 t-SNE 来可视化 DBLP 的 author 节点，并根据节点类别来进行染色。
结论：
- 为同质图设计的 GCN 和 GAT 效果不佳，属于不同研究领域的作者彼此混杂。
- metapath2vec 的性能比上述同质图的神经网络效果好得多，它表明适当的 metapath（如 APCPA）对异质图分析做出重要贡献。
  但是，由于 metapath2vec 仅考虑一条 metapath，因此不同类别节点之间的边界仍然模糊。
- HAN 的可视化效果最好。在多种 metapath 指导下，HAN 学到的 embedding 具有高度的簇内相似性，并将具有不同研究领域学者的边界的区分开来。

21.2.5 参数敏感性

这里我们研究参数敏感性，并报告了不同参数下，ACM 数据集上的聚类NMI 结果。
embedding $\mathbf Z$ 的维度：可以看到，随着 embedding 维度的增加，HAN 性能先提高后下降。
原因是：HAN 需要一个合适的维度来编码语义信息，但是维度过大之后可能会引入额外的冗余（即，过拟合）。
semantic-level 注意力向量维度：可以看到，HANsemantic-level $\mathbf{\vec q}$ 维度的增加而增加，当维度为 128 时达到最佳性能；然后随着维度的增加而下降，这可能是因为过拟合导致。
multi-head $K$ $K$ HAN $K$ 的增加， HAN 的性能略有改善（改善幅度不大）。同时，我们还发现 multi-head attention 可以使得训练过程更为稳定。
$K=1$ 时，multi-head 退化为单头。

二十二、HetGNN[2019]

异质图heterogeneous graph: HetG 包含多种类型的节点，以及节点之间的多种关系。如下图的学术网络包含了 author 节点、 paper 节点以及 venue 节点，并包含了 author 和 paper 之间的 write 关系、paper 和 paper 之间的 cite 关系、paper 和 venue 之间的 publish 关系。此外，节点还具有属性（author id）以及文本（论文摘要）等特征。异质图的这种普遍性导致大量的研究开始涌入相应的图挖掘方法和算法，例如关系推理relation inference、个性化推荐、节点分类等等。
传统的异质图任务中，很多方法都依赖于从手工特征中得到特征向量。这种方式需要分析和计算有关异质图的不同统计特性和属性，从而作为下游机器学习任务的特征向量。但是这种方式仅局限于当前任务，无法推广到其它任务。近期出现的representation learning 方法使得特征工程自动化，从而促进下游的机器学习任务。从同质图开始，graph representation learning 已经扩展到异质图、属性图、以及特定的图。例如：
- shallow model （如 DeepWalk）最初是为了将图上的短随机游走的集合提供给 SkipGram 模型，从而近似approximate 这些游走中的节点共现概率 node co-occurrence probability 并获得 node embedding 。
- 随后，人们提出了语义感知semantic-aware 方法（如 metapath2vec），从而解决异质图中的节点异质性node heterogeneity和关系异质性 relation heterogeneity 。
- 此外，内容感知方法（如 ASNE）利用latent feature 和属性来学习图中的 node embedding 。
这些方法直接学习节点的潜在 embedding，但是在捕获丰富的邻域信息方面受到限制。图神经网络 GNN 采用深度神经网络来聚合邻域节点的特征信息，这使得 aggregated embedding 更加强大。此外，GNN 可以自然地应用于 inductive 任务，该任务涉及到训练期间 unseen 的节点。例如，GCN, GraphSAGE, GAT 分别采用卷积操作、LSTM 架构、以及注意力机制来聚合邻域节点的特征信息。GNN 的进步和应用主要集中在同质图上。但是，当前state-of-the-art的 GNN 无法解决异质图学习的以下问题：
- 问题 C1：异质图中很多节点连接到多种类型的邻居，连接的邻居节点的种类和数量可能各不相同。例如，下图中节点 a 有 5 个直接邻居而节点 c 只有 2 个直接邻居。
  现有的大多数 GNN 仅聚合直接邻域的特征信息，而特征传播过程可能会削弱更远邻域的影响。此外，hub 节点的 embedding 生成受到弱相关的邻居（即，噪声邻居）的影响，并且“冷启动”节点的 embedding 无法充分地被表达（由于邻域信息有限所导致）。
  第一个问题是：如何对每个节点采样和它 embedding 最相关的异质邻居？如下图中的 C1 阶段所示。
- 问题 C2：异质图中的节点可能具有非结构化的异质内容，如属性、文本、图像等。另外，不同类型节点关联的内容可能有所不同。如下图中：
  - type-1 的节点（如 b,c）关联的内容为属性、文本。
  - type-2 的节点（如 f,g）关联的内容为属性、图像。
  - type-k 的节点（如 d,e）关联的内容为文本、图像。
  当前 GNN 的直接拼接操作或者线性变换操作无法对节点异质内容之间的深层交互 deep interaction进行建模。而且，由于不同类型节点的内容多种多样，因此针对所有类型节点使用相同的特征变换函数是不合适的。第二个问题是：如何设计节点内容encoder，从而编码异质图中不同节点的内容异质性？如下图中的 C2 阶段所示。
- 问题 C3：不同类型的邻居对异质图中node embedding 的贡献不同。如学术网络中，author 和 paper 类型的邻居对 author 节点的 embedding 产生更大的影响，因为 venue 类型的节点包含多样化的主题因此具有更 general 的 embedding 。当前大多数 GNN 仅关于同质图，并未考虑节点类型的影响。第三个问题是：如何考虑不同类型节点的影响，从而聚合异质邻居的特征信息。如下图中的 C3 阶段所示。
为解决这些问题，论文 《Heterogeneous Graph Neural Network》 提出了 heterogeneous graph neural network: HetGNN。 HetGNN 是一种用于异质图的 representation learning 图神经网络模型。
- 首先，作者设计了一种基于重启的随机游走策略，从而对异质图中每个节点采样固定大小的、强相关的异质邻域，并根据节点类型对其进行分组。
- 然后，作者设计了一个具有两个模块的异质图神经网络体系结构，从而聚合上一步中采样到的邻居的特征信息。
  - 第一个模块采用 RNN 对异质内容的 deep interaction 进行编码，从而获得每个节点的内容 embedding 。
    因为单个节点可能具有多个内容（既有文本又有图像），因此需要通过一个模块来融合多种不同的内容从而得到内容 embedding 。
  - 第二个模块采用另一个 RNN 来聚合不同分组邻居的内容 embedding，然后通过注意力机制将其进一步组合，从而区分不同异质节点类型的影响，并获得最终 embedding 。
- 最后，论文利用图上下文损失 graph context loss 和 mini-batch 随机梯度下降来训练模型。
总而言之，论文的主要贡献：
- 论文形式化了异质图 representation learning 的问题，该问题涉及到图结构异质性和节点内容异质性。
- 论文提出了一种创新的异质图神经网络模型heterogeneous graph neural network model: HetGNN，用于异质图上的 representation learning 。HetGNN 能够捕获结构异质性和内容异质性，并对 transductive task 和 inductive task 都很有用。下表总结了 HetGNN 与最近的一些模型（包括同质图模型、异质图模型、属性图模型、以及图神经网络模型）相比的主要优势。
- 论文在几个公共数据集上进行了广泛的实验，结果表明：HetGNN 在各种图数据挖掘任务（链接预测、推荐、节点分类、聚类）中可以超越 state-of-the-art 的 baseline 方法。
相关工作：
- 异质图挖掘heterogeneous graph mining：在过去的十年中，许多工作致力于挖掘异质图从而用于不同的 application ，如关系推断、个性化推荐、节点分类等等。
  - 《When will it happen?: relationship prediction in heterogeneous information networks》 利用 metapath-based 方法来抽取拓扑特征并预测学术图academic graph中的引用关系。
  - 《Task-Guided and Path-Augmented Heterogeneous Network Embedding for Author Identification》 设计了一个基于异质图的 ranking model 来识别匿名论文的作者。
  - 《Deep Collective Classification in Heterogeneous Information Networks》 提出了一种深度卷积分类模型，用于异质图中的 collective classification 。
- 图表示学习 graph representation learning：graph epresentation learning 已经成为过去几年最流行的数据挖掘主题之一。人们提出了基于图结构的模型来学习向量化的 node embedding 从而进一步用于下游各种图挖掘任务。
  - 受到 word2vec 的启发，《Deepwalk: Online learning of social representations》 创新性地提出了 DeepWalk，它在图中引入了 node-context 的概念（类比于 word-context），并将图上的随机游走的集合（类比于 sentence 集合）提供给 SkipGram 从而获得 node embedding 。
  - 后来，为了解决图结构的异质性，《metapath2vec: Scalable Representation Learning for Heterogeneous Networks》 引入了 metapath-guided 随机游走，并提出 metapath2vec 模型来用于异质图中的 representation learning 。
  - 此外，人们已经提出了属性图嵌入模型（《Attributed network embedding for learning in a dynamic environment》、《Attributed social network embedding》、《SHNE: Representation Learning for Semantic-Associated Heterogeneous Networks》）来利用图结构和节点属性来学习 node embedding 。
  - 除了这些方法之外，人们还提出了许多其它方法（《Heterogeneous network embedding via deep architectures》、《Hierarchical Taxonomy Aware Network Embedding》、《Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec》、《Pte: Predictive text embedding through large-scale heterogeneous text networks》、《Learning Deep Network Representations with Adversarially Regularized Autoencoders》）。
- 图神经网络 graph neural networks：最近，随着深度学习的出现，图神经网络获得了很多关注。与之前的 graph embedding 模型不同，GNN 背后的关键思想是：通过神经网络从节点的局部邻域中聚合特征信息。
  - Graph-SAGE 使用神经网络（如 LSTM）来聚合邻域的特征信息。
  - GAT 使用自注意力机制来衡量不同邻居的影响力，并结合它们的影响力来获得 node embedding 。
  - 此外，人们已经提出了一些 task dependent 的方法从而为特定任务获得更好的 node embedding ，例如用于恶意账户检测的 GEM （《Heterogeneous Graph Neural Networks for Malicious Account Detection》）。

22.1 模型

content associated heterogeneous graph:C-HetG $\mathcal G = (\mathcal V,\mathcal E,\mathcal A,\mathcal R)$ $\mathcal V$ $\mathcal E$ $\mathcal A$ $\mathcal R$ 为关系类型集合。图中每个节点关联了异质内容信息，例如属性 attribute、文本 text、图像 image 。
C-HetG $\mathcal G$ Heterogenous Graph Representation Learning $\mathcal F_\Theta$ embedding $\Theta$ 为模型参数。
学到的 node embedding 可以应用于下游各种图挖掘任务，如链接预测、推荐、多标签分类、节点聚类等。
我们首先给出 HetGNN 的整体框架如下图所示，其中包含四个部分：对异质邻居节点进行采样、编码节点的异质内容、聚合节点的异质邻居、定义目标函数并给出训练过程。
下图中：
- 图 (a) 为整体框架：
  - 首先为每个节点（以节点 a 为例）采样固定数量的异质邻居节点。
  - 然后通过 NN-1 神经网络编码每个节点的异质内容。
  - 然后通过 NN-2 神经网络和 NN-3 神经网络来聚合采样到的异质邻居节点的内容 embedding。
  - 最后通过图上下文损失函数来优化模型。
- 图 (b) 为NN-1 神经网络，它是节点异质内容编码器。
- 图 (c) 为 NN-2 神经网络，它是 type-based 邻域聚合器。
- 图 (d) 为 NN-3 神经网络，它是异质类型组合器。

22.1.1 异质邻居采样

大多数神经网络GNN 的关键思想是聚合来自节点的直接邻居（一阶邻居）的特征信息，如 GraphSAGE 或 GAT。但是，直接将这些方法应用到异质图可能会引起一些问题：
- 它们无法从不同类型的异质邻居的直接链接中捕获充分的信息。如，在学术网络中，author 并未和其它 author 或 venue 直接相连，但是可能存在间接连接。如果仅考虑直接连接的邻居，则可能导致学到的 representation 表达能力不足。
- embedding 可能受到不同邻居规模的影响。如在推荐常见中，某些 item 和很多用户交互，另一些 item 可能只有很少的用户交互。因此：某些热门节点的 embedding 可能会被某些弱相关的邻居而损害，而一些冷门节点的 embedding 可能未能充分学习。
- 无法直接聚合具有不同内容特征的异质邻居。异质邻居的内容可能需要不同的特征变换，从而处理不同的特征类型和特征维度。
针对这些问题并解决问题 C1，我们设计了一种基于重启的随机游走策略random walk with restart: RWR 来对异质邻居进行采样。
RWR 包含两个连续的步骤：
- step1RWR $v\in \mathcal V$ $p$ $v$ $1-p$ 游走到下一个相连的节点。
  RWR $\text{RWR}(v)$ 。
  $\text{RWR}(v)$ $v$ $t\in \mathcal A$ $K_t$ 个。
- step2 $t\in \mathcal A$ $\text{RWR}(t)$ top $k_t$ $k_t\le K_t$ $v$ $t$ 的强相关邻居的集合。
由于下列原因，RWR 策略能够避免上述问题：
- RWR 能够为每个节点收集到所有类型的邻居。
- 每个节点采样的邻居规模是固定的，并且访问最频繁的邻居节点（即最相关的）被挑选出来。
- 根据节点类型对邻居进行分组（每个分组具有相同的内容格式），以便可以设计基于类型的聚合。

22.1.2 异质内容编码

我们设计了一个具有两个模块的异质图神经网络体系结构，从而聚合每个节点的采样后异质邻居的特征信息。
C2 $v\in \mathcal V$ $C_v$ $f_1$ 将其编码为固定大小的 embedding 。
$C_v$ $i$ $\mathbf{\vec x}_{v,i}\in \mathbb R^{d_c}$ $d_c$ $\mathbf{\vec x}_{v,i}$ 可以通过针对不同类型的内容采取不同的技术来预训练得到。如，可以利用 Par2Vec 来预训练文本内容，可以利用 CNN 来预训练图像内容。
之前的一些方法直接拼接不同的内容特征，或者将不同的内容特征经过线性映射到相同的特征空间。和这些方法不同，我们基于 Bi-LSTM 设计了一种新的架构来捕获 deep feature interaction，并获得更强的表达能力。
$v$ 的内容 embedding 为：
${\vec{z}}_{v} = f_{1} (v) = \frac{\sum_{i \in C_{v}} [\vec{LSTM} {F_{C} ({\vec{x}}_{v, i}; θ_{x})} ⨁ \overset{\leftarrow}{LSTM} {F_{C} ({\vec{x}}_{v, i}; θ_{x})}]}{| C_{v} |}$
其中：
- $\mathbf{\vec z}_v\in \mathbb R^d$ $v$ embedding $d$ 为内容 embedding 维度。
- $\mathcal F_C(\cdot;{\theta_x})$ feature transformer $\theta_x$ $\mathbf{\vec x}_{v,i}$ 灌入到 LSTM 之前，首先进行特征变换。
- $\bigoplus$ 表示拼接操作。
具体而言，上述架构首先使用不同的 FC 层来转换不同的内容特征，然后使用 Bi-LSTMdeep feature interaction $v$ 的内容 embedding 。
通过内容拼接然后馈入全连接层也可以捕获 deep feature interaction 。这里用 Bi-LSTMBi-LSTM $C_v$ 从而应用到 Bi-LSTM 中，但是这仅仅是一种变通方案，而没有很好地捕获到内容信息之间的关联（如互补关系、overlap 关系）。
注意：
- Bi-LSTM $C_v$ 上，这是受到 GraphSAGE 在聚合无序邻居的启发。
- 我们使用不同的 Bi-LSTM 来聚合不同类型节点的内容特征，因为它们的内容类型互不相同。
上述内容 embedding 体系结构有三个主要优点：
- 具有较低复杂度的间接架构（参数较少），使得模型的实现和调整都相对容易。
- 能够融合异质内容信息，具有很强的表达能力。
- 增加额外的特征很灵活，使得模型扩展很方便。

22.1.3 异质邻居聚合

为聚合每个节点的异质邻居的内容 embedding（问题 C3），我们设计了另一个type-based 神经网络模块，它包含两个步骤：同一类型的邻居聚合、类型组合。
RWR $t$ top $k_t$ $\mathcal N_t(v)$ $f_2^t$ $\mathcal N_t(v)$ 中邻居节点的 embedding ：
${\vec{n}}_{v}^{t} = f_{2}^{t} (v) = {AGG}_{u \in N_{t} (v)}^{t} {{\vec{z}}_{u}}$
其中：
- $\mathbf{\vec n}_v^t \in \mathbb R^d$ $v$ $t$ embedding $d$ 为聚合后的内容 embedding 维度。
- $\text{AGG}^t(\cdot)$ $t$ 的邻域聚合函数，可以是全连接网络、CNN 网络、或者是 RNN 网络。
  $\text{AGG}^t(\cdot)$ 为 Bi-LSTM，因为实践中它的效果最好。因此：
  ${\vec{n}}_{v}^{t} = \frac{\sum_{u \in N^{t} (v)} [\vec{LSTM} {{\vec{z}}_{u}} ⨁ \overset{\leftarrow}{LSTM} {{\vec{z}}_{u}}]}{| N_{t} (v) |}$
  Bi-LSTM $t$ 的邻居，并使用所有隐状态的均值作为最终聚合的 embedding 。
  注意：
  - 我们使用 Bi-LSTM 来区分不同节点类型的邻域聚合。
  - Bi-LSTM 应用在无序邻居上，这是受到 GraphSAGE 在聚合无序邻居的启发。
type combination $v$ $|\mathcal A|$ embedding $\left\{\mathbf{\vec n}_v^1,\cdots,\mathbf{\vec n}_v^{|\mathcal A|} \right\}$ 。为了结合这些 type-based 邻域聚合 embeddingembedding $v$ final embedding $v$ 的最终 embedding 为：
${\vec{h}}_{v} = α^{v, v} {\vec{z}}_{v} + \sum_{t \in A} α^{v, t} {\vec{n}}_{v}^{t}$
其中：
- $\mathbf{\vec h}_v\in \mathbb R^{d}$ $v$ 的 final embedding 。
- $\alpha^{v,*}$ 给出了不同embedding 的重要性。
- $\mathbf{\vec z}_v$ $v$ embedding $\mathbf{\vec n}_v^t$ $v$ $t$ 的邻域聚合 embedding 。
$v$ embedding $\mathcal F(v) = \left\{\mathbf{\vec z}_v, \mathbf{\vec n}_v^1,\cdots,\mathbf{\vec n}_v^{|\mathcal A|}\right\}$ ，则有：
$α^{v, i} = \frac{\exp (σ (\vec{u} \cdot [{\vec{f}}_{i} ⨁ {\vec{z}}_{v}]))}{\sum_{{\vec{f}}_{j} \in F (v)} \exp (σ (\vec{u} \cdot [{\vec{f}}_{j} ⨁ {\vec{z}}_{v}]))}$
其中：
- $\sigma(\cdot)$ 为激活函数，这里我们选择 LeakyReLU。
- $\mathbf{\vec f}_i\in \mathcal F(v)$ $\mathcal F(v)$ $i$ 个 embedding 向量。
- $\mathbf{\vec u}\in \mathbb R^{2d}$ 为注意力向量attention vector，是待学习的参数。
embedding $d$ 来作用于内容 embedding、节点邻域聚合 embedding、节点 final embedding 。

22.1.4 模型训练

为学习异质图的 node embedding，我们定义目标函数为：
$L = \prod_{v \in V} \prod_{t \in A} \prod_{v_{c} \in C_{v}^{t}} p (v_{c} ∣ v; Θ)$
其中：
- $\mathcal C_v^t$ $v$ $t$ $c$ 之内的邻居节点）。
- $p(v_c\mid v;\Theta)$ 定义为异质 softmax 函数：
  $p (v_{c} ∣ v; Θ) = \frac{\exp ({\vec{h}}_{v_{c}} \cdot {\vec{h}}_{v})}{\sum_{v_{k} \in V_{t}} \exp ({\vec{h}}_{v_{k}} \cdot {\vec{h}}_{v})}$
  $\mathcal V_t$ $t$ $\mathbf{\vec h}_v$ $v$ 的 final embedding 。
$p(v_c\mid v;\Theta)$ 为：
$p (v_{c} ∣ v; Θ) = \log σ ({\vec{h}}_{v_{c}} \cdot {\vec{h}}_{v}) + \sum_{m = 1}^{M} E_{v_{c^{'}} \sim P_{t} (v_{c^{'}})} \log σ (- {\vec{h}}_{v_{c^{'}}} \cdot {\vec{h}}_{v})$
其中：
- $P_t(v_{c^\prime})$ $t$ $v_c$ 类型相同）的噪音分布 noise distributioin 。
- $M$ $M=1$ $M\gt 1$ 对于最终效果影响很小。因此上式降级为交叉熵损失函数：
  $p (v_{c} ∣ v; Θ) ≃ \log σ ({\vec{h}}_{v_{c}} \cdot {\vec{h}}_{v}) + \log σ (- {\vec{h}}_{v_{c^{'}}} \cdot {\vec{h}}_{v})$
  $v$ $v_c$ $t$ $P_t(v_{c^\prime})$ $t$ $v_{c^\prime}$ 。
最终我们的损失函数为：
$L = \sum_{< v, v_{c}, v_{c^{'}} >\in T_{walk}} [\log σ ({\vec{h}}_{v_{c}} \cdot {\vec{h}}_{v}) + \log σ (- {\vec{h}}_{v_{c^{'}}} \cdot {\vec{h}}_{v})]$
$T_\text{walk}$ $<v,v_c,v_{c^\prime}>$ 三元组的集合。
$v_c$ $v_{c^\prime}$ $t$ 。此外，这里仅考虑无监督损失，并未考虑监督损失。
DeepWalk $T_\text{walk}$ ：
- $\mathcal S$ 。
- $\mathcal S$ $i$ $S_i$ $v$ $c$ $v_c$ 。
- $v_c$ $P_t(v_{c^\prime})\propto g_{v_{c^\prime}}^{3/4}$ $v_c$ $v_{c^\prime}$ $g_{v_{c^\prime}}$ $v_{c^\prime}$ degree $\mathcal S$ 中出现的频次。
$T_\text{walk}$ 随机采样 mini-batch 的三元组，然后通过 Adam 优化器来更新模型参数。我们反复迭代直到模型收敛为止。

22.2 实验

这里我们进行广泛的实验：
- HetGNN 在各种图挖掘任务中和 state-of-the-art baseline 方法的比较，如链接预测、个性化推荐、节点分类&聚类任务。
- HetGNN 在 inductive learning 任务中和 state-of-the-art baseline 方法的比较，如 inductive 节点分类&聚类任务。
- HetGNN 中不同组件（如异质节点内容编码器，异质邻域聚合器）对模型性能的影响。
- HetGNN 中各种超参数（如embedding 维度、异质邻居采样大小）对模型性能的影响。
数据集：我们采用两种异质图数据集：学术图 academic graph、评论图 review graph。
- 学术图：我们从 AMiner 数据集中抽取两个数据集：
  - A-I 包含 1996 ~ 2005 年之间计算机科学会议的论文。
  - A-II 包含 2006 ~ 2015 年之间若干个人工智能和数据科学相关的顶会的论文，因为考虑到大多数研究人员关注于顶会的论文。
  每篇论文都有各种内容信息，包括：标题、摘要、作者、参考文献、年份、所属会议。
- 评论图：我们从公开的 Amazon 数据集抽取了两个数据集，即 R-I（电影类别的评论）、R-II（CD 类别的评论）。数据集包含 1996-05 ~ 2014-07 之间用户的评论信息、商品元数据信息。
  每个商品都有各种内容信息，包括：标题、描述文本、类型、价格、图片。
下表给出了这四个数据集的主要统计信息：
内容特征编码：
- 在学术网络中，我们使用 ParVec 预训练论文的标题和摘要。此外，我们还使用 DeepWalk 来预训练异质图中所有节点的 embedding （将异质图视为同质图来训练）。
  - 每个作者节点关联一个预训练的 author embedding （通过 DeepWalk 得到）、作者的所有论文（经过采样之后）的论文摘要 embedding 均值（通过 ParVec 得到）、作者的所有论文（经过采样之后）的论文标题 embedding 均值。因此，作者的内容编码器的 Bi-LSTM 的长度为 3 。
  - 每篇论文关联一个预训练的 paper embedding （通过 DeepWalk 得到）、论文的摘要 embedding（通过 ParVec 得到）、论文的标题 embedding （通过 ParVec 得到）、论文作者预训练 embedding 的均值（通过 DeepWalk 得到，一篇论文可能有多个作者）、论文会议的预训练 embedding （通过 DeepWalk 得到）。因此，论文的内容编码器的 Bi-LSTM 的长度为 5 。
  - 每个会议节点关联一个预训练的会议 embedding（通过 DeepWalk 得到）、会议中随机抽取的论文的摘要的平均 embedding（通过 ParVec 得到）、会议中随机抽取的论文的标题的平均 embedding （通过 ParVec 得到）。因此，会议的内容编码器的 Bi-LSTM 的长度为 3 。
- 在评论网络中，我们使用 ParVec 预训练商品标题和描述内容，用 CNN 预训练商品图片。此外，我们还使用 DeepWalk 来预训练异质图中所有节点的 embedding （将异质图视为同质图来训练）。
  - 每个用户关联一个预训练的用户 embedding （通过 DeepWalk 得到）、所有用户评论过的（经过采样之后）商品的描述文本 embedding 均值（通过 ParVec 得到）、所有用户评论过的（经过采样之后）商品的图片 embedding 均值（通过 CNN 得到）。因此，用户的内容编码器的 Bi-LSTM 长度为 3 。
  - 每个商品关联一个预训练的 item embedding（通过 DeepWalk 得到）、商品描述文本的 embedding （通过 ParVec 得到）、商品图片的 embedding （通过 CNN 得到）。因此，商品的内容编码器的 Bi-LSTM 长度为 3 。
baseline 方法：我们使用5 个 baseline，包括异质图 embedding 模型、属性网络模型、图神经网络模型。
- metapath2vec: MP2V：一个异质图 embedding 模型，它基于 metapath 指导的随机游走来生成随机游走序列，并通过 SkipGram 模型来学习node embedding 。
- ASNE：一种属性网络 embedding 方法，它使用节点的潜在特征和属性来学习node embedding 。
- SHNE：一种属性网络 embedding 方法，它通过联合优化图结构邻近性和文本语义相似性，从而学习文本相关的异质图的node embedding 。
- GraphSAGE：一个图神经网络模型，它聚合了邻居的特征信息。
- GAT：一个图注意力网络模型，它通过 self-attention 机制来聚合邻居的特征信息。
HetGNN 的参数配置：
- embedding 维度为 128 。
- 邻域采样规模：
  - 对于学术网络，邻域采样大小为 23，其中作者节点选择 top-10、论文节点选择 top-10、会议节点选择 top-3 。
  - 对于评论网络，邻域采样大小为 20，其中用户节点选择 top-10、商品节点选择 top-10 。
- RWR $p=0.5$ ，每个节点的 RWR100 $|RWR(v)| = 100$ ）。
- $T_\text{walk}$ 时，每个节点开始的随机游走序列数量为 10，每条随机游走序列长度为 30，上下文窗口大小为 5 。
- 我们使用 Pytorch 来实现 HetGNN，并在 GPU 上进行实验。
baseline 参数配置：
- 为公平起见，所有 baseline 的维度设为 128 。
- 对于 metapath2vec，对于学术网络我们使用三个 metapath：APA（author-paper-author)、 APVPA(author-paper-venue-paper-author)、APPA(author-paper-paper-author) ；对于评论网络我们使用一个 metapath：UIU(user-item-user) 。
  每个节点开始的随机游走序列数量为 10，每条随机游走序列的长度为 30 ，这和 HetGNN 保持一致。
- 对于 ASNE，除了 latent 特征之外，我们使用 HetGNN 相同的内容特征，然后将它们拼接为一个通用的属性特征。
- 对于 SHNE，对于两个数据集我们分别利用论文摘要和商品描述（文本序列 = 100 ）作为 deep semantic 编码器（如 LSTM）的输入。此外，随机游走序列的配置和 metapath2vec 相同。
- 对于 GraphSAGE 和 GAT，我们使用HetGNN 相同的内容特征作为输入特征（拼接为一个通用的属性特征），并将每个节点的采样邻居数量设为和 HetGNN 相同。

22.2.1 链接预测

之前的做法是：随机采样一部分链接进行训练，然后使用剩余链接用于预测。我们认为应该根据时间顺序来拆分训练集和测试集，而不是随机拆分。
- $T_s$ $T_s$ $T_s$ 之后的是测试集。
  A-I $T_s = 2003$ $T_s = 2002$ A-II $T_s = 2013$ $T_s = 2012$ 。
  另外，对于学术图我们仅考虑两种类型的边：作者之间的共同撰写关系(type-1)、作者和论文之间的引用关系（type-2）。
- 对于评论图，我们按顺序拆分。对于 R-I 数据集，根据边的数量拆分比例为 7:3 ，对于 R-II 数据集，根据边的数量拆分比例为 5:5 。
对于测试集：
- 删除测试集中重复的边。
- 随机采样相等数量的“负边”（即不存在的噪音边）加入测试集。
我们使用所有节点 + 训练集的边来学习node embedding，然后使用训练集的链接来训练逻辑回归分类器。逻辑回归分类器的输入为边的 embedding ，每条边的 embedding 是两端node embedding 的逐元素乘积。
最后，我们使用训练好的分类器来评估测试集，评估指标为 AUC 和 F1-Score 。
链接预测结果见下表所示，其中最佳结果以粗体突出显示。
结论：
- 大多数情况下，最好的 baseline 是属性图 embedding 方法或图神经网络方法，这表明融合节点属性或使用深度神经网络能产生更好的node embedding，从而有利于链接预测。
- 在所有情况下，尤其是评论图中，HetGNN 均优于所有 baseline 方法。这证明了HetGNN 是有效的，它产生了针对链接预测任务更有效的node embedding 。

22.2.2 个性化推荐

我们在学术图中评估顶会推荐 (author-venue 链接) 的表现。具体而言，训练数据用于学习node embedding。推荐的ground-truth 为：给定测试集中的顶会，作者在测试数据集中出现（发表过论文）。
A-I $T_s = 2003$ $T_s= 2002$ A-II $T_s = 2013$ $T_s = 2012$ 。
我们采用两个节点的 embedding 内积作为推荐分，并挑选 top-k 推荐分的作者作为推荐列表。对于A-I 数据集，k=5；对于 A-II 数据集， k=3。
推荐的评估指标为 top-k 推荐列表的 Recall(Rec), Precision(Pre), F1-Score ，最终我们给出所有作者的均值作为报告得分。此外，重复的 author-venue pair 将从评估中删除。
个性化推荐结果见下表所示，其中最佳结果以粗体突出显示。
结论：
- 大多数情况下，最好的 baseline 是属性图 embedding 方法或图神经网络方法，这表明融合节点属性或使用深度神经网络能产生更好的node embedding，从而有利于个性化推荐。
- 在所有情况下，尤其是评论图中，HetGNN 均优于所有 baseline 方法。这证明了HetGNN 是有效的，它产生了针对个性化推荐任务更有效的node embedding 。

22.2.3 节点分类&聚类

类似 metapath2vec，我们将 A-II 数据集中的作者分类到四个选定的研究领域：数据挖掘 data mining:DM、计算机视觉computer vision:CV、自然语言处理natural language processing:NLP、数据库 databse:DB 。
具体而言，我们为每个领域选择三个热门会议，每个作者标记为他/她大部分论文所属的领域。如果在这些会议中未发表论文的作者将被剔除评估。如果作者在这些会议的多个领域发表过论文，则作者为多个标签。因此这是一个多标签节点分类问题。
我们从完整数据集中学习node embedding，然后将学到的node embedding 来作为逻辑回归分类器的输入。我们将带标记的节点随机拆分，训练集的大小从 10%~30%，剩余节点作为测试集。评估指标为测试集的 Micro-F1 和 Macro-F1 。
对于节点聚类任务，我们将学到的node embedding 作为聚类模型的输入。这里我们采用 Kmeans 算法作为聚类算法，然后采用 NMI 和 ARI 作为评估指标。
下表给出了所有方法的评估结果，最佳结果以粗体突出显示。
结论：
- 大多数模型在多标签分类任务中表现良好，并得到较高的 Macro-F1 和 Micro-F1 指标。这是因为这四个选定领域的作者彼此完全不同，分类相对容易。
- 尽管如此，HetGNN 在多标签分类和节点聚类方面仍然达到了最佳性能或者可比的性能。这证明了HetGNN 是有效的，它产生了针对节点分类和聚类任务更有效的node embedding 。
此外，我们还通过 tensorflow embedding projector 来可视化四个领域作者的 embedding 。我们随机采样了 100 位作者，如下图所示分别位 2D 可视化和 3D 可视化。
可以看到：同类别作者的 embedding 紧密地聚集在一起，从而证明了学到的node embedding 的有效性。

22.2.4 inductive 节点分类&聚类

该任务的配置和之前的节点分类&聚类任务类似，不同之处在于：我们对 A-II 数据集进行按年份拆分，拆分年份为 2013，然后将 2013 年以及之前的数据作为训练集、之后的数据作为测试集。
我们用训练集中的数据来训练模型并得到训练集中节点的 embedding，然后用训练好的模型来推断测试集中新节点的 embedding 。最后我们使用推断的新node embedding 来作为分类和聚类模型的输入。
注：逻辑回归分类器使用训练集中的节点来训练。
下表给出了inductive 节点分类和聚类任务的结果，其中最佳结果以粗体显示。
结论：
- 大多数模型在inductive 多标签分类任务中表现良好，并得到较高的 Macro-F1 和 Micro-F1 指标。这是因为这四个选定领域的作者彼此完全不同，分类相对容易。
  尽管如此，HetGNN 在 inductive 多标签分类任务中仍然达到了最佳性能或者可比的性能
- HetGNN 在inductive 节点聚类任务中优于所有其它方法。
结果表明HetGNN 模型可以有效地推断新节点的 embedding 。

22.2.5 消融研究

我们考察了HetGNN 模型的几种变体：
- No-Neigh：直接使用异质内容编码来表示每个节点的 embedding，不考虑邻居信息。即：
  ${\vec{h}}_{v} = {\vec{z}}_{v}$
- Content-FC：使用全连接层来作为异质内容编码器，从而代替 Bi-LSTM 。
- Type-FC：使用全连接层来融合不同邻居类型的 embedding，而不是 BiLSTM + attention 。
下图报告了 A-II 数据集（训练集--测试集拆分年份 2013）上链接预测和节点推荐的结果。
结论：
- 大多数情况下，HetGNN 性能优于 No-Neigh，这表明聚合邻域信息对于生成更好的node embedding 是有效的。
- HetGNN 优于 Content-FC，这表明基于 Bi-LSTM 的内容编码要比浅层编码器（如全连接层）要更好，Bi-LSTM 可以捕获深度的内容特征交互。
- HetGNN 优于 Type-FC，这表明在捕获节点类型的影响方面，基于 attention 机制要优于全连接层。

22.2.6 参数敏感性

我们考察 HetGNNembedding $d$ 的影响。我们在 A-II 训练集上评估，训练集--测试集拆分年份位 201323 $d\in \{8,16,32,64,128,256\}$ 。
$d$ 从 8 增加到 256embedding $d$ 进一步增加时，性能变得不变或者更差，这可能是因为过拟合。

我们考察 HetGNN 链接预测和推荐的性能随样本邻域大小的影响。我们在 A-II 训练集上评估，训练集--测试集拆分年份为 2013embedding $d=128$ top $k_t$ ）：


xxxxxxxxxx
6 = 2 (author) + 2 (paper) + 2 (venue)
12= 5 (author) + 5 (paper) + 2 (venue)
17 = 7 (author) + 7 (paper) + 3(venue)
23 = 10 (author) + 10 (paper) + 3 (venue)
28 = 12 (author) + 12 (paper) + 4 (venue)
34 = 15 (author) + 15 (paper) + 4 (venue)

结论：当邻域大小从 6 增加到 34 时，所有指标都会增加，这是因为考虑了更多的邻域信息。但是当邻域规模超过某个值时，性能可能会缓缓降低，这可能是因为涉及到不相关的（噪音）邻居导致。最佳邻域大小为 20 ~ 30 。

二十三、HGT[2020]

异质图通常用于对复杂系统进行抽象和建模，图中包含不同类型的对象、不同类型的链接。如，Open Academic Graph:OAG 数据中包含五种类型的节点：论文 Paper、作者 Author、机构 Institution、会议 Venue、领域 Field，以及它们之间各种不同类型的关系，如下图所示。
关于异质图挖掘已有大量的研究。一种经典的范式 paradigm 是定义和使用 metapath 元路径来建模异质图，例如 PathSim 和 metapath2vec。最近，鉴于图神经网络 GNN 的成功，有几种方法尝试采用 GNN 来学习异质图。然而，这类工作面临以下几个问题：
- 首先，大多数针对异质图的metapath设计需要特定的领域知识。
- 其次，它们要么简单地假设不同类型的节点/边共享相同的特征和representation space，要么假设不同类型的节点/边都有各自的特征和representation space。这两种极端使得它们都不足以捕获异质图的属性。
- 再次，大多数现有方法忽略了异质图的动态特性。
- 最后，它们固有的设计和实现使其无法建模 web-scale 异质图。
以 OAG 为例：
- 首先，OAG 中的节点和边可能有不同的特征分布，例如 paper 节点有文本特征，而 institution 节点可能有附属学者的特征，作者之间的co-authorship 关系明显不同于论文之间的 citation 关系。
- 其次，OAG 一直在不断演变，例如，出版物的数量每隔 12 年翻一番，KDD 会议在 1990 年更多地与数据库相关而近年来更多地与机器学习相关。
- 最后，OAG 包含数亿个节点和数十亿个关系，这使得现有的异质 GNN 无法扩展以处理它。
为了解决上述问题，论文 《Heterogeneous Graph Transformer》 提出了建模 web-scale 异质图的 Heterogeneous Graph Transformer:HGT 架构，目标是：维护 node-type dependent representation 和 edge-type dependent representation 、捕获网络动态、避免自定义metapath、以及能够扩展到 web-scale 的图。
- 为了处理图的异质性，HGT 引入了节点类型依赖的attention 机制 node-type dependent attention、边类型依赖的 attention 机制 edge-type dependent attentionHGT $e=(s,t)$ $e$ ，从而定义 HGT 的异质互注意力 heterogeneous mutual attention 。这个关系三元组为<node type of s, edge type of e between s&t , node type of t >。
  HGT 使用这些元关系来对权重矩阵进行参数化，从而计算每条边上的注意力。这样允许不同类型的节点、边保持其特有的representation space，同时不同类型的、相连的节点仍然可以交互、传递、聚合消息，不受它们类型不同的影响。
  由于 HGT 架构的性质，HGT 可以通过跨层信息传递来聚合来自不同类型高阶邻居的信息，这些信息可以被视为 soft metapath 。换句话讲，HGT 仅使用其 one-hop 边作为输入，无需手动设计 metapath，最终提出的注意力机制也可以自动隐式地学习和提取针对不同下游任务很重要的 metapath 。
- 为解决动态图的问题，HGT 提出了相对时间编码 relative temporal encoding:RTE 策略来增强 HGT。
  HGT 建议不要把输入图划分为不同的时间戳，而是建议将在不同时间发生的所有边作为一个整体来维护，并设计 RTE 策略来建模任意时间区间（甚至是未知的和未来的）的时间依赖性 temporal dependency。通过端到端的训练，RTE 使 HGT 能够自动学习异质图的时间依赖和演变。
- 为处理 web-scale 规模的图数据，HGT设计了用于 mini-batch 图训练的首个异质子图采样算法 HGSampling。其主要思想是对异质子图进行采样，在采样到的子图中不同类型的节点具有相似的比例。因为如果直接使用现有的同质图采样算法，如 GraphSage/FastGCN/LADIES，会导致采样子图的节点类型、边类型高度不平衡。此外，HGSampling 还被设计为使得采样子图保持稠密，从而最大程度地减少信息丢失。
  通过 HGSampling，所有的 GNN 模型包括论文提出的 HGT，都可以在任意大小的异质图上进行训练和推断。
论文在 web-scale 的 OAG 数据集上实验了 HGT 的有效性和效率，该数据集由 1.79 亿个节点、20 亿条边组成，时间跨度 1900 ~ 2019 年，是迄今为止规模最大、时间跨度最长的异质图数据集。
实验结果表明：和state-of-the-art 的 GNN 以及异质图模型相比，HGT 可以显著改善各种下游任务，效果提高 9% ~ 21% 。进一步研究表明，HGT 确实能够自动捕获隐式 metapath 针对不同任务的重要性。

23.1 基础知识和相关工作

23.1.1 异质图挖掘

$\mathcal G = (\mathcal V, \mathcal E, \mathcal A, \mathcal R)$ $\mathcal V =\{v_1,\cdots,v_n\}$ $\mathcal E$ $\mathcal A$ $\mathcal R$ $v\in \mathcal V$ $\tau(v)\in \mathcal A$ $e\in \mathcal E$ $\phi(e)\in \mathcal R$ 。
meta relation $e=(s,t)$ meta relation $<\tau(s), \phi(e), \tau(t)>$ $\phi(e)^{-1}$ $\phi(e)$ 的逆关系 inverse relation 。经典的metapath 范式被定义为这种元关系的序列。
注意：为更好地建模真实世界的异质网络，我们假设不同类型的节点之间可能存在多种类型的关系。如 OAG 中，通过考虑作者顺序（如“第一作者”、“第二作者”等），作者类型节点和论文类型节点之间存在不同类型的关系。
$e(s,t)$ $T$ $T$ $s$ $t$ $s$ $s$ $T$ 。
- $T$ $T$ 被分配给论文节点和会议节点之间的边。
- 我们假设节点可以有多个时间戳。例如，会议节点 WWW 可以分配任何时间戳。WWW@1994 意味着我们正在考虑第一版 WWW，它更多地关注互联网协议和 web 基础设施；而 WWW@2020 意味着即将到来的 WWW，其研究主题将扩展到社交分析、普适计算ubiquitous computing、搜索和信息检索、隐私等等。
在挖掘异质图方面已经有了重要的研究方向，例如节点分类、节点聚类、节点排序、以及 node representation learning ，然而异质图的动态视角尚未得到广泛的探索和研究。

23.1.2 GNN

GNN 可以视为基于输入图结构的消息传递，它通过聚合局部邻域信息来获得节点的 representation。
$v$ GNN $l$ representation $\mathbf{\vec h}_v^{(l)}$ ，则 GNN 的 node representation 更新方程为：
${\vec{h}}_{v}^{(l)} \leftarrow {Agg}_{\forall u \in N_{v}} ({Extract ({\vec{h}}_{u}^{(l - 1)}; {\vec{h}}_{v}^{(l - 1)}, e (u, v))})$
$\mathcal N_v$ $v$ $e(u,v)$ $u$ $v$ 的边。
GNN 有两个基本的算子：
- Extract(.) 算子：邻域信息抽取器 extractortarget $v$ representation $\mathbf{\vec h}_v^{(l-1)}$ $e(u,v)$ 作为querysource $u$ representation $\mathbf{\vec h}_u^{(l-1)}$ 中抽取有用的信息。
- Agg(.) 算子：邻域信息聚合器 aggregatortarget $v$ 的邻域信息。通常采用 mean, sum, max 等函数作为聚合函数，也可以设计更复杂的聚合函数。
此外，还有很多将注意力机制集成到 GNN 的方法。通常，基于注意力的模型通过估计每个 source 节点的重要性来实现 Extract(.) 算子，并在此基础上应用加权聚合。
在上述 GNN 通用框架之后，人们已经提出了各种GNN 架构（同质的）：
- 《Semi-Supervised Classification with Graph Convolutional Networks》 提出了图卷积网络 graph convolutional network: GCN ，它对图中每个节点的一阶邻域进行均值池化，然后进行线性投影和非线性激活操作。
- 《Inductive Representation Learning on Large Graphs》 提出了 GraphSAGE，将 GCN 的聚合操作从均值池化推广到 sum 池化、最大池化、以及 RNN 。
- 《Graph Attention Networks》 通过将注意力机制引入 GNN 从而提出了 graph attention network: GAT。这种注意力机制允许 GAT 为同一个邻域内的不同节点分配不同的重要性。

23.1.3 异质 GNN

最近，一些工作试图扩展 GNN 从而建模异质图。
- 《Modeling Relational Data with Graph Convolutional Networks》 提出了relational graph convolutional network: RGCN 来建模知识图谱。RGCN 为每种类型的边保留不同的线性投影权重。
- 《Heterogeneous Graph Neural Network》 提出了 heterogeneous graph neural network: HetGNN ，它针对不同的节点类型采用不同的 RNN 来融合多模态特征。
- 《Heterogeneous Graph Attention Network》 基于注意力机制为不同的 metapath-based 边保留不同的权重，同时对不同的 metapath 也保留不同的权重。
尽管实验上看这些方法都比普通的 GCN 或 GAT 要好，但是它们对不同类型的节点或不同类型的边采用不同的权重矩阵，从而没有充分利用异质图的特性。因为不同类型的节点/边的数量可能差异很大，对于出现次数不多的边，很难准确地学到合适的 relation-specific 权重。
FM $e=(s,t)$ meta relation $<\tau(s),\phi(e),\tau(t)>$ $\tau(s),\phi(e),\tau(t)$ ，则大多数边的权重可以共享。
例如，在 “第一作者”关系和 “第二作者”关系中，它们的源节点类型都是作者、目标节点类型都是论文。换句话讲，从一种关系中学到的有关作者和论文的知识可以迅速地迁移并适应于另一种关系。因此，我们将该思想和功能强大的、类似于 Transformer 注意力体系结构相结合，这就是 Heterogeneous Graph Transformer: HGT 。
综上所述，HGT 和现有异质图建模方法的主要区别在于：
- $<\tau(s),\phi(e),\tau(t)>$ $e$ ，使得 HGT 使用相同的甚至更少的参数来同时捕获不同模型之间的通用模式common pattern以及特定模式specific pattern。
- 与大多数现有的metapath-based 方法不同，我们依赖于神经网络体系结构本身来融合高阶异质邻域信息，从而自动学习隐式的metapath的重要性。
- 以前的大多数工作都未考虑图（异质的）的动态特性，而我们提出了相对时间编码 RTE 技术，从而在有限的计算资源内融合了时间信息。
- 现有的异质 GNN 都不是为了 web-scale 图数据而设计的，也没有在 web-scale 图上进行实验。我们提出了为 web-scale 的图训练设计的 mini-batch 异质子图采样算法，可以在十亿规模的 Open Academic Graph 上进行实验。

23.2 模型

HGT 的核心思想是：使用元关系来参数化权重矩阵，从而实现异质互注意力 heterogeneous mutual attention、消息传递 message passing、传播 propagation 。另外，为进一步融合网络的动态性，我们在模型中引入相对时间编码机制。
下图给出了 HGT 的总体架构。给定一个采样的异质子图sampled heterogeneous sub-graph，HGTpair $t$ $s$ $e$ HGT $t$ 的上下文表示 contextualized representation 。这样的过程可以分解为三个部分：元关系感知的异质互注意力 meta relation-aware heterogeneous mutual attention 、从源节点发出的异质消息传递 heterogeneous message passing from source nodes 、特定于目标的异质消息聚合 target-specific heterogeneous message aggregation 。
$l$ HGT $\mathbf H^{(l)}$ $l+1$ HGT $L$ representation $\mathbf H^{(L)}$ ，然后将其用于端到端训练或者下游任务。
$t$ $s_1,s_2$ HGT $e_1=(s_1,t), e_2=(s_2,t)$ $<\tau(s_1), \phi(e_1),\tau(t)>, <\tau(s_2), \phi(e_2),\tau(t)>$ $\mathbf H^{(L)}$ 。
HGT 遵循 GAT 的 attention 机制，但是 HGT 在计算 query, key, value 时考虑了节点和边的异质性。此外，在计算节点的 representation 时考虑了相对时间编码（类似于相对位置编码）。

23.2.1 Heterogeneous Mutual Attention

HGT $s$ $t$ 之间的互注意力。基于注意力机制的常规 GNN 为：
${\vec{h}}_{t}^{(l)} \leftarrow {Agg}_{s \in N_{t}, (s, t) \in E} (Attention(s,t) \times Message (s))$
其中有三个基础算子：
- Attention $s$ $t$ 的重要性。
- Message $s$ 的消息。
- Agg 算子：利用注意力权重来聚合邻域的消息。
例如，GAT 采用一种加性机制 additive mechanism 来作为Attention 算子，采用共享的权重矩阵来计算每个节点的消息，采用简单的均值然后接一个非线性激活函数来作为 Agg 算子。即：
$\begin{matrix} Attention (s, t) = {Softmax}_{s \in N_{t}} (\vec{a} \cdot (W {\vec{h}}_{t}^{(l - 1)} | | W {\vec{h}}_{s}^{(l - 1)})) \\ Message (s) = W {\vec{h}}_{s}^{(l - 1)} \\ Agg (\cdot) = σ (Mean (\cdot)) \end{matrix}$
其中：
- $\mathbf{\vec a}$ 为待学习的注意力向量 attention vector。
- $\mathbf W$ 为待学习的权重矩阵，它是全局共享。
- $||$ $\sigma(\cdot)$ $\text{Mean}(\cdot)$ 为多个向量取均值操作。
GAT $s$ $t$ $\mathbf W$ 。所谓相同的特征分布指的是：节点具有相同的特征类型，并且特征各维度的取值概率分布是相同的。但是，这种假设对于异质图是不正确的，因为异质图中每种类型的节点都有自己的特征分布。
$t$ $t\in \mathcal N_t$ ，这些邻居可能属于不同的类型，我们基于它们之间的元关系来计算它们的互注意力。
Transformer $t$ Query $s$ 映射为 Key 向量，然后计算它们内积作为 attention。但是和 Transformer 的区别在于：常规的 Transformer 对所有单词都使用同一组映射矩阵，但是在HGT 中每种元关系都有它们自己的一组映射矩阵。
$h$ $e=(s,t)$ 的 attention 为：
$\begin{matrix} Attention (s, e, t) = {Softmax}_{s \in N_{t}} (| |_{i \in [1, 2, \dots, h]} {ATT-head}^{i} (s, e, t)) \\ {ATT-head}^{i} (s, e, t) = ({({\vec{k}}_{s}^{i})}^{⊤} W_{ϕ (e)}^{ATT} {\vec{q}}_{t}^{i}) \times \frac{μ_{< τ (s), ϕ (e), τ (t) >}}{\sqrt{q}} \\ {\vec{k}}_{s}^{i} = {K-Linear}_{τ (s)}^{i} ({\vec{h}}_{s}^{(l - 1)}) \\ {\vec{q}}_{t}^{i} = {Q-Linear}_{τ (t)}^{i} ({\vec{h}}_{t}^{(l - 1)}) \end{matrix}$
其中：
- $\mathbf{\vec q}_t^i$ $i$ 个 attention headquery $\tau(t)$ $\text{Q-Linear}_{\tau(t)}^i:\mathbb R^d\rightarrow \mathbb R^{d/h}$ 得到。每种不同类型的目标节点都有各自独立的线性投影函数，从而可以最大程度地建模不同节点类型的差异。
- $\mathbf{\vec k}_s^i$ $i$ 个 attention headkey $\tau(s)$ $\text{Q-Linear}_{K\tau(s)}^i :\mathbb R^d\rightarrow \mathbb R^{d/h}$ 得到。每种不同类型的源节点都有各自独立的线性投影函数。
- $\text{ATT-head}^i(s,e,t)$ $i$ 个 attention headquery $\mathbf{\vec q}_t^i$ key $\mathbf{\vec k}^i_s$ 之间的相似性。
  异质图的一个特点是：在一对节点之间可能存在多种不同类型的边。因此，和常规的 Transformer 将 query 向量和 keyHGT $\phi(e)$ edge-based $\mathbf W_{\phi(e)}^{\text{ATT}}\in \mathbb R^{d/h\times d/h}$ 。通过这种方式，模型甚至可以捕获同一对节点之间的不同语义关系。
  prior tensor $\mu\in \mathbb R^{|\mathcal A|\times |\mathcal R|\times |\mathcal A|}$ $\text{ATT-head}^i(s,e,t)$ 的自适应缩放。
- $h$ 个 attention head 拼接起来，从而获得每对节点 pairattention $t$ $\mathcal N_t$ 聚合所有的注意力进行 softmax，使其满足：
  $\sum_{s \in N_{t}} Attention (s, e, t) = \vec{1} \in R^{h}$
  $t$ ，每个 head1 $\sum_{s\in \mathcal N_t} \alpha(s,t)^i = 1.0$ 。

23.2.2 Heterogeneous Message Passing

和注意力计算过程类似，我们希望将边的元关系融合到消息传递过程中，从而缓解不同类型节点和不同类型边的分布差异。
$e=(s,t)$ ，我们计算其 multi-head 消息为：
$\begin{matrix} Message (s, e, t) = | |_{i = 1, 2, \dots, h} {MSG-head}^{i} (s, e, t) \\ {MSG-head}^{i} (s, e, t) = {M-Linear}_{τ (s)}^{i} ({\vec{h}}_{s}^{(l - 1)}) W_{ϕ (e)}^{MSG} \end{matrix}$
其中：
- $\text{MSG-head}^i(s,e,t)$ $i$ message head $\tau(s)$ $s$ $\text{M-Linear}_{\tau(s)}^i:\mathbb R^d \rightarrow \mathbb R^{d/h}$ $\mathbf W_{\phi(e)}^{\text{MSG}}\in \mathbb R^{d/h\times d/h}$ 来融合边类型的依赖性。
  $\mathbf W_{\phi(e)}^{\text{ATT}}$ $\mathbf W_{\phi(e)}^{\text{MSG}}$ 用于区分不同的边类型，并且可以支持多重边。
- $h$ message head $\text{Message}(s,e,t)$ 。
计算 multi-head 注意力过程和计算 multi-head 消息过程，二者之间可以并行进行。

23.2.3 Target-Specific Aggregation

在计算出异质 multi-head 注意力、异质 multi-head 消息之后，我们需要将它们从源节点聚合到目标节点。
我们可以简单地使用每个 head 的注意力向量作为权重，从而加权平均对应 head 每个源节点的消息。因此聚合过程为：
${\tilde{\vec{h}}}_{t}^{(l)} = ⨁_{s \in N_{t}} (Attention (s, e, t) \times Message (s, e, t))$
$t$ 。
$t$ representation $\text{A-Linear}_{\tau(t)}$ $\tilde{\mathbf{\vec h}}_t^{(l)}$ ，然后跟一个残差连接：
${\vec{h}}_{t}^{(l)} = {A-Linear}_{τ (t)} (σ ({\tilde{\vec{h}}}_{t}^{(l)})) + {\vec{h}}_{t}^{(l - 1)}$
$t$ $l$ $\mathbf{\vec h}_t^{(l)}$ 。
因为前面将邻域节点信息映射到公共空间，那么现在需要将公共空间映射回目标节点的特定类型空间。
small-world $L$ HGT $L$ HGT $\mathbf H^{(L)}$ ，它可以用于任何异质网络下游任务，如节点分类和链接预测。
HGT $<\tau(s), \phi(e), \tau(t)>$ 来分别参数化权重矩阵，这可以理解为模型容量和效率之间的折衷。
- 和常规的 Transformer 相比，我们的模型区分了不同的节点类型和不同的关系类型，因此能够处理异质图中的分布差异。
- 和为每种元关系保留独立的权重矩阵的现有方法相比，HGT 的三元组参数化可以更好地利用异质图的 schema 来实现参数共享。
  - 一方面，几乎从未出现过的关系仍然可以从这种参数共享中受益，从而可以实现快速适应和泛化。
  - 另一方面，不同类型的节点和关系仍然可以使用更少的参数集合来维持其独有的特点。

23.2.4 Relative Temporal Encoding

这里我们介绍用于 HGT 的相对时间编码 RTE 技术来处理动态图。
time slot $t$ 的representation 可能依赖于其它时刻发生的连接。因此，对动态图进行建模的一种正确方式是：维持在不同时刻发生的所有边，并允许具有不同时间戳的节点和边彼此交互。
有鉴于此，HGT 提出了相对时间编码 RTE 机制来建模异质图中的动态依赖性 dynamic dependency 。RTE 的灵感来自于 Tansformer 中的位置编码方法，该方法已成功地捕获了长文本中单词的顺序依赖性 sequential dependency 。
$s$ $t$ $T(s), T(t)$ $\Delta T(t,s) = T(t) - T(s)$ $\text{RTE}(\Delta T(t,s))$ 。
注意：训练数据集可能没有覆盖所有可能的时间间隔，因此 RTEbasis $\text{T-Linear}:\mathbb R^d\rightarrow \mathbb R^d$ 作为 RTE：
$\begin{matrix} Base (Δ T (t, s), 2 i) = \sin (\frac{Δ T_{t, s}}{10000^{2 i / d}}) \\ Base (Δ T (t, s), 2 i + 1) = \cos (\frac{Δ T_{t, s}}{10000^{(2 i + 1) / d}}) \\ RTE (Δ T (t, s)) = T-Linear (Base (Δ T_{t, s})) \end{matrix}$
$t$ $s$ 的 representation 中：
${\hat{\vec{h}}}_{s}^{(l - 1)} = {\vec{h}}_{s}^{(l - 1)} + RTE (Δ T (t, s))$
该过程发生在每个 step 的信息聚合之前。
representation $\hat{\mathbf{\vec h}}_s^{(l-1)}$ $s$ $t$ 的相对时间信息。
RTE 的详细过程如下图所示：
$t$ $T(t)$ ，但是现实世界中很多节点都具有多个时间戳，我们将这些节点称作 plain 节点。如：论文数据集中，WWW 会议在 1974 年和 2019 年都举行，但是这两年的研究主题截然不同。因此我们需要决定将哪个时间戳添加到 WWW 节点。
与 plain 节点相反，异质图中存在一些 event 节点，它存在唯一的、固定的时间戳。如：论文数据集中，论文节点和该论文发表时间明确相关。
为此，我们提出了一种 inductive 时间戳分配算法，它对 plain 节点基于该plain 节点相连的 event 节点来分配时间戳。基本思想是：plain 节点从 event 节点中继承时间戳。我们检查节点是否为 event 节点：
- 如果节点是 event 节点，如特定年份发表的论文节点，则我们保留该 event 节点的时间戳从而捕获时间依赖性temporal dependency。
- 如果节点不是 event 节点，则可以像作者节点一样关联多个时间戳，我们将相连节点的时间戳分配给这个 plain 节点。
  $\Delta T(t,s)$ ？根据下面提到的算法过程，是通过子图采样算法来自动分配的，这个时间戳的分配具有一定的随机性。
这样我们可以在子图采样过程中自适应地分配时间戳。

23.2.5 HGSampling

full-batch 的 GNN 训练要求计算每层所有节点的 representation，这使得它无法扩展到 web-scale 图。为解决这些问题，已有各种基于采样的方法在一个节点子集上训练 GNN。但是这些方法无法直接应用到异质图，因为在异质图中每种类型节点的 degree 分布和节点总数可能差异非常大，所以这些采样方法直接应用到异质图中可能得到节点类型极为不平衡的子图。
为解决该问题，我们提出了一种有效的异质图 mini-batch 采样算法 HGSampling，使得 HGT 和传统 GNNweb-scale $\tau$ $\mathcal B[\tau]$ ，它是一个列表，存储该类型所有节点的采样重要性。然后在利用重要性采样策略 importance sampling strategy 来降低方差。
HGSampling 优势：
- 为每种类型保留相似数量的节点和边。
- 采样到的子图保持稠密，从而最大程度地减少信息损失并降低采样方差。
HGSampling 算法：
- 输入：
  - $\mathbf A$
  - $n$
  - $L$
  - mini-batch $\mathcal O$ $L$ 层的节点集合）
- $\mathcal O$ $\hat{\mathbf A}$
- 算法步骤：
  - $\mathcal S\leftarrow \mathcal O$ 。
  - $\mathcal B = \{\}$ ，它存储每种节点类型的节点及节点归一化的 degree 。
  - $\mathcal S$ $t$ $\mathcal B$ $\text{Add-in-Budget}(\mathcal B, t, \mathbf A, \mathcal S)$ 。
    $\mathcal B$ 中存放候选的邻域集合以及对应的每个节点的归一化 degree 。
  - $l=1,2,\cdots,L$ ，迭代步骤为：
    - $\mathcal B$ $\tau\in \mathcal B$ 进行迭代，迭代步骤为：
      - $\mathcal B[\tau]$ $s$ ，计算采样概率为：
        $p^{(l - 1)} [τ] [s] \leftarrow \frac{{(B [τ] [s])}^{2}}{| | B [τ] | |_{2}^{2}}$
        $s$ degree $\mathcal B$ $\tau$ 的所有节点的归一化 degree 的平方和。
      - $\mathcal B[\tau]$ $p^{(l-1)}[\tau]$ $n$ $\{t_i\}_{i=1}^n$ 。
      - $t\in \{t_i\}_{i=1}^n$ ，执行：
        $t$ $\mathcal O[\tau].\text{add}(t)$ 。
        $t$ $\mathcal B$ $\text{Add-in-Budget}(\mathcal B, t, \mathbf A, \mathcal S)$ 。
        $\mathcal B$ $t$ $\mathcal B[\tau].\text{pop}(t)$ 。
  - $\mathcal O$ $\mathbf A$ $\hat{\mathbf A}$ 。
  - $\mathcal O$ $\hat{\mathbf A}$ 。
Add-In-Budget 算法：
- 输入：
  - $\mathcal B$ ，它用于存储每种类型的节点及其归一化的 degree
  - $t$
  - $\mathbf A$
  - $\mathcal S$
- $\mathcal B$
- 算法步骤：
  - $\tau$ $\phi$ 迭代，迭代步骤为：
    - $<\tau,\phi,\tau(t)>$ $t$ 的归一化 degree：
      ${\hat{D}}_{t} \leftarrow \frac{1}{len (A_{< τ, ϕ, τ (t) >} [t])}$
      $A_{<\tau,\phi,\tau(t)>}$ $t$ $\tau$ $\phi$ 的一阶邻居源节点集合。
      $t$ $\tau$ degree $t$ 的总 degree 。
    - $s\in A_{<\tau,\phi,\tau(t)>}[t]$ $s\notin \mathcal S$ ）进行迭代，迭代步骤为：
      - $s$ 没有时间戳，则： s.time = t.time 。
      - $s$ $\mathcal B$ $t$ degree $\mathcal B[\tau][s] \leftarrow \mathcal B[\tau][s] + \hat D_t$ 。
  - $\mathcal B$ 。
$t$ Add-In-Budget $\mathcal B$ $t$ 的归一化 degree 添加到这些邻居上，然后将其应用于计算采样概率。这样的归一化等效于累积每个采样节点到其邻域的随机游走概率，从而避免采样被高阶节点统治。直观地看，该值越高，则候选节点和当前节点之间的相关性越大，因此应该赋予其更高的采样概率。
$\mathcal B$ HGSampling $\mathcal B$ $s$ 的累积归一化 degree 的平方来计算重要性采样的概率。通过这种采样概率，我们可以降低采样方差。
$\tau$ $n$ $\mathcal B$ $\mathcal B$ 中移除。
$L$ $L$ 的采样子图。最后，我们在采样节点之间重建邻接矩阵。
通过使用上述算法，被采样的子图对每个类型包含相似的节点数量，并且足够稠密，且通过归一化的 degree 和重要性采样来降低方差。因此这种方式适用于 web-scale 图上训练 GNN 。
整个采样过程如下图所示：不同颜色表示不同的节点类型。
- (0) $P_1$ $\mathcal B$ 全空。
- (1) $P_1$ $\mathcal B$ $P_1$ 的归一化 degree 和时间戳（根据 inductive 时间戳分配）。
- (2) $n$ $n=3$ $P_3, A_1,V_1$ $\mathcal B$ $\mathcal B$ $P_2$ 。
- (3) $P_3, A_1,V_1$ $\mathcal B$ $A_1$ $P_2, V_1,A_2, P_1$ $P_1,V_1$ $P_2$ 已经在队列中则对其 degree 值进行累加。
- (4) $n$ $n=3$ $P_2, A_2,V_2$ $\mathcal B$ 中弹出。
- (5)：采样结束。

23.3 实验

我们在三个异质学术图数据集上评估 HGT，并分别执行 Paper-Field 预测、Paper-Venue 预测、Author Disambiguation 任务。
数据集：我们使用 Open Academic Graph:OAG 数据集，它包含超过 1.78 亿节点和 22.36 亿条边，这是最大的公开可用的异质学术数据集。此外，OAG 中所有论文关联一个发表日期，该日期从 1900 到 2019 年。
数据集包含五种类型的节点 Paper、Author、Field、Venue、Institute，其中 OAG 的领域Field 字段一共包含 L0 到 L5 共六个层级，这些层级通过层级树 hierarchical tree 来组织。因此，我们根据领域层级来区分 Paper-Field 边。此外，我们还区分了不同的作者顺序（第一作者、最末作者、其它作者）和会议类型（期刊jornal、会议 conference、预印本 preprint）。最后，self 类型对应于自环连接，这是 GNNself $\phi$ reverse relation $\phi^{-1}$ 。
为测试 HGT 的泛化能力，我们还从 OAG 构造了两个特定领域的子图：计算机科学 CS 学术图、医学 Med 学术图。CS和 Med 图都包含数千万个节点和数亿条边。
所使用的三个数据集比以前 GNN 研究中广泛使用的小型引文网络（Cora,Citeseer,Pubmed）大得多，后者仅包含数千个节点。
下表给出了数据集的统计信息，其中 P-A 表示“论文 -- 作者”、 P-F 表示 “论文 -- 研究领域”、P-V 表示 “论文 -- 会议”、 A-I 表示 “作者 -- 研究机构”、P-P 表示论文引用。
我们通过四个不同的下游任务来评估 HGT：Paper -- Field(L1) 预测、Paper -- Field(L2) 预测、Paper -- Venue 预测、Author Disambiguation 。
- 前三个任务是节点分类任务，目标是分别预测每篇论文的一级领域、二级领域、发表会议。
  我们使用不同的 GNN 获取论文的上下文节点 representation，并使用 softmax 输出层来获取其分类标签。
- 对于Author Disambiguation 任务，我们选择所有同名的作者及其相关的论文，任务目标是在这些论文和候选作者之间进行链接预测。
  从 GNN 获得论文节点和作者节点的 representation 之后，我们使用 Neural Tensor Network 来获得每个 author -- paper 节点对之间存在链接的概率。
对于所有任务，我们使用 2015 年之前发布的论文作为训练集，使用 2015 ~ 2016 年之间的论文作为验证集，使用 2016 ~ 2019 年之间的论文作为测试集。
我们使用 NDCG 和 MRR 这两个广泛应用的 ranking 指标作为评估指标。我们对所有模型进行 5 次训练，并报告测试集性能的均值和标准差。
baseline 方法：我们比较了两类 state-of-the-art 图神经网络，所有baseline 以及我们的 HGT 都通过 PyTorch Geometric(PyG) package 来实现。
- 同质图 GNN baseline：
  - GCN：简单地对邻域 embedding 取平均，然后跟一个线性映射。我们使用 PyG 提供的实现。
  - GAT：对邻域节点采用 multi-head additive attention。我们使用 PyG 提供的实现。
- 异质图 GNN baseline：
  - RGCN：对每种元关系（三元组）保持不同的权重。我们使用 PyG 提供的实现。
  - HetGNN：对不同的节点类型采用不同的 Bi-LSTM 来聚合邻域信息。我们根据作者提供的官方代码使用 PyG 重新实现。
  - HAN：通过不同的 metapath 使用分层注意力来聚合邻域信息。我们根据作者提供的官方代码使用 PyG 重新实现。
此外，为了系统地分析 HGT 的两个主要部分的有效性，即异质权重参数化 Heterogeneous Weight Parameterization:Heter、相对时间编码 Relative Temporal Encoding:RTE，我们进行了消融研究。我们比较了移除这些部分的 HGT 模型性能。具体而言，我们用 -Heter 表示对所有元关系使用相同的权重集合，使用 -RTE 表示没有相对时间编码。考虑所有的排列，我们得到以下模型：
${HGT}_{-Heter}^{- RTE}, {HGT}_{-Heter}^{+ RTE}, {HGT}_{+Heter}^{- RTE}, {HGT}_{+Heter}^{+ RTE}$
我们使用HGSampling 采样算法应用到所有 baseline GNN ，从而处理大规模的 OAG 数据集。为了避免数据泄露，我们从子图中删除我们目标预测的链接。
输入特征：我们对不同的节点类型采用不同的特征：
- 论文节点：使用预训练的 XLNet 来获取标题中每个单词的 representation。然后，我们根据每个单词的注意力对它们进行加权平均，从而得到每篇论文的标题 representation。
- 作者节点：使用该作者发表的所有论文的标题的 representation 取平均。
- 领域节点、会议节点、机构节点：使用 metapath2vec 来训练其node embedding，从而反映异质网络结构。
另外，同质 GNN 假设所有节点都是相同类型的特征。因此，为了进行公平的比较，我们在输入特征和同质GNN 之间添加一个适配层，该层用于对不同类型的节点进行不同的线性映射。可以认为该过程能够将异质特征映射到相同的特征空间。
实现方式：
- 对于所有的 baseline，我们在整个神经网络网络中使用隐层维度为 256。
- 对于所有基于 multi-head attention 方法，我们将 head 数量设为 8 。
- 所有 GNN 均为三层（不包括适配层），使得每个网络的感受野完全相同。
- 所有 baseline 方法均通过 Cosine Annealing Learning Rate Scheduler 的 AdamW 优化器优化。
- 每个模型我们训练 200 个 epoch，然后选择验证损失最小的那个作为评估模型。
- 我们选择使用 GNN 文献中默认使用的超参数，并未进行超参数调优。
所有模型在所有数据集上的表现如下表所示，其中评估指标为 NGCD, MRR 。结论：
- HGT 在所有数据集的所有任务上均显著优于所有 baseline。总体而言，在所有三个大规模数据集上的四个任务中，HGT 平均优于 GCN, GAT, RGCN, HetGNN, HAN 大约 20% 。
  此外， HGT 具有更少的参数、差不多的 batch 时间。这表明 HGT 根据元关系 schema 建模异质边，从而以更少的资源实现更好的泛化
- $\text{HGT}_{\text{+Heter}}^{+\text{RTE}}$ 相比：
  - $\text{HGT}_{\text{-Heter}}^{+\text{RTE}}$ 降低了 4% 的性能。
  - $\text{HGT}_{\text{+Heter}}^{-\text{RTE}}$ 降低了 2% 的性能。
  这表明了权重参数化、相对时间编码的重要性。
- 最后我们还尝试了一个 baseline，它为每个关系类型保留不同的参数矩阵。但是，这样的 baseline 包含太多参数，因此我们的实验设置没有足够的 GPU 内层对其进行优化。
  这也表明：使用元关系对权重矩阵进行分解可以在较少的资源条件下获得有竞争力的优势。
为进一步评估相对时间编码 RTE 如何帮助 HGT 捕获图的动态性，我们进行一个案例研究来展示会议主题的演变。我们选择被引用次数最多的 100 个计算机科学会议，为它们分配了三个不同的时间戳 2000、2010、2020 ，并构造了由它们初始化的子图。我们使用训练好的 HGT 来获取这些会议的 representation ，然后计算这些会议之间的欧式距离。
我们以 WWW、KDD、NeuraIPS 为例，对于每个会议我们选择其 top 5 最相似的会议，从而显示会议主题随时间的变化。结果如下表所示。结论：
- 2000 年的 WWW 和某些数据库会议(SIGMOD 和 VLDB) 以及一些网络会议（NSDI 和 GLOBECOM）更相关。但是，除了 SIGMOD, GLOBECOM 之外， 2020 年的 WWW 和某些数据挖掘和信息检索会议（KDD, SIGIR, WSDM）更相关。
- 2000 年的 KDD 和传统的数据库和数据挖掘会议更相关，而 2020 年的 KDD 倾向于和多种主题相关，如机器学习（NeurIPS）、数据库（SIGMOD）、Web(WWW)、AI（AAAI）、NLP (EMNLP )。
- 除此之外，HGT 还能捕获新会议带来的差异。例如 2020 年的 NeurIPS 和 ICLR（这是一个新的深度学习会议）相关。
该案例研究表明：相对时间编码可以帮助捕获异质学术图的时间演变。
为说明融合的元关系模型如何使得异质消息传递过程受益，我们选择在前两层 HGT 层中具有最高注意力的模式，并在图中绘制元关系注意力层次树。
例如，为计算论文的 representation，最重要的三个元关系序列为：
$\begin{matrix} < Paper, is-published-at, Venue, {is-published-at}^{- 1}, Paper > \\ < Paper, {has-L}_{2} -field-of, Field, {has-L}_{5} {-field-of}^{- 1}, Paper > \\ < Institude, {is-affiliated-with}^{- 1}, Author, is-first-author-of, Paper > \end{matrix}$
这可以分别视为 metapath: PVP, PFP, IAP 。
注意：无需手动设计既可以自动从数据中学到这些 metapath 及其重要性。
右图给出了计算作者 representation 的另一个case。这些可视化结果表明，HGT 能够隐式地学到为特定下游任务构造的重要的 metapath，无需手动构建。

二十四、GPT-GNN[2020]

图神经网络GNN 的突破彻底改变了图数据挖掘的过程，从图的结构特征工程structural feature engineering 到图的表示学习 representation learning 。最近的 GNN 发展已被证明有利于各种 graph application 和网络任务，例如半监督节点分类、推荐系统、知识图谱推断 knowledge graph inference 。
通常，GNN 将带有属性的图作为输入，并应用卷积滤波器来逐层生成 node-level representation 。通常，对于输入图上的一个任务，GNN 模型以端到端的方式使用监督信息进行训练。即：对于给定图上的任务，需要足够多的标记样本来训练 GNN 模型。通常对于这些任务，尤其是大型图，获取足够多的标记数据的代价很高，有时甚至是不可行的。以学术图 academic graph 中的作者消歧任务为例，迄今为止，该任务仍然面临着缺少 ground-truth 的挑战。
在 NLP 中也遇到类似的问题。NLP 的最新进展通过训练大量的未标记数据，并将学到的模型迁移 transfer 到带少量标记的下游任务来解决该问题，即预训练 pre-training 的思想。如，预训练的 BERT 语言模型通过重构输入文本（next sentence predict 和 masked language predict ）来学习单词的 representation，因此可以显著提高各种下游任务的性能。此外，计算机视觉也证明了类似的观察结果，即：未标记的数据本身包含丰富的语义知识，捕获数据分布的模型可以迁移到各种下游任务。
受到预训练的启发，论文 《GPT-GNN: Generative Pre-Training of Graph Neural Networks》 提出对图神经网络进行预训练从而进行图数据挖掘。预训练的目的是使得 GNN 能够捕获输入图的结构属性 structural property 和语义属性 semantic property ，以便进行微调fine-tuning 就可以迁移到同一个领域 domain 内的其它的图任务。为实现该目标，GPT-GNN 提出通过学习重建reconstruct 输入的属性图 attributed graph 来对图分布graph distribution 建模。
一种图重建方式是直接采用神经图生成neural graph generation 技术，但是它不适合预训练 GNN：
- 首先，大多数神经图生成技术仅关注于生成不带属性的图结构，这无法捕获节点属性和图结构之间的底层模式underlying pattern 。
- 其次，这些神经图生成技术被设计于处理小图，从而限制了它们在大规模图上进行预训练的潜力。
贡献：在 GPT-GNN 中，作者设计了一种用于 GNN 预训练的自监督属性图生成任务 self-supervised attributed graph generation task，通过该任务对图结构和节点属性进行建模。基于该任务，作者提出了用于 GNN 的生成式预训练 generative pretraining of graph neural network: GPT-GNN 框架（如下图所示）。然后可以将输入图上的预训练 GNN 用作同一类型的图上不同下游任务的 GNN 模型的初始化。具体而言，论文的贡献如下：
- 首先，作者设计了一个属性图生成任务attributed graph generation task 来建模节点属性和图结构。作者将图生成目标分解为两个部分：属性生成attribute generation，边生成 edge generation，它们的联合优化相当于最大化整个属性图的概率似然。通过这种做法，模型可以在生成过程中捕获节点属性和图结构之间的固有依赖性 inherent dependency 。
- 其次，作者提出了一个有效的框架 GPT-GNN 来对上述任务进行生成式的预训练 generative pre-training 。GPT-GNN 可以同时计算每个节点的属性生成损失和边生成损失，因此只需要为图运行一次 GNN 。此外，GPT-GNN 可以通过子图采样处理大型图，并通过自适应 embedding queue 来缓解负采样带来的 inaccurate loss 。
- 最后，作者在两个大型图上预训练了 GNN ：1.79 亿节点和 20 亿边的 Open Academic Graph: OAG 、1.13 亿节点的 Amazon 推荐数据。大量实验表明：GPT-GNN 预训练框架可以显著地有利于各种下游任务。例如，通过在 OAG 上应用预训练模型，节点分类和链接预测任务的性能比没有预训练的 state-of-the-art GNN 平均可达 9.1% 。此外，作者表明：GPT-GNN 可以在各种 setting 下持续提高不同的 base GNN 的性能。

24.1 基础知识和相关工作

预训练的目的是允许模型（通常是神经网络）使用预训练的权重来初始化模型参数，这样模型可以充分利用预训练和下游任务之间的共性 commonality 。最近，预训练在提高计算机视觉和自然语言处理中许多下游 application 的性能方面显示出优势。

24.1.1 GNN 的基础知识

GNN 可以视为基于输入图结构的消息传递，它通过聚合局部邻域信息来获得节点的 representation。
$v$ GNN $l$ representation $\mathbf{\vec h}_v^{(l)}$ ，则 GNN 的节点 representation 更新方程为：
${\vec{h}}_{v}^{(l)} \leftarrow {Agg}_{\forall u \in N_{v}} ({Extract ({\vec{h}}_{u}^{(l - 1)}; {\vec{h}}_{v}^{(l - 1)}, e (u, v))})$
$\mathcal N_v$ $v$ $e(u,v)$ $u$ $v$ 的边。
GNN 有两个基本的算子：
- Extract(.) 算子：邻域信息抽取器 extractortarget $v$ representation $\mathbf{\vec h}_v^{(l-1)}$ $e(u,v)$ 作为querysource $u$ representation $\mathbf{\vec h}_u^{(l-1)}$ 中抽取有用的信息。
- Agg(.) 算子：邻域信息聚合器 aggregatortarget $v$ 的邻域信息。通常采用 mean, sum, max 等函数作为聚合函数，也可以设计更复杂的聚合函数。
在这个框架下，人们已经提出了各种GNN 架构：
- 《Semi-Supervised Classification with Graph Convolutional Networks》 提出了图卷积网络 graph convolutional network: GCN ，它对图中每个节点的一阶邻域进行均值池化，然后进行线性投影和非线性激活操作。
- 《Inductive Representation Learning on Large Graphs》 提出了 GraphSAGE，将 GCN 的聚合操作从均值池化推广到 sum 池化、最大池化、以及 RNN 。
此外，还有很多将注意力机制集成到 GNN 的方法。通常，基于注意力的模型通过估计每个 source 节点的重要性来实现 Extract(.) 算子，并在此基础上应用加权聚合。例如：
- 《Graph Attention Networks》 提出了 GAT ，它采用加性的注意力机制 additive mechanism 来计算注意力。
- 《Heterogeneous Graph Transformer》 提出了 heterogeneous graph transformer: HGT ，它利用针对不同关系类型的 multi-head attention 来获得 type-dependent 注意力。
我们提出的预训练框架 GPT-GNN 可以适用于所有这些 GNN 模型（包括 GCN, GraphSAGE, GAT, HGT ）。

24.1.2 用于图的预训练

已有一些研究提出利用预训练来学习节点的 representation，其中主要分为两类：
- 第一类通常称作 graph embedding，它直接参数化node embedding 向量，并通过保持某些相似性度量来优化 embedding 向量，如网络邻近性network proximity （《Line: Large-scale information network embedding》）或者随机游走得到的统计数据（metapath2vec, node2vec, 《Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec》）。
  但是，这种方式学到的 embedding 无法用于初始化其它模型从而微调其它任务（因为 embedding 模型是 transductive 的）。相反，我们需要考虑一种迁移学习方式，其目标是预训练一个适用于各种下游任务的通用的 GNN 。
- 第二类通过直接在未标注数据上预训练 GNN 。例如：
  - 《Variational Graph Auto-Encoders》 提出变分图自编码器来重建图结构。
  - 《Inductive Representation Learning on Large Graphs》 提出 GraphSAGE 从而使用基于随机游走的相似性度量来优化无监督损失。
  - 《Deep Graph Infomax》 引入 Graph Infomax ，它最大化从 GNN 获得的 node representation 和一个池化的 graph representation 之间的互信息。
尽管这些方法显示了对纯监督学习 purely-supervised learning 的增强enhancement ，但是这些方法迫使相近的节点具有相似的 embedding ，从而忽略了图中丰富的语义和高阶结构 higher-order structure 。我们的方法通过提出排列式的生成式目标 permutated generative objective 来预训练 GNN，这是一项更难的图任务，因此可以指导模型学到输入图的更复杂的语义和结构信息。
另外，还有一些工作尝试预训练 GNN 来抽取 graph-level representation。
- 《InfoGraph:Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Information Maximization》 提出了 InfoGraph，它最大化了从 GNN 获得的 graph-level representation 与子结构 representation 之间的互信息。
- 《Strategies for Pre-training Graph Neural Networks》 引入了在 node-level 和 graph-level 预训练 GNN 的不同策略，并表明将它们组合在一起可以提高图分类任务的性能。
我们的工作与他们不同，因为我们的目标是在单个大型图上预训练 GNN 并进行 node-level 迁移学习。

24.1.3 用于计算机视觉和自然语言处理的预训练

预训练已广泛用于计算机视觉和自然语言处理。
- 在计算机视觉中，早期的预训练技术（《Decaf: A deep convolutional activation feature for generic visual recognition》、《Rich feature hierarchies for accurate object detection and semantic segmentation》、《Context Encoders: Feature Learning by Inpainting》）大多遵循首先在大型监督数据集（如 ImageNet ）上预训练模型，然后在下游任务上微调预训练的模型，或者直接利用预训练的模型抽取样本的 representation 作为特征。
  最近，一些自监督任务（《A Simple Framework for Contrastive Learning of Visual Representations》、《Momentum contrast for unsupervised visual representation learning》、《Representation Learning with Contrastive Predictive Coding》）也被用于预训练视觉模型。
- 在自然语言处理中，早期的工作一直聚焦于利用文本语料库的共现来学习 word embedding （《Distributed representations of words and phrases and their compositionality》、《Glove:Global vectors for word representation》）。
  最近，人们在 contextualized word embedding 方面取得了重大进展，如 BERT, XLNET, GPT 。以 BERT 为例，它通过两个自监督任务来预训练一个文本编码器，以便更好地对 word 和 context 进行编码。这些预训练方法已被证明可以在广泛的自然语言处理任务中产生 state-of-the-art 性能，因此被用作许多 NLP 系统的基础组件。

24.2 模型

$\mathcal G = (\mathcal V, \mathcal E, \mathbf X)$ $\mathcal V = \{v_1,\cdots,v_n\}$ $\mathcal E$ $\mathbf X\in \mathbb R^{n\times d}$ $d$ $\mathbf{\vec x}_v\in \mathbb R^d$ $\mathbf X$ $v$ $v$ 的特征向量。
GNN 模型在特定下游任务（如节点分类）的监督下学习输出 node representation 。有时候在单个图上存在多个任务，并且对于每个任务，大多数 GNN 需要提供足够多的标记数据。然而，获得足够多的标记数据通常具有挑战性，特别是对于大型图，这阻碍了GNN 的训练。因此，需要一个预训练的 GNN 模型，该模型可以通过很少的标签来进行泛化。从概念上讲，该预训练的模型应该：捕获图背后的固有结构 intrinsic structure 和属性模式attribute pattern ，从而使得该图上的各种下有任务受益。
GNNGNN $f_\theta$ $\mathcal G$ $f_\theta$ $\mathcal G$ 上各种下游任务的很好的初始化点。一个问题是：如何在图上设计一个无监督学习任务来预训练 GNN 模型？

24.2.1 Generative Pre-Training Framework

NLP 和 CV 自监督学习的最新进展表明，未标记数据本身包含丰富的语义知识，因此可以捕获数据分布的模型能够迁移到各种下游任务。受此启发，我们提出了 GPT-GNN，它通过重建/生成 input graph 的结构和属性来预训练 GNN 。
$\mathcal G$ GNN $f_\theta$ GNN $f_\theta$ likelihood $p(\mathcal G;\theta)$ $\mathcal G$ 中节点的属性分布和连接分布。GPT-GNN 目标是最大化图的似然来预训练 GNN 模型，即：
$θ^{*} = max_{θ} p (G; θ)$
$p(\mathcal G;\theta)$ 。大多数现有的图生成方法都遵循自回归的方式auto-regressive manner 来分解概率目标，即：图中的节点按照顺序依次访问，并通过将每个新的节点连接到现有节点来生成边。
permutation vector $\vec\pi$ $\pi_i$ $i$ $p(\mathcal G;\theta)$ 等于似然在所有排列上的期望：
$p (G; θ) = E_{\vec{π}} [p_{θ} (X^{π}, E^{π})]$
其中：
- $\mathbf X^\pi$ 表示重排后的节点属性矩阵。
- $\mathcal E^\pi$ $i$ $\vec\pi$ $\mathcal E_i^\pi$ $\pi_i$ 位置之前的节点）。
$\vec\pi$ $\pi$ 。
给定一个排列顺序，我们可以自回归地分解对数似然：
$\log p_{θ} (X, E) = \sum_{i = 1}^{n} \log p_{θ} ({\vec{x}}_{i}, E_{i} ∣ X_{< i}, E_{< i})$
其中：
- $\mathbf X_{\lt i}$ $i$ 之前生成的所有节点对应的属性。
- $\mathcal E_{\lt i}$ $i$ 之前生成的所有节点对应的边。
- $i$ $\mathbf{\vec x}_i$ $\mathcal E_i$ 表示它和现有节点的连接。
因此，这个对数似然给出了属性图的自回归生成过程autoregressive generative process 。
该模型是一个节点一个节点地生成，因此是生成式模型。
autoregressive generative process $p_\theta(\mathbf{\vec x}_i, \mathcal E_{i}\mid \mathbf X_{\lt i}, \mathcal E_{\lt i})$ ？

24.2.2 Factorizing Attributed Graph Generation

$\mathbf{\vec x}_i$ $\mathcal E_i$ 是相互独立的，即：
$p_{θ} ({\vec{x}}_{i}, E_{i} ∣ X_{< i}, E_{< i}) = p_{θ} ({\vec{x}}_{i} ∣ X_{< i}, E_{< i}) \times p_{θ} (E_{i} ∣ X_{< i}, E_{< i})$
这种分解完全忽略了节点的属性和它的边之间的依赖关系。但是，这种依赖关系恰好是属性图的核心特性，也是 GNN 中卷积聚合的基础。因此，这种朴素的分解无法应用于预训练 GNN 。
为解决该问题，我们为属性图生成过程提出依赖感知 dependency-aware 的因子分解机制。具体而言：
- 在预估新节点的属性时，我们采用节点的结构信息。
- 在预估新节点的连接时，我们采用节点的属性信息。
在这个过程中，一部分边已经被观察到，然后属性图生成过程分解为两个耦合的部分：
- 给定观测到的边，生成节点属性。
- 给定观测到的边和生成的节点属性，生成剩余的边。
这样，模型可以捕获到每个节点的属性和图结构之间的依赖关系。
$\vec o$ $\mathcal E_i$ $\mathcal E_{i,\vec o}$ $\neg \vec o$ mask $\mathcal E_{i,\neg \vec o}$ 表示所有需要被生成的边。则可以将条件概率重写为似然函数关于所有观测到的边的期望：
$\begin{matrix} p_{θ} ({\vec{x}}_{i}, E_{i} ∣ X_{< i}, E_{< i}) = \sum_{\vec{o}} p_{θ} ({\vec{x}}_{i}, E_{i, \neg \vec{o}} ∣ E_{i, \vec{o}}, X_{< i}, E_{< i}) \times p_{θ} (E_{i, \vec{o}} ∣ X_{< i}, E_{< i}) \\ = E_{\vec{o}} [p_{θ} ({\vec{x}}_{i}, E_{i, \neg \vec{o}} ∣ E_{i, \vec{o}}, X_{< i}, E_{< i})] \\ = E_{\vec{o}} [\underset{generate attributes}{\underset{⏟}{p_{θ} ({\vec{x}}_{i} ∣ E_{i, \vec{o}}, X_{< i}, E_{< i})}} \times \underset{generate edges}{\underset{⏟}{p_{θ} (E_{i, \neg \vec{o}} ∣ E_{i, \vec{o}}, X_{\leq i}, E_{< i})}}] \end{matrix}$
$i$ $\mathbf{\vec x}_i$ $\mathcal E_i$ ：
- $p_\theta\left(\mathbf{\vec x}_i\mid \mathcal E_{i,\vec o},\mathbf X_{\lt i}, \mathcal E_{\lt i}\right)$ $i$ $\mathcal E_{i,\vec o}$ $i$ $\mathbf{\vec x}_i$ 。
- $p_\theta\left( \mathcal E_{i,\neg \vec o}\mid \mathcal E_{i,\vec o},\mathbf X_{\le i}, \mathcal E_{\lt i}\right)$ $\mathcal E_{i,\vec o}$ $\mathbf{\vec x}_i$ $\mathcal E_{i,\neg\vec o}$ 中的每条边是否都存在。
  $\mathbf X_{\le i}$ $\mathbf X_{\lt i}$ 。
我们以一个学术图为例来阐述上述分解的工作原理。假设我们希望生成一个论文节点，节点属性为论文标题，节点的边为论文及其作者、论文及其发表会议、论文及其引用论文。
- 基于论文和它的某些作者之间观测到的边，我们的生成过程首先生成论文标题。
- 然后基于观测到的边和论文标题再预测剩余的边（“论文--作者”、“论文--发表会议”、“论文--引用论文”）。
通过这种方式，该生成过程可以对论文的属性（论文标题）和结构（观测到的边和剩余边）之间的相互作用进行建模。
能不能先进行边的生成然后再进行节点属性的生成？可以通过实验来说明。
目前为止，我们将属性图的生成过程分解为节点属性生成 node attribute generation和边生成 edge generation 两步。一个新的问题是：如何通过同时优化属性生成和边生成来有效预训练 GNN？

22.2.3 Efficient Attribute and Edge Generation

为提高效率，我们希望通过仅对输入图运行一次 GNN 来计算属性生成损失和边生成损失。另外，我们希望同时进行属性生成和边生成。但是，由于边生成过程需要将节点属性作为输入，这可能会泄露信息给属性生成过程。为避免信息泄露，我们将每个节点同时加入到两个类别：
- 属性生成节点Attribute Generation Nodesdummy token $\mathbf{\vec x}^{\text{init}}$ 来表示这个 dummy token。这等价于在 masked language model 中使用 [Mask] token 技巧。
  $\mathbf{\vec x}^{\text{init}}$ $\mathbf{\vec x}_i$ 相同，并且在预训练过程中进行学习（而不是固定的）。
- 边生成节点 Edge Generation Nodes：对于该集合中的节点，我们保留其属性并将节点属性作为输入。
我们修改输入图，将每个节点分裂为两个节点：一个为属性生成节点，另一个为边生成节点（它们之间不存在边）。
我们将修改后的图输入到 GNNembedding $\mathbf H^{\text{attr}}$ $\mathbf H^{\text{edge}}$ embedding $\mathbf H^{\text{attr}}$ $\mathbf H^{\text{edge}}$ 更少。因此，在进行 GNN 消息传递时，我们仅使用边生成节点的来向外传递消息。
$\mathbf H^\text{attr}$ $\mathbf H^\text{edge}$ 需要通过 GNN 模型计算得到（运行一次GNN 前向传播）。有两个细节需要注意：
- $\vec\pi$ 移除了所有从高编号到低编号的边，这意味着每个节点只能从低编号节点接收消息。这样，它们就不会将信息泄露给自回归生成的目标函数。
- 如何在 GNN 中运行一次而为每个节点生成两个 embedding ？论文未给出细节。理论上讲，GNN 的前向传播仅能得到每个节点的单个 embedding 。
$\mathbf H^\text{edge}$ $u$ $v$ 之间相互连接且不与其它节点连接，则在属性生成过程中，我们有：
$\begin{matrix} {\vec{h}}_{v}^{(l), attr} \leftarrow Extract ({\vec{h}}_{u}^{(l - 1), edge}; {\vec{h}}_{v}^{(l - 1), attr}, e (u, v)) \\ {\vec{h}}_{u}^{(l), edge} \leftarrow Extract ({\vec{h}}_{v}^{(l - 1), edge}; {\vec{h}}_{u}^{(l - 1), edge}, e (v, u)) \end{matrix}$
$v$ $\mathbf{\vec h}_v^{(l-1),\text{edge}}$ $\mathbf{\vec h}_u^{(l),\text{edge}}$ $\mathbf{\vec h}_v^{(l+1),\text{attr}}$ $e(u,v)$ $e(v,u)$ 并不能同时存在，因此这种信息泄露的方式不存在。
然后，我们使用这两组节点的 embedding 通过不同的解码器来生成属性和边。
$\text{Dec}^{\text{attr}}(\cdot)$ $\mathbf H^{\text{attr}}$ 作为输入，并生成被遮盖的属性。
解码器类型依赖于属性的类型：
- 如果节点的属性为文本，则可以使用文本生成模型（如 LSTM）来生成属性文本。
- 如果节点的属性为标准的向量，则可以使用多层感知机来生成属性向量。
然后我们将距离函数定义为生成的属性和真实属性之间的度量，如文本属性的度量为困惑度perplexity、属性向量的度量为向量的 L2 距离。因此，我们定义属性生成损失为：
$L_{i}^{attr} = Distance ({Dec}^{attr} ({\vec{h}}_{i}^{attr}), {\vec{x}}_{i})$
$p_\theta\left(\mathbf{\vec x}_i\mid \mathcal E_{i,\vec o},\mathbf X_{\lt i}, \mathcal E_{\lt i}\right)$ 。因此预训练的模型能够捕获到图的语义信息。
边生成：对于边生成，我们假设每条边的生成相互独立，则有：
$p_{θ} (E_{i, \neg \vec{o}} ∣ E_{i, \vec{o}}, X_{\leq i}, E_{< i}) = \prod_{j^{+} \in E_{i, \neg \vec{o}}} p_{θ} (e_{i, j^{+}} ∣ E_{i, \vec{o}}, X_{\leq i}, E_{< i})$
$e_{i,j^+}$ $i$ $j^+$ 的边。
embedding $\mathbf H^{\text{edge}}$ $\text{Dec}^{\text{edge}}(\cdot,\cdot)$ $i$ $j^+$ 之间的概率。
negative contrastive estimation $i$ $j^+$ $\mathcal S_i^-$ ，则对比损失 contrastive loss 为：
$L_{i}^{edge} = - \sum_{j^{+} \in E_{i, \neg \vec{o}}} \log \frac{\exp ({Dec}^{edge} ({\vec{h}}_{i}^{edge}, {\vec{h}}_{j^{+}}^{edge}))}{\sum_{j \in S_{i}^{-} \cup {j +}} \exp ({Dec}^{edge} ({\vec{h}}_{i}^{edge}, {\vec{h}}_{j}^{edge}))}$
$\mathcal L_i^{\text{edge}}$ 等于最大化生成所有遮盖边的可能性。因此预训练模型能够捕获图的固有结构。
下图给出了属性图的生成过程。具体而言：
- (a) $\vec\pi$ 。
- (b) $\mathcal E_{i,\vec o}$ $\mathcal E_{i,\neg\vec o}$ （带十字的灰色虚线）。
- 图 (c) - (e)：
  - 从输入图中删除被遮盖的边。
  - 将每个节点分裂为属性生成节点和边生成节点，从而避免信息泄露。
  - 在上述预处理之后，使用修改的邻接矩阵来计算节点 3,4,5 的 embedding ，包括它们的属性生成 embedding 和边生成 embedding。注意：仅使用边生成节点的来向外传递消息。
- 最后，如图 (c) - (e) 所示，我们通过并行的属性预测和遮盖边预测任务来训练 GNN 模型。

22.2.4 用于异质图和大型图的 GPT-GNN

异质图：GPT-GNN 框架可以直接应用于预训练异质 GNN。此时，每种类型的节点和边都可能有自己的解码器，该解码器由异质 GNN 确定而不是预训练框架指定。其它部分和同质 GNN 预训练完全相同。
GNN $\mathcal G$ 的子图来进行训练。具体而言，我们建议使用 LADIES 算法及其异质版本 HGSampling 从同质图或异质图采样一个稠密的子图。理论上讲，这两种方法都保证了采样节点之间的高度互连，并最大程度地保留了结构信息。
$\mathcal L_i^{\text{edge}}$ ，我们需要遍历输入图的所有节点。但是在采样的子图中我们只能访问采样后的节点，这使得自监督仅关注于采样到的局部信号。为了缓解该问题，我们提出自适应队列 Adaptive Queuenode embedding $\mathcal S_i^{-}$ 中。每次处理新的子图时，我们都会添加最新的节点embedding 并删除最早的node embedding ，从而逐步更新自适应队列。由于不会严格更新模型参数，因此队列中存储的负样本是一致且准确的 consistent and accurate 。
$\mathcal S_i^-$ ，同时跨不同采样子图的节点可以为对比损失引入全局结构的指导。

22.2.5 GPT-GNN 算法

GPT-GNN 预训练算法：
- 输入：
  - $\mathcal G= (\mathcal V, \mathcal E,\mathbf X)$
  - 子图采样器 Sampler(.)
  - GNN $f_\theta$
- $\theta^*$
- 算法步骤：
  - GNN $f_\theta$ $\text{Dec}^{\text{attr}}$ $\text{Dec}^{\text{edge}}$ 。
  - $\mathbf{\vec x}^{\text{init}}$ node embedding $Q=\{\}$ 。
  - $\hat{\mathcal G}\in \text{Sampler}(\mathcal G)$ ，执行：
    - $\vec o$ $\neg\vec o$ $\hat{\mathcal G}$ $\mathcal E_{i,\neg\vec o}$ 。
    - $\mathbf{\vec x}^{\text{init}}$ GNN $f_\theta$ node embedding $\mathbf H^{\text{attr}}$ $\mathbf H^{\text{edge}}$ 。注意：仅使用边生成节点的来向外传递消息。
    - $i$ $\mathbf{\vec x}_i$ $\mathcal E_{i,\neg\vec o}$ ，执行：
      - $\mathcal L_i^{\text{attr}} = \text{Distance}\left(\text{Dec}^{\text{attr}}\left(\mathbf{\vec h}_i^{\text{attr}}\right),\mathbf{\vec x}_i\right)$ 。
      - $Q$ $\mathcal S_i^-$ 。
      - 计算边生成损失：
        $L_{i}^{edge} = - \sum_{j^{+} \in E_{i, \neg \vec{o}}} \log \frac{\exp ({Dec}^{edge} ({\vec{h}}_{i}^{edge}, {\vec{h}}_{j^{+}}^{edge}))}{\sum_{j \in S_{i}^{-} \cup {j +}} \exp ({Dec}^{edge} ({\vec{h}}_{i}^{edge}, {\vec{h}}_{j}^{edge}))}$
    - $\mathcal L = \sum_{i\in \hat{\mathcal G}}(\mathcal L_i^{\text{attr}}+ \mathcal L_i^{\text{edge}})$ $\theta$ 。
    - $\mathbf H^{\text{edge}}$ $Q$ ，并弹出最早的 edge embedding 。
  - $\theta^*$ 。
$\mathcal G$ $\hat{\mathcal G}$ 来作为生成式预训练的训练实例。
- $\vec\pi$ embedding $\vec\pi$ 移除了所有从高编号到低编号的边，这意味着每个节点只能从低编号节点接收消息。这样，它们就不会将信息泄露给自回归生成的目标函数。因此，我们只需要单次执行就可以获得整个图的 embedding，从而直接应用于生成式预训练。
  注意：这一步未在上述算法中体现。理论上在采样子图的外层还有一个循环：采样排列顺序的循环。
- 然后，我们需要确定要遮盖的边。对于每个节点，我们选择其所有出边 out edge 并随机选择遮盖一部分边。
- 然后，我们执行节点分裂，并获得节点的 embedding，这将用于计算生成式损失。
- $Q$ 中的节点来准备负样本，这样可以缓和子图和整体图之间的 gap 。
- 最后我们更新自适应队列。
一旦得到预训练模型，我们就可以使用预训练模型作为初始化，从而微调其它下游任务。

24.3 实验

数据集：
- 异质图：
  - Open Academic Graph:OAG：包含超过 1.78 亿节点、22.36 亿条边，是迄今为止最大的公开可用的异质学术数据集。每篇论文都包含一组研究领域的标签，发表日期为 1900 ~2019 。
    数据集包含五种类型的节点：论文 Paper、作者 Author、领域 Field、会议 Venue、机构 Institute ，以及这些节点之间的 14 种类型的边，这些边的关系如下图所示。例如：领域包含 L0 ~ L5 六个级别，这些级别通过层级树 hierarchical tree 来表示；领域之间的层级关系通过 is_organized_in 关系表示；我们区分了不同的作者位置，即第一作者、最后作者、其它作者。另外，数据集还包含自连接，这是 GNN 框架中广泛添加的。
    对于论文和作者节点，节点编号非常大。因此传统的 node embedding 算法不适合为其抽取属性。因此我们借助论文标题来抽取属性。对于每篇论文，我们获取其论文标题，然后使用预训练的 XLNet 获取标题中每个单词的 embedding，然后我们根据每个单词的注意力对它们进行加权平均，从而获得每篇论文的标题 embedding ，作为论文节点属性。作者节点的属性是作者已发表论文的 embedding 的均值。
    对于领域、会议、机构等节点，由于节点数量很少，因此我们使用 metapath2vec 模型来训练它们的node embedding，从而作为节点属性。
    我们考虑对 Paper-Field, Paper-Venue, Author Name Disambiguation(Author ND) 预测作为三个下游任务来评估预训练模型的效果。性能指标为 MRR 进行评估。
    - 对于前两个任务，我们希望模型能够预测论文所属的正确领域或正确会议。我们将这两个任务建模为节点分类问题，其中使用 GNN 来获得论文的node embedding，然后使用一个 softmax 输出层来获得分类结果。
    - 对于最后一个任务，我们选择所有同名的作者，以及链接到其中任何一位作者的论文。任务是在论文和候选同名作者之间进行链接预测。我们使用 GNN 获得论文和节点的 embedding，然后使用 Neural Tensor Network 来获取每对 author-paper 存在链接的概率。
    mean reciprocal rank: MRR ：多个 query 的排名倒数的均值。
  - Amazon Review Recommendation：包含 8280 万条评论、2090 万用户、930 万商品。评论发布于 1996~ 2018 年，每条评论都包含一个从 1~5 的离散评分，以及一个特定领域（包括书籍 Book、时装 Fashion 等）。
    数据集包含三种类型的节点：评论（评分和评论文本）、用户、商品。另外还有商品的其它一些元数据，包括颜色、尺寸、样式和数量。和一般的 user-item 二部图相比，该数据集存在评论数据。为简单起见，我们将评论的连接视为 categorize_in 类型，因此图中共有三种类型的关系。
    我们通过预训练的 XLNet 获取每个评论的 embedding 作为评论节点的属性。用户节点、商品节点的属性都是和它们关联的评论的 embedding 取均值。
    我们将评分预测作为下游任务，该任务是一个 node-level 的五类分类任务。我们使用 micro-F1 得分作为评估指标。我们使用 GNN 获取评论的上下文表示，然后使用 softmax 输出层来获得分类预测。
- 同质图：Reddit 数据集、从 OAG 提取的引文网络。
Base model：在 OAG 和 Amazon 数据集上，我们使用最新的异质 GNN 模型 Heterogeneous Graph Transformer: HGT 作为 base model 来预训练 GPT-GNN 。另外我们也对比了其它异质 GNN 作为 base model 的效果。
baseline 方法（均用于预训练）：
- GAE：图自编码器，聚焦于传统的链接预测任务。它随机遮盖固定比例的边，然后要求模型重建这些遮盖的边。
- GraphSAGE(无监督)：强迫相连的节点具有相似的 embedding。它和 GAE 的主要区别在于：GraphSAGE 在预训练过程中不会遮盖边。
- Graph InfoMax：尝试使用全局的图 summary embedding 来最大化局部node embedding。对于每个采样的子图，我们混洗子图来构造负样本。
- 此外，我们还单独使用 GPT-GNN 的两个预训练任务来进行对比，即属性生成 GPT-GNN(Attr)、边生成 GPT-GNN(Edge) 。
GPT-GNN 模型配置：
- 所有的 base model，其隐层维度为 400， head 数量为 8， GNN 层数为 3 。
- 所有GPT-GNN 都采用 PyTorch Geometric(PyG) package 实现。
- 使用 AdamW 优化器，使用 Cosine Annealing Learning Rate Scheduler 训练 500 个 epoch，并选择验证损失最低的模型作为预训练模型。
- 自适应队列大小为 256 。
- 在下游评估阶段，我们使用相同的优化配置来微调模型，微调期间训练 200 个 epoch 。
- 我们对下游任务重复训练 5 次，并报告测试结果的均值和标准差。
迁移学习配置：我们首先预训练 GNN，然后使用预训练的模型权重来初始化下游任务的模型。然后我们使用下游任务的训练集来微调模型，并评估测试集性能。
大体而言，有两种不同的配置：
- 第一种是在完全相同的图上进行预训练和微调。
- 第二种是在一张图上进行预训练，但是在另一张图（和预训练的图具有相同类型）上进行微调。
其中第二种更为实用，我们选择第二种进行测试。
如果是跨图的微调，如何处理训练期间 unseen 节点的 embedding ？
- 如果是 transductinve 的，那么只能要求两个图中的节点尽可能重合。
- 如果是 inductive 的，那么两个图可以不同，因为我们只需要预训练模型权重矩阵（如 GAT 中的投影矩阵）即可。
具体而言，我们选择以下三种图迁移学习：
- 时间迁移 Time Transfer：使用来自不同时间段的数据进行预训练和微调。对于 OAG 和 Amazon，我们使用 2014 年之前的数据进行预训练，使用 2014 年之后的数据进行微调。
- 领域迁移 Field Transfer：使用来自不同领域的数据进行预训练和微调。
  - 在 OAG 中，我们选择计算机科学领域 CS 的论文用于微调，其它领域的论文用于预训练。
  - 在 Amazon 中，我们选择艺术 Art、手工艺品 Craft、缝纫品 Sewing 进行预训练，并对时尚、美容、奢侈品进行微调。
- 组合迁移 Time + Field Transfer：使用 2014 年之前特定领域的数据来预训练，使用 2014 年之后另一些领域的数据来微调。这比单独的时间迁移或领域迁移更具挑战。
在微调期间，对于这两个数据集我们选择 2014~2016 年的节点进行训练，2017 年的节点作为验证，2018 年的节点作为测试。
为满足缺乏训练数据的假设，默认情况下我们仅提供 10% 的标记数据用于微调训练。
在预训练期间，我们随机选择部分数据（2014 年以前）作为验证集。
在 OAG 和 Amazon 数据集上的不同预训练方法的下游任务性能如下表所示。
结论：
- 总体而言，GPT-GNN 框架显著提高了所有数据集上所有下游任务的性能。
  - 平均而言，GPT-GNN 相比于没有预训练的 base model，在 OAG 和 Amazon 上获得了 13.3% 和 5.7% 的相对提升。
  - GPT-GNN 也超越了其它的预训练模型，如 Graph Informax 。
- 预训练在领域迁移学习中的提升要超过时间迁移学习，而组合迁移学习的提升比例最低。这体现了组合迁移学习的挑战性。
  但是，即使是在最具有挑战的组合迁移学习中，GPT-GNN 仍然分别在两个数据集上实现了 11.7% 和 4.6% 的性能提升。这表明：GPT-GNN 使得 GNN 能够捕获输入图的通用结构和语义知识，从而可用于微调图数据的未见过的部分。
- 通过对比 GPT-GNN 的两个预训练任务（属性生成任务和边生成任务）的有效性，我们可以评估哪个对GPT-GNN 以及下游任务更有效。
  - 在 OAG 上，GPT-GNN(Attr) 和 GPT-GNN(Edge) 平均性能分别提升 7.4% 和 10.3%，表明边生成任务更有效。
  - 但是在 Amazon 上，结论相反，二者分别为 5.2% 和 4.1% 。
  这表明 GPT-GNN 从属性生成任务和边生成任务带来的收益因不同的数据集而不同。但是，将两个预训练任务结合起来可以获得最大收益。
- 将边生成任务和其它基于边的预训练方法（如 GAE, GraphSAGE）相比。在 OAG 上，GPT-GNN(Edge), GAE, GraphSAGE 相对于没有预训练分别提升 10.3%, 7.4%, 4.0% 。在 Amazon 上，提升比例分别为 5.2%, 3.1%, 1.3% 。
  - 首先，在这两个数据集上，GAE 和 GPT-GNN(Edge) 都要比 GraphSAGE 提供更好的结果，这表明在边上进行遮盖是用于自监督的图表示学习的有效方式。
  - 其次，GPT-GNN(Edge) 始终超越了 GAE。GPT-GNN(Edge) 的优势在于它会自动生成缺失的边，从而捕获被遮盖边之间的依赖关系，这些依赖关系已被 GAE 丢弃。
  总之，结果表明：GPT-GNN 可以为 GNN 预训练提供有效的自监督。
- 节点分裂旨在缓解属性生成任务的信息泄露问题，如果没有该部分，则属性将会出现在输入中。此时属性生成任务只需要简单的把输入预测为输出即可，即它无法学到输入图的任何知识，因此对结果有负面影响。
  从 w/o node seperation 可以看到，移除节点分裂使得预训练模型效果很多情况下甚至比没有预训练的更差。这证明了节点分裂在避免属性信息泄露方面的重要性。
- 自适应队列旨在缓解采样子图和完整图之间的 gap。从 GPT-GNN(Edge) 和 w/o adaptive queue 之间的对比可以看到：移除自适应队列使得模型性能下降。
  这表明通过使用自适应队列来添加更多负样本，确实有助于预训练框架的效果提升。
我们考察其它 GNN 框架能否从 GPT-GNN 框架中受益。因此，除了 HGT 之外，我们还考察了 GCN, GAT, R-GCN, HAN 作为 base model。
我们在 OAG 上对它们进行预训练，然后在组合迁移配置下使用 paper-field 预测任务，并使用10% 的微调训练数据来微调。模型无关的超参数（如隐层维度、优化器）保持不变。结果如下所示，可以看到：
- HGT 在所有非预训练模型中效果最好。
- 采用 HGT 的GPT-GNN 在所有模型中效果最好。
- GPT-GNN 预训练框架可以增强所有 GNN 模型的下游性能。
我们考察微调期间不同训练数据规模的效果。可以看到：
- GPT-GNN 和其它预训练框架通过更多的标签数据可以不断提高下游任务的效果。
- GPT-GNN 在所有预训练框架中表现最好。
- GPT-GNN 仅需要 10% ~ 20% 的数据来微调，就可以达到监督学习 100% 训练数据的效果。这证明了 GPT-GNN 的优越性。
除了异质图之外，我们还评估了 GPT-GNN 预训练框架是否可以应用于同质图的迁移学习。我们在两个同质图上进行预训练和微调：
- OAG 的计算机科学领域的论文引文网络，对每个论文的主题进行预测。
- Reddit 帖子组成的 Reddit 网络，对每个帖子的社区进行推断。
我们将 HGT 忽略其异质部分从而用于 base model。下表给出了 10% 标记数据的训练结果。可以看到：
- 两个同质图的下游任务都可以从所有预训练框架中受益。
- GPT-GNN 可以提供最大的性能提升。
我们给出 OAG 上预训练和微调的收敛曲线。
下图给出了预训练期间每个 epoch 的验证误差曲线。结果表明：模型的验证损失不断下降，而不是很快地找到一个平凡解。这在某种程度上表明：生成式预训练任务足够艰巨，因此可以指导模型真正捕获数据的内在结构。整个GPT-GNN 预训练收敛大约需要 12 个小时。
下图给出了微调期间的验证MRR 曲线（同时对比了没有预训练的验证 MRR 曲线）。可以看到，GPT-GNN 总是可以获得更泛化的模型，并且由于预训练的良好初始化，微调期间对于过拟合更鲁棒。
对于 OAG 数据集，我们的属性生成任务是生成论文标题，所以我们希望了解 GPT-GNN 如何学习生成标题，结果见下表。
可以看到：模型仅通过查看部分邻域即可捕获需要预测的论文的主要含义。例如，对于第一句话，我们的模型成功地预测了本文的关键词，包括 person recognition, probabilistic 等。这表明图本身包含了丰富的语义信息，也解释了为什么预训练模型可以很好地泛化到下游任务。

二十五、Geom-GCN[2020]

消息传递神经网络 Message-Passing Neural Networks:MPNN （如 GNN, ChebNet, GG-NN, GCN）已经成功地应用于各种实际应用中的图表示学习graph representation learning。在 MPNN 的每一层网络中，每个节点向邻域内的其它节点发送该节点的 representation 作为消息 message，然后通过聚合从邻域内收到的所有消息来更新它的 representation。其中，邻域通常定义为图中相邻节点的集合。通过采用排列不变permutation-invariant 的聚合函数（如 sum, max, mean 聚合函数），MPNN 能够学到同构图isomorphic graph（即，拓扑结构相同的图）的不变的representation 。
虽然现有的 MPNN 已经成功应用于各种场景，但是 MPNN 聚合器 aggregator 的两个基本缺陷限制了它们表示图结构数据的能力：
- 首先，聚合器丢失了邻域的结构信息。
  排列不变性 permutation invariance 是任何图学习方法的基本要求。为满足这一要求现有的 MPNN 采用了排列不变的聚合函数，这些聚合函数将来自邻域的所有消息视为一个集合。例如，GCN 只是对所有一阶邻居的归一化消息求和。这种聚合会丢失邻域节点的结构信息，因为它无法区分不同节点的消息。因此，在聚合之后，我们也就无法知晓哪个节点对最终的聚合输出做出了贡献。
  如果不对邻域结构进行建模，现有的 MPNN 将无法区分某些非同构图non-isomorphic graph。在这些非同构图中，MPNN 可能将不同的邻域结构映射为相同的feature representation，这显然不适合graph representation learning。与 MPNN 不同，经典的 CNN 通过特殊的聚合器（即，滤波器）来避免这个问题从而能够区分每个 input unit ，其中这些聚合器具有结构化的感受野 receiving filed 并定义在网格 grid 上。
  正如论文 《GEOM-GCN: GEOMETRIC GRAPH CONVOLUTIONAL NETWORKS》的实验所示，这些邻域结构信息通常包含图中拓扑模式 topology pattern 的线索，因此应该提取并被应用于学习图的更有区分度的 rerepenstation。
- 其次，聚合器缺乏捕获异配图 disassortative graph （指的是相似的节点没有聚合在一起的图）中长程依赖 long-range dependency的能力。
  MPNN $k$ $k\ge 1$ 。换句话讲，聚合器只会聚合来自附近节点的消息。这种聚合方式的 MPNN 倾向于对图中相近的节点学到相似的representation。这意味这些MPNN 可能是同配图 assortative graph （如引文网络、社区网络）representation learning的理想方法。在这些同配图中，节点的同质性homophily 成立，即相似的节点更可能在图中相近，图中相近的节点更可能相似。
  而对于节点同质性不成立的异配图，此时有些高度相似的节点在图中距离较远。这种情况下MPNN 的表示能力可能会受到严重限制，因为它们无法从距离遥远、但是包含丰富信息的相似节点中捕获重要特征。
  解决这个限制的简单策略是使用多层架构，以便从远程节点接收消息。例如，虽然经典 CNN 中的卷积滤波器只能捕获局部数据，其单层卷积层的表示能力受限，但是通过堆叠多层卷积层，CNN 可以学到复杂的全局表示。
  和 CNN 不同，多层 MPNN 很难学到异配图的良好representation，这里有两个原因：
  - 一方面，在多层 MPNN 中，来自远程节点的相关信息和来自近端节点的大量无关信息无差别地混合在一起，意味着相关信息被冲洗掉 washed out，无法有效地提取。
  - 另一方面，在多层 MPNN 中，不同节点的representation将变得非常相似，因为每个节点的representation实际上承载了关于整个图的信息，即 over-smooth 。
在论文《GEOM-GCN: GEOMETRIC GRAPH CONVOLUTIONAL NETWORKS》 中，作者从两个基本观察出发，克服了图神经网络的上述缺陷：
- 由于连续空间 continuous space 的平稳性 stationarity、局部性 locality、组合性 compositionality，经典的神经网络有效地解决了类似的局限。
- 网络几何 network geometry 有效地弥补了连续空间和和图空间之间的 gap 。
  网络几何的目的是通过揭示潜在的连续空间来理解网络，它假设节点是从潜在的连续空间中离散地采样，并根据节点之间的距离来构建边。在潜在空间中，图中复杂的拓扑模式（如子图、社区、层次结构）可以保留下来，并以直观的几何方式呈现。
受这两个观察结果的启发，作者对图神经网络中的聚合方案提出了一个启发性问题：图上的聚合方案能否受益于连续的潜在空间？例如使用连续的潜在空间中的几何结构来构建邻域，从而捕获图中的长程依赖？
为回答上述问题，作者提出了一种新的图神经网络聚合 scheme，称作几何聚合方案 geometric aggregation scheme 。在该方案中，作者通过node embedding 将一个图映射到一个连续的潜在空间，然后利用潜在空间中定义的几何关系来构建邻域从而进行聚合。同时，作者还设计了一个基于结构邻域的 bi-level 聚合器来更新节点的 representation，保证了图结构数据的排列不变性。和现有的 MPNN 相比，该方法提取了更多的图结构信息，并通过连续空间中定义的邻域来聚合远程节点的feature representation。
然后，作者提出了几何聚合方案在图卷积网络上的实现，称作 Geom-GCN ，从而在图上执行 transductive learning、node classification 。作者设计了特定的几何关系来分别从欧式空间和 hyperbolic embedding 空间中构建结构邻域 structural neighborhood 。作者选择不同的 embedding 方法将图映射到适合不同 application 的潜在空间，在该潜在空间中保留了适当的图拓扑模式。
最后，作者在大量公开的图数据集上对 Geom-GCN 进行了实验，证明了 Geom-GCN 达到了 state-of-the-art 效果。
总之，论文的主要贡献如下：
- 作者提出了一种新的几何聚合方案用于图神经网络，它同时在图空间和潜在空间中运行，从而克服上述两个局限性。
- 作者提出了该方案的一个实现，即 Geom-GCN，用于图中的 transductive learning。
- 作者通过在几个具有挑战性的 benchmark 上与 state-of-the-art 方法进行广泛的比较来验证和分析 Geom-GCN 。
相关工作：

25.1 几何聚合方案

这里首先介绍几何聚合方案，然后概述它和现有工作相比的优点和缺点。

25.1.1 基础模块

如下图所示，几何聚合方案由三个模块组成：node embedding （A1 和 A2）、结构邻域（B1 和 B2）、bi-level 聚合（C）。图中：
- A1-A2：原始图（A1）被映射到一个潜在的连续空间（A2）。
- B1-B2B2 $\tau$ 由彩色的 3x3 网格表示，每个单元格代表了和红色目标节点的几何关系（即几何位置是左上、左下、右上、右下等等）。
- C：在结构邻域上的 bi-level 聚合。虚线和实线箭头分别表示 low-level 聚合和 high-level 聚合。蓝色箭头和绿色箭头分别表示图上的聚合以及潜在空间上的聚合。
node embedding：这是一个基础组件，它将图中的节点映射到潜在的连续空间 latent continuous space。
$\mathcal G=(\mathcal V, \mathcal E)$ $\mathcal V = \{v_1,v_2,\cdots,v_n\}$ $\mathcal E$ $v\in \mathcal V$ $\mathbf{\vec x}_v\in \mathbb R^{d_f}$ $d_f$ 为特征向量维度。
$f:v\rightarrow \mathbf{\vec z}_v \in \mathbb R^d$ $v$ representation $\mathbf{\vec z}_v$ $d$ representation $v$ $d$ $\mathbf{\vec z}_v$ $v$ 在这个连续空间中的位置。在映射过程中，图的结构和属性将被保留，并显示为潜在空间中的几何结构 geometry 。这里可以使用各种 embedding 方法来得到不同的潜在连续空间（《A comprehensive survey of graph embedding: Problems, techniques, and applications》、《A united approach to learning sparse attributed network embedding》）。
structural neighborhood $\mathcal N_v = (\{\mathcal N_g(v), \mathcal N_s(v)\},\tau)$ $\{\mathcal N_g(v),\mathcal N_s(v)\}$ $\tau$ 组成。
- $\mathcal N_g(v)$ $v$ $\mathcal N_g(v)=\{u\mid u\in \mathcal V, (u,v)\in \mathcal E\}$ 。
- $\mathcal N_s(v)$ $v$ $\mathcal N_s(v) = \{u\mid u\in \mathcal V,\text{dist}(\mathbf{\vec z}_u,\mathbf{\vec z}_v)\lt \rho\}$ $\text{dist}(\cdot,\cdot)$ $\rho$ $\mathcal N_s(v)$ $v$ $\rho$ 的节点集合。
  $\mathcal N_g(v)$ $\mathcal N_s(v)$ $v$ $v$ $f$ $v$ $\mathcal N_s(v)$ 上的邻域节点，我们可以捕获到异配图上的长程依赖。
- $\tau$ $v$ $u$ representation pair $(\mathbf{\vec z}_v,\mathbf{\vec z}_u)$ $\tau$ $r$ $v$ $u$ 的几何关系 geometric relationship ：
  $τ : ({\vec{z}}_{v}, {\vec{z}}_{u}) \to r \in R$
  $\mathcal R$ B2 $\mathcal R$ 包含九种关系：{左上、中上、右上、左中、相同、右中、左下、中下、右下 } 。
  $\mathcal R$ 可以选择任意的关系集合。唯一的要求是：给定一对有序的 representation pair 对，它们的关系应该是唯一的。
bi-level $\mathcal N_v$ ，我们为图神经网络提出了一种新颖的 bi-level 聚合方案来更新节点的 hidden feature。bi-level 聚合方案由两个聚合函数组成，它可以有效地提取邻域节点的结构信息，并保持图的排列不变性。
$\mathbf{\vec h}_v^{(l)}$ $v$ $l$ hidden feature $\mathbf{\vec h}_v^{(0)} = \mathbf{\vec x}_v$ $v$ $l+1$ hidden feature $\mathbf{\vec h}_v^{(l+1)}$ 为的更新为：
$v$ representation $\mathbf{\vec z}_v$ node embedding $\mathbf{\vec h}_v^{(l)}$ 为 node representation 用于具体的任务（图，节点分类）。
- low-level 聚合：
  ${\vec{e}}_{(i, r)}^{(v, l + 1)} = p ({{\vec{h}}_{u}^{(l)} ∣ u \in N_{i} (v), τ ({\vec{z}}_{v}, {\vec{z}}_{u}) = r}), \forall i \in {g, s}, \forall r \in R$
  low-level $i$ $r$ hidden feature $p$ 聚合到虚拟节点。
  - $\mathbf{\vec e}_{(i,r)}^{(v,l+1)}$ $(i,r)$ $i$ $r$ 的组合。
  - $p$ $L_p$ $p=1,2,\infty$ 分别对应于 average pooling, enerage pooling, max pooling 。
  low-level 聚合如上图 C1 的虚线箭头所示。
- high-level 聚合：
  ${\vec{m}}_{v}^{(l + 1)} = q ({({\vec{e}}_{(i, r)}^{(v, l + 1)}, (i, r)) ∣ i \in {g, s}, r \in R})$
  high-level $q$ $q$ $\mathbf{\vec e}_{i,r}^{v,l+1}$ $(i,r)$ $q$ 可以将有序对象作为输入（如拼接），从而区分不同虚拟节点，从而显式提取邻域中的结构信息。
  $N$ $N+1$ 中类型的邻域。
- 非线性映射：
  ${\vec{h}}_{v}^{(l + 1)} = σ (W_{l} {\vec{m}}_{v}^{(l + 1)})$
  high-level $\mathbf{\vec m}_v^{l+1}$ $v$ hidden feature $\mathbf{\vec h}_v^{l+1}$ 。其中：
  - $\mathbf W_l$ $l$ 层的权重矩阵。
  - $\sigma(\cdot)$ 为非线性激活函数，如 ReLU 。

25.1.2 排列不变性

排列不变性permutation invariance是图神经网络中聚合器的基本要求，随后我们将证明我们提出的 bi-level 聚合公式能够保证邻域节点的任何排列都不变。
$\psi: \mathcal V\rightarrow \mathcal V$ $v\in\mathcal V$ $\psi(v)\in \mathcal V$ $\mathcal V^\prime, \mathcal E^\prime$ $\psi$ $\phi(\mathcal G)$ $\psi$ $\phi(\mathcal G) = \phi(\mathcal G^\prime)$ $\mathcal G^\prime = (\mathcal V^\prime, \mathcal E^\prime)$ $\phi(\mathcal G)$ 是排列不变的。
$\phi_1\circ\phi_2(\mathcal G)$ $\phi_2(\mathcal G)$ $\phi_1\circ\phi_2$ 为排列不变的。
$\mathcal G^\prime$ $\mathcal G$ $\psi$ isomorphic graph $\phi_2(\mathcal G)$ $\phi_2(\mathcal G) = \phi_2(\mathcal G^\prime)$ $\phi_1\circ\phi_2(\mathcal G)$ $\phi_1\circ\phi_2(\mathcal G) = \phi_1\circ\phi_2(\mathcal G^\prime)$ 。
$\phi_1\circ\phi_2(\mathcal G)$ $\phi_1(\phi_2(\mathcal G))$ 。
$\mathcal G = (\mathcal V, \mathcal E)$ $\mathcal N_v$ ，则 bi-level 聚合是排列不变的映射。
证明：bi-level 聚合是一个组合函数，其中 low-level 聚合是 high-level 聚合的输入。因此，如果能够证明 low-level 聚合是排列不变的，则 bi-level 聚合是排列不变的。
现在我们来证明 low-levellow-level $2\times |\mathcal R|$ $v$ $i$ $r$ 。
- $i\in \{g,s\}$ $r\in \mathcal R$ $\mathcal N_v$ 决定的，而这个结构邻域对于任何排列而言都是恒定的。
- $p$ ，因此 low-level 聚合是排列不变的。

25.1.3 与相关工作的比较

这里讨论我们提出的几何聚合方案如何克服之前提到的两个缺点，即：如何有效地对邻域结构进行建模、如何捕获长程依赖。
- 为了克服 MPNN 的第一个缺点，即丢失邻域中节点的结构信息，几何聚合方案利用潜在空间中节点之间的几何关系，然后使用 bi-level 聚合有效地提取信息，从而对结构信息进行显式建模。
  相反，现有的一些方法试图学习一些隐式的、类似于结构的信息，从而在聚合时区分不同的邻居。如 GAT（《Graph attention networks》）、 LGCL （《Large-scale learnable graph convolutional networks》）、 GG-NN （《Gated graph sequence neural networks》）等通过使用注意力机制以及节点/边的属性来学习来自不同邻居消息的权重。CCN 利用协方差架构来学习 structure-aware representation （《Covariant compositional networks for learning graphs》）。这些工作和我们之间的主要区别在于：我们利用潜在空间的几何信息提供了一种显式的、可解释的方式来建模节点邻域的结构信息。
  另外，我们的方法和现有的这些方法是正交的，因此可以容易地和现有方法融合从而进一步改善性能。具体而言，我们从图拓扑的角度利用几何关系，而其它方法更关注feature representation，这两个方面是互补的。
- 为了克服 MPNN 的第二个缺点，即缺乏捕获远程依赖的能力，几何聚合方案以两种不同的方式对异配图中的远程关系进行建模：
  - 首先，可以将图中相似但是相距很远的节点映射到目标节点在潜在空间的邻域中，然后聚合这些邻域节点的representation。这种方式取决于保留节点相似性的适当的 embedding 方法。
  - 其次，结构信息使得该方法能够区分图中邻域中的不同节点。informative node和目标节点可能具有某些特殊的几何关系（如特定的角度、特定的距离）。因此相比uninformative node，informative node的相关的特征将以更高的权重传递给目标节点。
  最终通过整个消息传递过程间接捕获了长程依赖关系。
  此外， 《Representation learning on graphs with jumping knowledge networks》 中提出了一种方法 JK-Nets 通过在特征聚合期间 skip connection 来捕获长程依赖关系。
有些文献构造了一些非同构 non-isomorphic 图（《Covariantcompositional networks for learning graphs》、《How powerful are graph neural networks? 》），它们无法被现有的 MPNN 聚合器（如均值、最大值）很好地区分。这里我们给出两个示例，它们来自于 《How powerful are graph neural networks?》。
- $a$ $f(\cdot)$ $f(a)$ graph $V_1$ 的final representation都是相同的。即，均值聚合器和最大值聚合器无法区分这两个不同的图。
- $V_1$ $V_1$ 的聚合为例：
  - $V_1$ $r$ $f_r,r\in \mathcal R$ 。
  - $\{f_2(a), f_8(a)\}$ $\{f_2(a),f_7(a),f_9(a)\}$ 。
  - $V_1$ 输出不同的表示形式，从而区分两个图之间的拓扑差异。

25.2 Geom-GCN

这里我们介绍 Geom-GCN，它是几何聚合方案在 GCN 上的具体实现，主要用于图的 transductive learning 。
为实现几何聚合方案，需要给出其中的三个模块：node embedding、结构邻域、bi-level 聚合。
node embedding：如我们实验所示，仅保留图中的边以及距离模式的常见 embedding 方法已经可以使几何聚合方案受益。
对于特定的应用，可以指定特定的 embedding 方法来建立合适的、保留特定拓扑结构（如层次结构）的潜在空间。我们使用了三种 embedding 方法，即：Isomap、Poincare Embedding、Struc2vec ，这导致了三种 Geom-GCN 变体：Geom-GCN-I、Geom-GCN-P、Geom-GCN-S。
- Isomap 是一种广泛应用的 isometry embedding 方法，在该方法中，距离模式（最短路径的长度）被显式地保留在潜在空间中。
- Poincare Embedding 和 Struc2vec 能够创建特定的潜在空间，分别保留图中的层次结构和局部结构。
为了便于说明，我们的 embedding2 $\mathbf{\vec z}_v\in \mathbb R^2$ ）。
$v$ $\mathcal N_v = (\{\mathcal N_g(v), \mathcal N_s(v)\},\tau)$ 同时包含图空间的邻域和潜在空间中的邻域。
$\mathcal N_g(v)$ $v$ $\mathcal N_s(v)$ $v$ $\rho$ $\rho$ $v$ $\mathcal N_s(v)$ $\mathcal N_g(v)$ $\rho$ 就是我们需要的。
另外对于不同的潜在空间我们使用不同的距离：在欧式空间中我们使用欧式距离；在双曲空间 hyperbolic space 中，我们通过两个节点在局部切平面上的欧式距离来近似测地线距离。
$\tau$ $\mathcal R = \{\text{upper left},\text{upper right},\text{lower left},\text{lower right }\}$ $\tau(\mathbf{\vec z}_v, \mathbf{\vec z}_u)$ 如下表所示。注意：我们在欧式空间中使用直角坐标系，在双曲空间中使用角坐标系。
因为 embedding size = 2，所以划分为四种关系。
$\tau$ ，如利用流形几何中的描述符结构，从而在邻域中保留更多、更丰富的结构信息。
bi-level 聚合：我们采用和 GCN 相同的归一化 hidden featurelow-level $p$ ：
${\vec{e}}_{(i, r)}^{(v, l + 1)} = \sum_{u \in N_{i} (v), τ ({\vec{z}}_{v}, {\vec{z}}_{u}) = r} (\sqrt{deg (v) \times deg (u)}) \times {\vec{h}}_{u}^{(l)}, \forall i \in {g, s}$
$\text{deg}(v)$ $v$ degree $v$ $r$ 的那些节点。
high-level $q$ $q$ ：
${\vec{h}}_{v}^{l + 1} = σ (W_{l} (| |_{i \in {g, s}, r \in R} {\vec{e}}_{(i, r)}^{(v, l + 1)}))$
$\mathbf W_l$ $\sigma(\cdot)$ 为非线性激活函数，这里我们使用 ReLU 。

25.3 实验

这里我们比较了 Geom-GCN 和 GCN, GAT 的性能，从而验证 Geom-GCN 的效果。
数据集：我们使用 9 个图数据集：
- 引文网络：Cora, Citeseer, Pubmed 是标准的引文网络 benchmark 数据集。
  在这些网络中，节点表示论文，边表示论文被另一篇论文引用，节点特征是论文的 bag-of-word 表示，节点标签是论文的学术主题。
- WebkB 数据集：WebKB 由卡内基梅隆大学从各大学的计算机科学系收集的网页数据集，我们使用它的三个子集：Cornell, Texas, Wisconsin 。
  在这些网络中，节点代表网页，边代表网页之间的超链接，节点的特征是网页的 bag-of-word 表示。网页被人工分为五个类别：student, project, course, staff, faculty 。
- Actor co-occurrence 数据集：该数据集是 film-directoractor-writer 网络导出的仅包含演员的子图。
  在该网络中，节点代表演员，边表示同一个维基百科上两个演员的共现，节点特征为该演员的维基百科页面上的关键词。根据演员的维基百科的词汇，我们将节点分为五类。
这些数据集的统计信息如下表所示：
实验配置：我们使用三种embedding 方法，即 Isomap、Poincare embedding、struc2vec ，从而构建三种 Geom-GCN 变体，即 Geom-GCN-I、Geom-GCN-P、Geom-GCN-S。
- 所有Geom-GCN 的 embedding2 $\tau$ low-level $p$ high-level $q$ 为向量拼接。
  $\mathbf {\vec z}_v\in \mathbb R^2$ 。
- 所有模型的网络层数固定为 2，采用Adam 优化器。对于 Geom-GCN 我们采用 ReLU 作为激活函数，对于 GAT 我们采用 GAT 作为激活函数。
- 我们使用验证集来搜索超参数，这些超参数包括：隐层维度、初始学习率、权重 decay、dropout。为确保公平，每个模型的超参数搜索空间都是相同的。最终得到的超参数配置为：
  - dropout rate = 0.5、初始化学习率 0.05、早停的 patience 为 100 个 epoch。
  - 对于 WebKBweight decay $5\times 10^{-6}$ weight decay $5\times 10^{-5}$ 。
  - 对于 GCN 模型，隐层维度为：Cora 数据集 16、Citeseer 数据集 16、Pubmed 数据集 64、WebKB 数据集 32、Wikipedia 数据集 48、Actor 数据集 32 。
  - 对于 Geom-GCN 模型，隐层维度是 GCN 的 8 倍，因为 Geom-GCN 有 8 个虚拟节点。
    $\mathbf {\vec h}_v^{(l)}\in \mathbb R^2$ 。
  - 对于 GAT 模型的每个 attention head，隐层维度为 Citation 网络为 8、WebKB 数据集为 32、Wikipedia 数据集为 48、Actor 数据集为 32 。
  - 对于 GAT 模型，第一层具有 8 个 head；Pubmed 数据集的第二层具有 8 个 head，其它数据集的第二层只有 1 个 head 。
- 对于所有数据集，我们将每个类别的节点随机拆分为 60%, 20%, 20% 来分别作为训练集、验证集、测试集。
  我们随机拆分 10 次并报告模型在测试集上的平均性能。
所有模型在所有数据集上的评估结果如下表所示，其中评估指标为平均分类准确率（以百分比表示）。最佳结果突出显式。
结论：
- Geom-GCN 可以实现 state-of-the-art 性能。
- 仅保留图中边和距离模式的 Isomap Embedding (Geom-GCN-I) 已经可以使得几何聚合方案受益。
- 可以指定一种embedding 方法从而为特定应用构建合适的潜在空间，从而显著提升性能（如 Geom-GCN-P ）。
Geom-GCN 聚合了来自两个邻域的消息，这两个邻域分别在图空间和潜在空间中定义。这里我们通过构建仅有一个邻域的 Geom-GCN 变体来进行消融研究，从而评估每种邻域的贡献。
- 对于仅具有图空间邻域的变体，我们用 g 后缀来区分（如 Geom-GCN-Ig）。
- 对于仅具有潜在空间邻域的变体，我们用 s 后缀来区分(如 Geom-GCN-Is)。
我们将 GCN 设为 baseline，从而评估这些变体相对 GCN 的性能提升。比较结果见下表所示，其中正向提升用向上箭头表示，负向衰减用向下箭头表示。评估指标为测试集的平均准确率。
$\beta$ 来衡量图的同质性 homophily：
$β = \frac{1}{| V |} \sum_{v \in V} \frac{节点 v 邻域中和 v 标签相等的节点数量}{顶点 v 邻域的节点数量}$
$\beta$ 值表示图的同质性很强。从下表可以看出，同配图assortative graph （如引文网络）具有比异配图disassortative graphWebKB $\beta$ 值。
结论：
- 大多数情况下，图空间邻域和潜在空间邻域都有利于聚合。
- $\beta$ 值）上的提升要比同配图上的提升大得多。这意味着潜在空间邻域可以有效地捕获远程节点的相关信息。
  $\beta$ 值）上的提升，也是要比同配图上的提升大得多。因此图空间也可以有效捕获远程节点的相关信息？
  因此这里的结论不成立。
- 令人惊讶的是，只有一个邻域的几种变体（下表）要比具有两个邻域的变体（上表）具有更好的性能。我们认为，原因是两个邻域的 Geom-GCN 相比单个邻域的 Geom-GCN 聚合了更多无关的消息，并且这些无关消息对于性能产生了不利的影响。
  我们认为注意力机制可以有效缓解这个问题，并留待以后工作进行研究。
Geom-GCN 的结构邻域非常灵活，可以组合任意的 embedding 空间。为了研究哪种 embedding 空间是理想的，我们通过采用由不同 embedding 空间构建的结构邻域来创建新的 Geom-GCN 变体。对于采用 Isomap 构建图空间邻域、采用 Poincare Embedding 构建潜在空间邻域的变体，我们用 Geom-GCN-IP 来表示。其它组合的命名规则依此类推。
这里构建了两种潜在空间，从而得到 3 种类型的结构邻域（一个来自图控件，两个来自潜在空间）。
下表给出了所有变体的性能，评估指标为测试集的平均准确率。
结论：有一些组合的性能要优于标准的 Geom-GCN，有一些组合的性能更差。因此，如何设计自动选择合适的 embedding 空间的端到端框架是未来的重要方向。
这里我们首先介绍Geom-GCN 的理论时间复杂度，然后比较 GCN, GAT, Geom-GCN 的实际运行时间。
Geom-GCNrepresentation $O(n\times d_h\times 2|\mathcal R|)$ $n$ $d_h$ $2|\mathcal R|$ 为虚拟节点数量。相比之下 GCNrepresentation $O(n\times d_h)$ 。
我们给出所有数据集上 GCN, GAT, Geom-GCN 的实际运行时间（500epoch $y$ 轴表示对数时间（秒）。
结论：GCN 训练速度最快，GAT 和 Geom-GCN 处于同一水平。未来的一个重要方向是开发 Geom-GCN的加速技术，从而解决 Geom-GCN 的可扩展性。
为研究 Geom-GCN 在节点feature representation 中学到的模式，我们可视化了 Cora 数据集在 Geom-GCN-P 模型最后一层得到的feature representation。我们通过 t-SNE 将该特征表示映射到二维空间中，如下图所示。节点的不同颜色代表不同的类别。
可以看到：
- 具有相同类别的节点表现出空间聚类 spatial clustering，这可以显示 Geom-GCN 的判别能力。
- 图中所有节点均呈现放射状分布，这表明通过 Poincare Embedding 提出的 Geom-GCN 学到了图的层次结构。