2017_LANE

一、LANE [2017]

《Label Informed Attributed Network Embedding》

属性网络（ attributed network ）在各种现实世界的信息系统中无处不在，例如学术网络、医疗保健系统。与仅观测节点之间交互和依赖关系的常规网络不同，属性网络中的每个节点通常关联一组丰富的特征。例如，随着社交网络服务的普及，人们不仅可以结识朋友从而形成在线社区，还可以积极分享意见、发表评论。在社会科学中，人们已经研究了社交影响理论（social influence theory），即：个体的属性既可以反映、也可以影响他们的社区结构。此外，许多数据挖掘应用程序（如情感分析、信任预测）都可以受益于几何结构和节点属性之间的相关性。
network embedding 作为一种高效的图挖掘计算工具，旨在将网络中所有节点的拓扑邻近性（topological proximity）映射为连续的低维向量 representation 。学到的 embedding representation 有助于节点分类、链接预测、网络可视化等众多应用。虽然 network embedding 已被广泛研究，但是对 Attributed Network Embedding: ANE 的研究仍处于早期阶段。与从纯网络（pure network ）学习的 network embedding 相比，ANE 的目标是利用网络邻近性（proximity）和节点属性亲和性（affinity ）。由于两种信息源的异质性，现有的 network embedding 算法很难直接应用于 ANE 。
人们在各种现实世界的网络中收集了丰富的 label，如 group 或者社区类别。例如，在 Facebook 和 Flickr 等许多社交网络中，用户被允许加入一些预定义的分组。同组的用户倾向于分享类似主题的帖子或照片，并且组内用户之间也经常互动。引文网络是另一个例子。在同一个研究社区中发表的论文通常具有共同的主题，它们还大量引用来自同一社区的其它论文。这些事实可以用同质性假设（homophily hypothesis）来解释，即，具有相同 label 的个体通常具有相似的社交关系和相似的节点属性。label 受到网络结构和属性信息的强烈影响，并与它们固有地相关。受到这一事实（即，label 可能有助于学习更好的联合 embedding representation）的启发，而现有方法关注于以无监督的方式学习 embedding，论文 《Label Informed Attributed Network Embedding》建议研究如何利用 label 信息并将其整合到 ANE 中。
然而，在属性网络中建模和利用 label 是一项困难的任务。有两个主要挑战：
- 首先，属性网络和 label 信息可能是稀疏（sparse）的、不完整（incomplete ）的、噪音（noisy ）的。例如，在社交网络中，单个用户的好友数量相比总用户量而言总是极少的，特定 label 的活跃用户的占比也可能很小。
- 其次，鉴于属性网络及其 label 的异质性，学习统一的 representation 具有挑战性。与评论和帖子等属性不同，label 将实例划分为不同的分组或社区。很难显式地建模所有这些多模态信息源之间的相关性（correlation），并将它们共同嵌入到信息量丰富的 embedding representation 中。
因此，利用异质的、噪音的信息来相互补充从而获得有效的、鲁棒的 embedding representation 是一项具有挑战性的任务。
在论文 《Label Informed Attributed Network Embedding》中，作者研究了 label informed attributed network embedding 的问题，并提出了一个有效的框架 LANE。具体而言，论文旨在回答以下问题：
- 如何将 label 建模且融合到 ANE 框架中？
- label 对 embedding representation learning 的潜在影响是什么？
- LANE 通过利用 label 对其它学习任务（如节点分类）做出多大贡献？
总之，论文的主要贡献如下：
- 正式定义 label informed attributed network embedding 问题。
- 提出一个新的框架 LANE。LANE 可以将 label 与属性网络关联，并通过建模它们的结构邻近性和相关性，将它们平滑地嵌入到低维 representation 中。
- 提出一种有效的交替算法来解决 LANE 的优化问题。
- 实验评估和验证了 LANE 在真实世界属性网络上的有效性。
相关工作：
近年来，network embedding 越来越受欢迎。
- network embedding 的开创性工作可以追溯到 graph embedding 问题，该问题由 《On determining the genus of a graph in O(v^{O(g)}) steps》 在 1979 年作为 graph genus determining 问题所引入。
- 一系列更通用的 graph embedding 方法是在 2000 年代左右开发的。他们的目标是生成可以对数据的非线性几何进行建模的低维流形（low-dimensional manifold），包括 Isomap、Laplacian Eigenmap、谱技术。
- 到目前为止，由于网络数据的普遍性，人们已经实现了各种 network embedding 算法。
  - 《Probabilistic latent semantic visualization: topic model for visualizing documents》 将概率潜在语义分析（probabilistic latent semantic analysis: pLSA ）应用于嵌入文档网络。
  - 《Community evolution in dynamic multi-mode networks》 研究了利用时间信息分析动态多模式网络的优势。
  - 《Structure preserving embedding》 利用半定程序（semidefinite program ）来学习低维 representation ，从而很好地保留了全局拓扑结构。
  - 《Topic modeling with network regularization》 设计了一种基于 harmonic regularization 的 embedding 框架来解决具有网络结构的主题建模问题。
  - 《Distributed large-scale natural graph factorization》 提出了一种用于大规模图的异步分布式矩阵分解算法。
  - 《Learning social network embeddings for predicting information diffusion》 将观察到的时间动态投影到潜在空间中，从而更好地建模网络中的信息扩散。
  - 《node2vec: Scalable feature learning for networks》 通过增加邻域的灵活性，进一步推进了基于随机游走的 embedding 算法。
  - 为了嵌入异质网络，《Learning latent representations of nodes for classifying in heterogeneous social networks》 将 transductive 模型和深度学习技术扩展到该问题中。
  - 《Revisiting semi-supervised learning with graph embeddings》 利用概率模型以半监督方式进行 network embedding。
  最近，人们提出了几种基于深度学习的 embedding 算法，从而进一步提高学习 representation 的性能。
在众多现实世界网络中，节点往往关联丰富的节点属性信息，因此人们提出了属性网络分析。在这些网络中，人们普遍认为几何结构和节点属性之间存在相关性。因此，同时利用这两者的算法可以提高整体的学习性能。例如，《What's in a hashtag? content based prediction of the spread of ideas in microblogging communities》 通过分析社交图的拓扑和内容，从而推进对思想（ideas）传播的预测。为了解决复杂的数据结构，人们致力于将两个信息源联合嵌入到一个统一的空间中。
- 《Exploring context and content links in social media: A latent space method》 探索了一种有效的算法，通过构建语义概念semantic concept 的潜在空间，从而联合嵌入社交媒体中的链接和内容。
- 《Probabilistic latent document network embedding》 提出一个整体框架来同时处理文档链接和文本信息，并找到一个统一的低维 representation。他们通过联合概率模型来实现这一目标。
- 《Unsupervised streaming feature selection in social media》 利用流式特征选择框架联合学习高维内容数据和链接信息中的潜在因子的概率。
- 《Heterogeneous network embedding via deep architectures》 将内容转换为另一个网络，并利用非线性多层 embedding 模型来学习构建的内容网络与原始网络之间的复杂交互。
在许多应用中，数据表现出多个方面（multiple facets），这些数据被称作多视图数据。多视图学习（ multi-view learning ）旨在从多个信息源中学习统计模型。人们已经提出了许多算法。
- 《A reconstruction error based framework for multi-label and multi-view learning》 研究了一种基于重构误差的框架，用于处理 multi-label 和 multi-view 学习。该框架可以显式量化多个 label 或视图的合并的性能。
- 《Pre-trained multi-view word embedding using two-side neural network》 应用了一个 two-side 多模态神经网络来嵌入基于多个数据源的 word 。
《A survey of multi-view machine learning》 对多视图学习给出了更详细的回顾。我们的工作与多视图学习之间的主要区别在于：属性网络可以被视为一个特殊构建的数据源，而且 ANE 本身就是一个具有挑战性的问题。label 也是具有特定形式的特殊数据源。

1.1 模型

1.1.1 基本概念

$\mathcal G=(\mathcal V,\mathcal E,\mathbf W, \mathbf A)$ 为一个属性网络，其中：
- $\mathcal V=\{v_1,\cdots,v_n\}$ $n$ $\mathcal E$ 为所有边的集合。
- $\mathbf W=\{w_{i,j}\} \in \mathbb R^{n\times n}$ $w_{i,j}\gt 0$ $(v_i,v_j)\in \mathcal E$ $(v_i,v_j)\ne \mathcal E$ $w_{i,j} = 0$ 。
- $\mathbf A =\{a_{i,j}\}\in \mathbb R^{n\times m}$ $m$ $\mathbf A$ $i$ $\mathbf{\vec a}_i = (a_{i,1},\cdots,a_{i,m})^\top\in \mathbb R^m$ $v_i$ 的属性向量。
除了网络结构和节点属性之外，每个节点还关联一组 labellabel $\mathbf Y = \{y_{i,j}\}\in \mathbb R^{n\times k}$ $k$ label $\mathbf Y$ $i$ $\mathbf{\vec y}_i = (y_{i,1},\cdots,y_{i,k})^\top\in \mathbb R^k$ label $y_{i,j} = 1$ $j$ 类 label ，每个节点可以属于其中某一类 label 或者某几类 label 。
label informed attributed network embedding $\mathcal G$ label $\mathbf Y$ $v_i$ representation $\mathbf{\vec h}_i\in \mathbb R^d$ $\mathbf{\vec h}_i$ 尽可能包含属性网络信息和 label 信息。
我们提出了一种新颖的informed attributed network embedding: LANE 方法。LANE 可以建模属性网络空间和 label 信息空间中的节点邻近性，并将它们联合嵌入到统一的低维 representation 中。下图说明了 LANE 的主要思想，图中有一个含有六个节点的属性网络，每个节点都有各自的label 。
LANE 通过两个模块来学习节点的embedding ：属性网络嵌入（ Attributed Network Embedding）、标签信息嵌入（ Label Informed Embedding）。
- representation $\mathbf U^{(G)}$ $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ $\mathbf U^{(A)}$ $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ 中。
- $\mathbf U^{(G)}$ label $\mathbf U^{(Y)}$ 中。
- 最后，我们将所有学到的潜在representationrepresentation $\mathbf H$ 中。
如下图所示，节点 1 和节点 3 的 embedding向量分别为 [0.54, 0.27] 和 [0.55, 0.28]，这意味着它们在原始空间中具有相似的属性。为了有效地学习节点 embedding ，我们设计了一种高效的交替优化算法。

1.1.2 Attributed Network Embedding: ANE

Attributed Network Embedding $n\times d$ $\mathcal G$ 中的节点，从而保持网络结构信息和节点属性信息。具体而言，我们旨在为结构相似或者属性相似的节点分配相似的向量representation 。
$v_i$ $v_j$ representation $\mathbf{\vec u}_i$ $\mathbf{\vec u}_j$ $s_{i,j} = \cos(\mathbf{\vec w}_i,\mathbf{\vec w}_j)$ $v_i,v_j$ $\left\|\mathbf{\vec u}_i - \mathbf{\vec u}_j\right\|_2^2$ representation $\mathbf {\vec w}_i \in \mathbb R^n$ $i$ $v_i,v_j$ 的结构相似性。
$\mathbf{\vec w}_i$ AANE $w_{i,j}$ 作为结构相似性指标。
$s_{i,j}\times \left\| \mathbf{\vec u}_i - \mathbf{\vec u}_j\right\|_2^2$ $s_{i,j}$ $\{\mathbf{\vec u}_i,\mathbf{\vec u}_j\}$ 之间的不一致程度：
- $v_i$ $v_j$ $s_{i,j}$ $\mathbf{\vec u}_i$ $\mathbf{\vec u}_j$ $\left\| \mathbf{\vec u}_i - \mathbf{\vec u}_j\right\|_2^2$ 较小）。
- $\mathbf{\vec u}_i$ $\mathbf{\vec u}_j$ $v_i$ $v_j$ $s_{i,j}$ 较小）。
$\mathbf{\vec u}_i$ $\mathbf{\vec u}_j$ embedding $\mathbf U^{(G)^\top} \mathbf U^{(G)} = \mathbf I$ 。
考虑所有节点，则我们得到总的不一致程度为：
$\frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} s_{i, j} \times {‖ {\vec{u}}_{i} - {\vec{u}}_{j} ‖}_{2}^{2}$
pair-wise $\mathbf S^{(G)}$ $s_{i,j}$ $i$ $j$ $d_i = \sum_{j} s_{i,j}$ $i$ $d_i$ $d_i$ $d_i$ $d_j$ 进行归一化：
$\frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} s_{i, j} \times {‖ \frac{{\vec{u}}_{i}}{{\sqrt{d}}_{i}} - \frac{{\vec{u}}_{j}}{{\sqrt{d}}_{j}} ‖}_{2}^{2}$
这里采用这种归一化形式是为了得到拉普拉斯矩阵的矩阵形式。
则我们的目标函数为：
$min_{U^{(G)}} \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} s_{i, j} \times {‖ \frac{{\vec{u}}_{i}}{{\sqrt{d}}_{i}} - \frac{{\vec{u}}_{j}}{{\sqrt{d}}_{j}} ‖}_{2}^{2}$
$\mathbf U^{(G)}$ representation $i$ $\mathbf{\vec u}_i$ 。根据归一化图拉普拉斯矩阵的定义，我们将结构邻近性建模的目标函数重写为：
$\begin{matrix} max_{U^{(G)}} J_{G} = tr (U^{(G)^{⊤}} L^{(G)} U^{(G)}) \\ s . t . U^{(G)^{⊤}} U^{(G)} = I \end{matrix}$
$\text{tr}(\cdot)$ $\mathbf L^{(G)} = \mathbf D^{(G)-\frac 12} \mathbf S^{(G)} \mathbf D^{(G)-\frac 12}$ $\mathbf D^{(G)}=\text{diag}(d_1,\cdots,d_n)$ 为对角矩阵。
$\mathbf U^{(G)^\top}\mathbf U^{(G)} = \mathbf I$ 是为了得到唯一解。如果没有该约束，则解为任意多个。
pair-wise $\mathbf S^{(A)}$ representation $\mathbf U^{(A)}$ $\mathbf U^{(A)}$ $\mathbf S^{(A)}$ 之间的不一致性。
$\mathbf L^{(A)} = \mathbf D^{(A)-\frac 12} \mathbf S^{(A)} \mathbf D^{(A) -\frac 12}$ $\mathbf D^{(A)}=\text{diag}(d_1^{(A)},\cdots,d_n^{(A)})$ $d_i^{(A)}$ $\mathbf S^{(A)}$ $i$ 行之和。则节点属性邻近性建模的目标函数为：
$\begin{matrix} max_{U^{(A)}} J_{A} = tr (U^{(A)^{⊤}} L^{(A)} U^{(A)}) \\ s . t . U^{(A)^{⊤}} U^{(A)} = I \end{matrix}$
$\mathbf U^{(A)}$ $\mathbf U^{(G)}$ $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ $\mathbf U^{(A)}$ 投影后的矩阵的方差作为相关性度量：
$ρ_{1} = tr (U^{(A)^{⊤}} U^{(G)} U^{(G)^{⊤}} U^{(A)})$
$\mathbf U^{(G)^\top} \mathbf U^{(A)}$ $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ $\mathbf{\vec a}$ $\mathbf{\vec b}$ 上的投影。
这里是通过正则化的方式，迫使结构邻近性和节点属性邻近性产生高度的相关。
$\mathcal J_G,\mathcal J_A$ $\mathbf U^{(A)}, \mathbf U^{(G)}$ $\rho_1$ ：
$\begin{matrix} max_{U^{(G)}, U^{(A)}} (J_{G} + α_{1} J_{A} + α_{1} ρ_{1}) \\ s . t . U^{(G)^{⊤}} U^{(G)} = I, U^{(A)^{⊤}} U^{(A)} = I \end{matrix}$
$\alpha_1$ 平衡 ANE 模块内部网络结构和节点属性的贡献。
论文 《Accelerated Attributed Network Embedding》AANE $\mathbf U^{(A)} = \mathbf U^{(G)}$ $\rho_1$ $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ 的约束，使得模型表达能力更强。
我们在 ANE 模块基于pair-wise 相似性来执行属性网络 embedding。这种方法和谱聚类相一致，它有几个优点：
- 对于输入没有很强的假设，即普适性较好，可以推广到很多实际问题。
- 目标函数可以使用很多图论来解释，如 ratio-cut partitioning、随机游走。
- 可以通过eigen-decomposition 特征值分解很容易求解问题。

1.1.3 Label Informed Embedding: LIE

label 信息在确定每个节点内部结构方面起着至关重要的作用，它和网络结构、节点属性有着强烈的、固有的相关性。除了这些强相关性之外，label 还可能被纳入前面提到的 ANE 模块中。然而，label 通常是噪音（noisy ）的、且不完整（incomplete）的。直接探索label 可能会对最终的 embedding 产生负面影响。我们提出了一种对 label 进行建模的方法，并且使用两个步骤来强化 embedding representation learning ：label information modeling 、correlation projection 。
Label Information Modeling：在这一步中，我们将labelrepresentation $\mathbf U^{(Y)}$ 中。其基本思想是：利用属性网络embedding 来平滑label 邻近性，使得当节点具有相同的 label 时，它们的网络结构、节点属性、以及最终的representation 都趋近于相似。
具体而言，我们根据labelclique $\mathbf Y\mathbf Y^\top\in \mathbb R^{n\times n}$ $i$ $j$ $\mathbf{\vec y}_i\cdot \mathbf{\vec y}_j$ $v_i$ $v_j$ 的label 向量的内积。假设每个节点仅属于一个label 类别：
- $v_i$ $v_j$ $\mathbf{\vec y}_i\cdot \mathbf{\vec y}_j = 0$ $v_i$ $v_j$ 属于不同的clique 。
- $v_i$ $v_j$ $\mathbf{\vec y}_i\cdot \mathbf{\vec y}_j = 1$ $v_i$ $v_j$ 属于相同的clique 。
label $\mathbf{\vec y}_i\cdot \mathbf{\vec y}_j$ $v_i$ $v_j$ 的类别交集。
$\mathbf Y\mathbf Y^\top$ label $\mathbf S^{(YY)}$ $\mathbf Y \mathbf Y^\top$ $\mathbf L^{(YY)} = \mathbf D^{(Y)-\frac 12} \mathbf S^{YY} \mathbf D^{(Y)- \frac 12}$ $\mathbf D^{(Y)}$ $\mathbf S^{(YY )}$ 对应行的和。
$\mathbf U^{(Y)}$ label $\mathbf Y\in \mathbb R^{n\times k}$ $k$ $\mathbf Y\mathbf Y^\top$ $k$ $\mathbf S^{(YY)}$ $k$ $k \ll d$ $\mathbf L^{(YY)}$ 的特征值分解的效果不理想。
$\mathbf U^{(G)}\mathbf U^{(G)^\top}$ 来smooth 模型。我们定义以下目标函数使得相同label 的节点具有相似的representation：
$\begin{matrix} max_{U^{(Y)}} J_{Y} = tr (U^{(Y)^{⊤}} (L^{(Y Y)} + U^{(G)} U^{(G)^{⊤}}) U^{(Y)}) \\ s . t . U^{(Y)^{⊤}} U^{(Y)} = I \end{matrix}$
这里假设结构相似的节点可能具有相同的 label 。这里没有考虑属性邻近性，主要是为了将 label 融合到网络结构中。
$\lambda$ ，从而平衡 labelembedding $\mathbf L^{(YY)} + \lambda \mathbf U^{(G)} \mathbf U^{(G)^\top}$ ？论文并未讨论。
$\mathcal J_A+\rho_1 = \text{tr}\left( \mathbf U^{(A)^\top} \left( \mathbf L^{(A)} + \mathbf U^{(G)} \mathbf U^{(G)^\top}\right)\mathbf U^{(A)}\right)$ embedding $\mathbf U^{(G)}\mathbf U^{(G)^\top}$ 来smooth 模型。
这种方式有几个优点：
- $\mathbf U^{(G)}\in \mathbb R^{n\times d}$ $\mathbf U^{(G)} \mathbf U^{(G)^\top}$ $d$ 并且位于噪声显著降低的低秩空间。
- 其次，联合的邻近性融合了更多的信息，这使得label 信息与网络结构、节点属性等信息相一致。
  $\text{tr}\left( \mathbf U^{(Y)^\top} \mathbf U^{(G)} \mathbf U^{(G)^\top} \mathbf U^{(Y)}\right)$ $\mathbf U^{(G)}$ $\mathbf U^{(Y)}$ 之间的相关性，这有助于label 邻近性学习，因为label 和节点结构、节点属性是高度相关的。
- representation $\mathbf U^{(Y)}$ 中的噪音大大降低，并且原始的 label 空间中大部分信息可被恢复。
因此，尽管label 信息可能是不完整的、且噪音的，但我们仍然能够捕获label 空间中的节点邻近性。
Correlation Projectionembedding $\mathbf U^{(A)}, \mathbf U^{(G)}$ ，以及labelembedding $\mathbf U^{(Y)}$ embedding $\mathbf H$ 。
我们将这些 embeddingembedding $\mathbf H$ 。为了尽可能保留投影后的信息，我们利用投影矩阵的方差作为其相关性的度量，定义为：
$\begin{matrix} ρ_{2} = tr (U^{(G)^{⊤}} H H^{⊤} U^{(G)}) \\ ρ_{3} = tr (U^{(A)^{⊤}} H H^{⊤} U^{(A)}) \\ ρ_{4} = tr (U^{(Y)^{⊤}} H H^{⊤} U^{(Y)}) \end{matrix}$
则投影的目标函数定义为：
$max_{U^{(\cdot)}, H} J_{corr} = ρ_{2} + ρ_{3} + ρ_{4}$
$\mathbf U^{(\cdot)}$ 表示所有的三个潜在 embedding 。
这里通过相关性最大，从而从三个潜在 embeddingembedding $\mathbf H$ 。

1.1.4 联合学习

现在我们考虑所有的 embedding ，以及所有的相关性。我们定义两个参数来平衡不同度量的重要性从而得到 LANE 的目标函数：
$\begin{matrix} max_{U^{(G)}, U^{(A)}, U^{(Y)}, H} J = (J_{G} + α_{1} J_{A} + α_{1} ρ_{1}) + α_{2} J_{Y} + J_{corr} \\ s . t . U^{(G)^{⊤}} U^{(G)} = I, U^{(A)^{⊤}} U^{(A)} = I \\ U^{(Y)^{⊤}} U^{(Y)} = I, H^{⊤} H = I \end{matrix}$
$\alpha_1\gt 0$ ANE $\alpha_2\gt 0$ 用于平衡 ANE 模块和 LIE 模块的贡献。
$\mathcal J$ 的最优解，我们能够使得 embedding representation learningcorrelation projection $\mathbf H$ 能够捕获结构邻近性、属性邻近性、label 邻近性，以及它们之间的相关性。
优化算法：目标函数有四个矩阵变量需要优化，因此无法得到闭式解。这里我们采用一种交替优化算法来逼近最优解。基本思想是：每轮迭代时固定其中三个变量而求解另外一个变量的局部最优解。当固定其中三个变量时，目标函数就是剩下变量的凸函数。
$\mathbf U^{(G)}$ 的二阶导数：
$\nabla_{U^{(G)}}^{2} J = L^{(G)} + α_{1} U^{(A)^{⊤}} U^{(A)} + α_{2} U^{(Y)^{⊤}} U^{(Y)} + H^{⊤} H$
$\mathbf L^{(G)}$ $\alpha_1\gt0,\alpha_2\gt0$ $\mathbf U^{(G)^\top} \mathbf U^{(G)},\mathbf H^\top\mathbf H$ $\nabla_{\mathbf U^{(G)}}^2 \mathcal J$ 为半正定矩阵。
$\mathbf U^{(A)},\mathbf U^{(Y)},\mathbf H$ $\mathcal J$ $\mathbf U^{(G)}$ $\lambda_1,\lambda_2,\lambda_3,\lambda_4$ $\nabla_{\mathbf U^{(G)}} \mathcal J = \mathbf 0$ ，则有：
$(L^{(G)} + α_{1} U^{(A)} U^{(A)^{⊤}} + α_{2} U^{(Y)} U^{(Y)^{⊤}} + H H^{⊤}) U^{(G)} = λ_{1} U^{(G)}$
$\mathbf U^{(G)}$ $\mathbf L^{(G)} + \alpha_1 \mathbf U^{(A)} \mathbf U^{(A)^\top} + \alpha_2 \mathbf U^{(Y)} \mathbf U^{(Y)^\top} + \mathbf H \mathbf H^\top$ top $d$ 特征向量。
$\mathcal J$ top $d$ 特征向量：
$\begin{matrix} (α_{1} L^{(A)} + α_{1} U^{(G)} U^{(G)^{⊤}} + H H^{⊤}) U^{(A)} = λ_{2} U^{(A)} \\ (α_{2} L^{(Y Y)} + α_{2} U^{(G)} U^{(G)^{⊤}} + H H^{⊤}) U^{(Y)} = λ_{3} U^{(Y)} \\ (U^{(G)} U^{(G)^{⊤}} + U^{(A)} U^{(A)^{⊤}} + U^{(Y)} U^{(Y)^{⊤}}) H = λ_{4} H \end{matrix}$
由于每个updating step 都是求解凸优化问题，因此可以保证收敛到局部最优解。
representation $\mathbf U^{(G)}$ $\mathcal J$ $\epsilon$ 为止。
LANE 训练算法：
- 输入：
  - $\mathcal G(\mathcal V,\mathcal E,\mathbf W,\mathbf A)$
  - label $\mathbf Y$
  - embedding $d$
  - $\epsilon$
- embedding $\mathbf H$
- 步骤：
  - $\mathbf S^{(G)}$ $\mathbf S^{(A)}$ label $\mathbf S^{(YY)}$
  - $\mathbf L^{(G)},\mathbf L^{(A)},\mathbf L^{(Y)}$
  - $t=1,\mathbf U^{(A)} = \mathbf 0, \mathbf U^{(Y)} = \mathbf 0,\mathbf H = \mathbf 0$
  - $\mathcal J_t - \mathcal J_{t-1} \le \epsilon$ 。迭代步骤为：
    - $\mathbf U^{(G)}$ ：
      $(L^{(G)} + α_{1} U^{(A)} U^{(A)^{⊤}} + α_{2} U^{(Y)} U^{(Y)^{⊤}} + H H^{⊤}) U^{(G)} = λ_{1} U^{(G)}$
    - $\mathbf U^{(A)}$ $\mathbf U^{(G)}$ ）
      $(α_{1} L^{(A)} + α_{1} U^{(G)} U^{(G)^{⊤}} + H H^{⊤}) U^{(A)} = λ_{2} U^{(A)}$
    - $\mathbf U^{(Y)}$ $\mathbf U^{(G)},\mathbf U^{(A)}$ ）
      $(α_{2} L^{(Y Y)} + α_{2} U^{(G)} U^{(G)^{⊤}} + H H^{⊤}) U^{(Y)} = λ_{3} U^{(Y)}$
    - $\mathbf H$ $\mathbf U^{(G)},\mathbf U^{(A)},\mathbf U^{(Y)}$ ）
      $(U^{(G)} U^{(G)^{⊤}} + U^{(A)} U^{(A)^{⊤}} + U^{(Y)} U^{(Y)^{⊤}}) H = λ_{4} H$
LANE $\mathbb R^{n\times n}$ 矩阵的top dLanczos $O(dn^2)$ 复杂度。
$T_a$ LANE $O(T_a+dn^2)$ spectral embedding $d\ll n$ $T_a$ $\mathbf W$ $\mathbf A$ LANE $O(n^2 + n \mathcal T)$ $\mathcal T$ $\mathbf W$ $\mathbf A$ 中所有非零元素总数。
LANE $O(n^2)$ 。
这种复杂度对于大型网络而言是不可行的。
在某些网络中节点属性或者节点label 可能不可用。如，当移动通信公司希望分析客户网络以便提供更好的服务时，他们只能收集到通讯网络及其部分label 信息，通讯内容、用户偏好之类的属性不可用。LANE 也能够处理这类场景，其中节点属性或节点label 之一发生缺失，或者二者全部缺失。
label $\mathcal J$ $\mathcal J_Y$ label $\rho_4$ label $\mathbf H$ 的相关性进行建模）。移除这两项之后，我们的目标函数为：
$\begin{matrix} max_{U^{(G)}, U^{(A)}, H} J = J_{G} + β_{1} J_{A} + β_{2} ρ_{1} + ρ_{2} + ρ_{3} \\ s . t . U^{(G)^{⊤}} U^{(G)} = I, U^{(A)^{⊤}} U^{(A)} = I, H^{⊤} H = I \end{matrix}$
$\beta_1\gt 0, \beta_2 \gt 0$ 决定了节点属性的贡献，以及节点属性和网络结构相关性的贡献。
LANE 的这种变体我们称作 LANE_w/o_LABEL ，其求解方法也类似于上述交替优化算法。

1.2 实验

数据集：
- BlogCatalog 数据集：一个博客社区，用户彼此关注从而构成一个网络。用户可以生成关键词来作为其博客的简短描述，我们将这些关键词作为节点（用户）的属性。用户也可以将其博客注册为指定的类别，我们将这些类别作为用户的 label 。
- Flickr 数据集：一个在线图片共享社区，用户彼此关注从而构成一个网络。用户可以为图片指定 tag ，我们将这些 tag 作为节点（用户）的属性。用于可以加入不同的组，我们将这些组作为用户的 label 。
Baseline 模型可以分为四类：
- 首先，为评估embedding 的效果，我们使用原始特征作为 baseline 。
- 然后，为评估节点属性的贡献，我们考虑三种仅嵌入网络结构的方法，包括 DeepWalk,LINE, LANE_on_Net 。
- 接着，为评估label信息的贡献，我们考虑两种 ANE 方法，包括 LCMF 和 LANE_w/o_Label 。
- 最后，为评估 LANE 的效果，我们考虑SpecComb 和 MultiView 方法。
具体描述如下：
- Original Features 原始特征：将原始网络结构特征、原始节点属性特征直接拼接，从而作为节点特征。
- DeepWalk：使用 SkipGram 学习基于图上的、截断的随机游走序列从而得到图的 embedding 。
- LINE：建模图的一阶邻近度和二阶邻近度从而得到图的 embedding 。
- LCMF：它通过对网络结构信息和节点属性信息进行联合矩阵分解来学习图的 embedding 。
- SpecComb $\mathcal G$ label $\mathbf Y$ 拼接到一个矩阵，然后执行归一化的谱嵌入（ normalized spectral embedding ）。最后选择 top d 的特征向量作为embedding 。
- MultiView：将网络结构、节点属性、节点 label 视为三个视图，并在它们上共同应用正则化的谱聚类（spectral clustering）。
- LANE_on_NET 和 LANE_W/o_LABEL：是LANE 的两个变种。LANE_on_NET 仅对单纯的网络结构建模， LANE_W/o_LABEL 对网络结构和节点属性建模（没有节点label 信息）。
实验配置：我们验证不同算法学到的 embedding 对节点分类任务的有效性。我们使用五折交叉验证，并随机将数据集划分为训练集和测试集。其中，训练集不包含任何测试集的信息（训练期间测试节点是 unseen 的），但是测试集包含测试节点到任何其它节点的链接信息。
我们首先在训练集上学到节点的 embedding，然后在训练集上训练一个SVM 分类器，分类器的输入为节点的 embedding、输出为节点的labelembedding $\mathbf B^{(G)}$ $\mathbf B^{(A)}$ $\mathbf W$ $\mathbf A$ embedding $\mathbf V$ ：
$W = V B^{(G)}, A = V B^{(A)}$
$\mathbf W$ $\mathbf A$ unseen $\mathbf V$ 。
为简单起见这里我们使用线性映射，也可以使用其它非线性映射函数。我们并没有根据测试集来训练 embeddinglabel $\mathbf Y$ $\mathbf B^{(G)}$ $\mathbf B^{(A)}$ $k$ 个顶点，其 embedding 向量为：
${\vec{h}}_{k} = {\vec{w}}_{k} {({\vec{B}}^{(G)})}^{- 1} + δ {\vec{a}}_{k} {({\vec{B}}^{(A)})}^{- 1}$
$\delta \gt 0$ $\mathbf W$ $\mathbf A$ $(\cdot)^{-1}$ 为逆矩阵。
最后我们基于测试集的 embedding 和训练集学到的 SVM 分类器来对测试集进行分类，并报告分类的 F1 指标。每种配置都随机执行 10 次并报告指标的均值。
embedding $d=100$ 。Baseline 方法的其它超参数都使用原始论文中的超参数，LANE 方法的超参数通过grid search 搜索到合适的值。
为证明embedding 的有效性，我们将 LANE 及其变体与原始特征进行比较。其中 BlogCatalog 数据集的原始特征为 12346 维、Flickr 数据集的原始特征为 18107 维。实验中，我们将 embedding 维度从5 增加到 100Flickr $d$ 对应的分类效果。我们忽略了 BlogCatalog 数据集，因为结果也类似。
结论：
- $d=60$ 远小于18107 时，LANE_w/o_Label 可以达到和原始特征相近的分类能力。
- $d=35$ 远小于18107 时，LANE 可以达到和原始特征相近的分类能力。
- LANE_on_Net 比原始特征效果更差，这是因为它仅包含网络结构信息。
因此，通过利用 embedding representation learning，LANE 实现了比原始特征更好的性能。
为研究 LANEBaseline $d=100$ $\{\frac{1}{16},\frac{1}{8},\frac 14,\frac 12,1\}$ 。
结论：
- 所有情况下，LANE 总是优于Baseline 模型。
- $\frac 1{16}$ 增加到 100% 时，LANE 的性能持续改善，但增长的幅度变小。
为评估label 信息对于 embedding 的影响，我们分析上表中的数据。
- 与单纯的网络结构embedding 方法（DeepWalk, LINE, LANE_on_Net ）相比，使用了节点属性信息的 LANE_w/o_Label 的效果更好。但是利用了label 信息之后，LANE 进一步超越了LANE_w/o_Label。这证明了将label 信息融合到 embedding 中的优势。
  另外 LANE 也超过了属性网络embedding 方法 LCMF，这进一步证明了label 信息的优势。
- 通过 LANE 和 SpecComb/MultiView 的比较发现，SpecComb/MultiView 的效果始终不如 LANE，甚至比单纯的网络结构 embedding 方法（如 DeepWalk ）更差。这是因为：
  - SpecComb 没有明确考虑固有的相关性，并且直接拼接异质信息并不是组合异质信息的合适方法。
  - MultiView 会平等对待网络结构、节点属性、label 信息，这也不是融合这些异质信息的好方法。
所有这些观察结果表明：
- 属性网络和label 之间确实存在很强的相关性。
- label 信息确实可以帮助我们获得更好的 embedding representation 。
- 如何融合label 信息需要一种合适的方法。
LINE 通过执行 label informed embedding 成功地实现了这一提升，并始终优于所有 baseline 方法。我们要强调的是：在节点分类任务中，所有方法都可以访问训练集中的 label，并以不同的方式利用label 信息。只有 LANE, SpecComb, MultiView 可以将这些 label 合并到 embedding representation learning 中。因此，LANE 的优势不是拥有额外的信息源，而是执行 label informed embedding 的结果。
$\alpha_1,\alpha_2$ 平衡了属性网络和label 信息的贡献。我们同时将它们从 0.01 增加到 100。Flickr 数据集上的指标如下，BlogCatalog 也有类似结果因此省略。
结论：
- label $\alpha_1\gt 1,\alpha_2 \gt 10$ 时，LANE 会实现相对较高的性能。
- $\alpha_1$ $\alpha_2$ $\alpha_2 \simeq 1$ $\alpha_2$ 很小，结论也类似。
- $\alpha_1 = 100$ $\alpha_2$ 从 0.01 变化到 10042.7% $\alpha_2=100$ $\alpha_1$ 从 0.01 变化到 100 时，模型性能提升了 16.07%。这表明label 信息对于 LANE 的影响大于属性网络。
  $\alpha_2$ 的波动更大，这说明 label 信息的影响更大。
总之，通过配置合理的参数，LANE 可以实现相对较高的性能。同时，label 信息在 embedding 过程中非常重要。
$d$ 从 20 变化到 180 来研究分类性能的影响。。在 Flickr 数据集上不同方法的效果和 d 的关系如下图，BlogCatalog 也有类似结果因此省略。
结论：
- $d\gt 20$ 时之前观察到的结论都成立：LANE始终比所有基准方法效果更好。
- $d$ LANE $d$ 。
最后我们比较 LANE 和两种属性网络 ANE 方法（LCMF 和 MultiView ）的运行时间。我们在 Flickr 数据集上观察输入节点数量和训练时间（对数表示）的关系，BlogCatalog 也有类似结果因此省略。
结论：LANE 的运行时间最少。原因是：
- LCMF 基于随机梯度下降来优化，这通常收敛速度很慢。
- MultiView 具有和 LANE 相同的时间复杂度，但经验表明 LANE 可以在这两个数据集上仅使用几个迭代就能收敛。因此这证明了 LANE 的计算效率。