9_ctr_prediction4

二十六、AutoInt[2018]

由于几个原因，CTR 预测问题非常具有挑战性：
- 首先，输入特征是极其稀疏和高维的。
  在现实世界的应用中，相当比例的用户人口统计学和item 属性通常是离散的。为了应用监督学习，这些特征首先被转换为 one-hot embedding 向量，这很容易导致特征具有数百万的维度。面对如此稀疏的、高维的输入特征，机器学习模型很容易过拟合。
- 其次，正如大量文献所示，高阶特征交互 feature interaction 对良好的性能至关重要。然而，寻找这种有意义的高阶组合特征在很大程度上依赖于领域专家。此外，几乎不可能手工制作出所有有意义的组合。
  有人可能会问，我们可以列举出所有可能的高阶特征，让机器学习模型选择有意义的特征。然而，枚举所有可能的高阶特征将指数级地增加输入特征的维度和稀疏度，导致更严重的模型过拟合问题。
Factorization Machine: FM结合了多项式回归模型和因子分解技术从而建模特征交互，并在各种任务中证明了有效性。然而，受其多项式的限制，它只对低阶特征交互建模有效，而无法捕获高阶特征交互。
最近，人们提出许多基于深度神经网络的工作从而建模高阶特征交互。具体而言，通常使用多层非线性神经网络来捕获高阶特征交互。然而，这类方法有两个局限性：
- 首先，全连接的神经网络在学习乘性multiplicative 的特征交互方面效率低下。
- 其次，由于这些模型是以隐式的方式学习特征交互，它们缺乏对哪些特征组合是有意义的良好解释。
在论文 《AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks》 中，作者提出了一种基于多头自注意力机制的方法。具体而言：
- categorical 特征和 numerical 特征首先被嵌入到低维空间中，这降低了输入特征的维度，同时允许不同类型的特征通过向量运算（如求和和内积）来交互。
- 然后，AutoInt 提出了一个新的交互层 interacting layer ，以促进不同特征之间的交互。在每个交互层内，允许每个特征与所有其他特征进行交互，并能够通过多头注意力机制自动识别相关特征以形成有意义的高阶特征。此外，多头机制将一个特征投射到多个子空间中，因此它可以在不同的子空间中捕获不同的特征交互。
  论文使用注意力机制来度量特征之间的相关性，这提供了良好的模型可解释性。
论文贡献：
- 论文提议研究显式学习高阶特征交互的问题，同时为该问题找到具有良好解释能力的模型。
- 论文提出了一种基于自注意力神经网络的新方法，它可以自动学习高阶特征交互，并有效地处理大规模高维稀疏数据。
- 论文在几个真实世界的数据集上进行了广泛的实验。在CTR 预测任务上的实验结果表明，所提出的方法不仅优于现有的 SOTA 的预测方法，而且还提供了良好的模型解释能力。
相关工作：
- Learning Feature Interactions：学习特征交互是一个基本问题，因此在文献中得到了广泛的研究。
  - Factorization Machine: FM 用于捕获一阶特征交互和二阶特征交互，并被证明对推荐系统的许多任务是有效的。
  - Field-aware Factorization: FFM 建模不同 field 的特征之间的细粒度交互。
  - GBFM 和 AFM 考虑了不同二阶特征交互的重要性。
  然而，所有这些方法都集中在建模低阶特征交互。最近有一些工作建模高阶特征交互：
  - NFM 将深度神经网络堆叠在二阶特征交互的输出之上，从而建模高阶特征交互。
  - PNN, FNN, DeepCrossing, Wide&Deep, DeepFM 也利用前馈神经网络来模拟高阶特征交互。
  然而，所有这些方法都是以隐式的方式学习高阶特征交互，因此缺乏良好的模型可解释性。相反，有三类工作是以显式方式学习特征交互：
  - 首先，Deep&Cross 和 xDeepFM 分别在 bit-wise level 和 vector-wise level 上对特征进行外积outer product 。虽然它们进行了显式的特征交互，但要解释哪些组合是有用的并不简单。
  - 其次，一些基于树的方法结合了 embedding-based 模型和 tree-based 模型的力量，但不得不将训练过程分成多个阶段。
  - 第三，HOFM 提出了高效的高阶分解机的训练算法。然而，HOFM 需要太多的参数，只有它的低阶（通常小于 5 ）形式可以实际使用。
  与现有工作不同的是，我们以端到端的方式显式地用注意力机制建模了特征交互，并通过可视化的方式探究学到的特征组合。
- Attention and Residual Networks：我们的模型利用了深度学习文献中的最新技术：注意力机制和残差网络。

26.1 模型

CTR Prediction $\mathbf{\vec x}\in \mathbb R^n$ $u$ item $v$ 的特征的拼接，其中 categorical featuresone-hot encoding $\mathbf {\vec x}$ $u$ item $v$ 的概率。
CTR $\mathbf{\vec x}$ $\mathbf{\vec x}$ 非常稀疏和高维，该模型将很容易过拟合。因此，最好能在低维连续空间中表示原始输入特征。
此外，如现有文献所示，利用高阶组合特征来产生良好的预测性能是至关重要的。
p $\mathbf{\vec x}\in \mathbb R^n$ p $g(x_{i_1},\cdots,x_{i_p})$ distinct field $p$ feature fields $g(\cdot)$ non-additive $x_{i_1}\times x_{i_2}$ field $x_{i_1},x_{i_2}$ 的二阶组合特征。
传统上，有意义的高阶组合特征是由领域专家手工制作的。然而，这非常耗费时间，而且很难推广到其他领域。此外，几乎不可能手工制作出所有有意义的高阶特征。因此，我们的目标是开发一种能够自动发现有意义的高阶组合特征的方法，同时将所有这些特征映射到低维的连续空间。
CTR $\mathbf{\vec x}\in \mathbb R^n$ $\mathbf{\vec x}$ 的低维representation ，它建模了高阶组合特征。
我们的方法的目标是：将原始稀疏的高维特征向量映射到低维空间，同时建模高阶特征交互。如下图所示：
- $\mathbf{\vec x}$ 作为输入，然后是一个 embedding layer，将所有的特征（即 categorical 特征和数值特征）投影到同一个低维空间。
- 接下来，我们将所有 field 的 embedding 馈入一个新的交互层 interacting layer ，该层被实现为一个多头自注意力神经网络。
  对于每个交互层，高阶特征通过注意力机制进行组合，不同种类的组合可以通过多头机制进行评估，这些多头机制将特征映射到不同的子空间。
- 最后一个交互层的输出是输入特征的低维 representation ，它建模了高阶组合特征，并进一步通过一个 sigmoid 函数来估计 CTR。
核心思想：将 Transformer Encoder Block 作用到 feature field embedding 上。
Input Layer：我们首先将用户画像和 item 属性表示为一个稀疏向量，它是所有 field 的拼接：
$\begin{matrix} (1) & \vec{x} = [{\vec{x}}_{1} \oplus {\vec{x}}_{2} \oplus \dots \oplus {\vec{x}}_{M}] \end{matrix}$
$M$ feature fields $\mathbf{\vec x}_i$ $i$ 个 fieldfeature $\oplus$ 为向量拼接。
$i$ 个 fieldcategorical $\mathbf{\vec x}_i$ one-hot $i$ 个 fieldnumerical $\mathbf{\vec x}_i$ 为标量。如下图所示。
Embedding Layer：我们用一个低维向量来表示每个 categorical 特征，即：
$\begin{matrix} (2) & {\vec{e}}_{i} = V_{i} {\vec{x}}_{i} \end{matrix}$
$\mathbf V_i$ field $i$ embedding matrix $\mathbf{\vec x}_i$ field $i$ 的 one-hot 向量。
categorical $\mathbf{\vec x}_i$ 是一个 multi-hot 向量。因此，我们将 multi-valued feature field 表示为相应 feature embedding vectors的平均值：
$\begin{matrix} (3) & {\vec{e}}_{i} = \frac{1}{q} V_{i} {\vec{x}}_{i} \end{matrix}$
$q$ $i$ field $\mathbf{\vec x}_i$ 是它的 multi-hot 向量。
可以用更复杂的、有效的操作来代替均值操作。
为了允许 categorical 特征和 numerical 特征之间的交互，我们也在同一个低维特征空间中表示 numerical 特征。我们将 numerical 特征表示为：
$\begin{matrix} (4) & {\vec{e}}_{m} = {\vec{v}}_{m} x_{m} \end{matrix}$
$\mathbf{\vec v}_m$ field $m$ embedding $x_m$ 为一个标量。
$\mathbf{\vec v}_m$ field $m$ 的所有取值上共享。
最终，embedding layer 的输出将是多个嵌入向量的拼接。
Interacting Layer $m$ $h$ $m$ $k$ 的相关性如下：
$\begin{matrix} (5) & α_{m, k}^{(h)} = \frac{\exp (ψ^{(h)} ({\vec{e}}_{m}, {\vec{e}}_{k}))}{\sum_{l = 1}^{M} \exp (ψ^{(h)} ({\vec{e}}_{m}, {\vec{e}}_{l}))}, ψ^{(h)} ({\vec{e}}_{m}, {\vec{e}}_{k}) = ⟨ W_{Q}^{(h)} {\vec{e}}_{m}, W_{K}^{(h)} {\vec{e}}_{k} ⟩ \end{matrix}$
其中：
- $\psi^{(h)}(\cdot,\cdot)$ $m$ $k$ 之间的相似性。可以通过神经网络或者简单的内积来定义注意力函数，这里我们使用内积的方式。
- $\mathbf W_Q^{(h)}, \mathbf W_K^{(h)}\in \mathbb R^{d^\prime\times d}$ embedding $d$ 为每个 fieldembedding size $d^\prime$ 为投影后的 embedding size 。
$\alpha_{m,k}^{(h)}$ $m$ $h$ 中的 representation：
$\begin{matrix} (6) & {\tilde{\vec{e}}}_{m}^{(h)} = \sum_{k = 1}^{M} α_{m, k}^{(h)} W_{V}^{(h)} {\vec{e}}_{k} \end{matrix}$
$\mathbf W_V^{(h)}\in \mathbb R^{d^\prime\times d}$ 为投影矩阵。
Transformer Encoder Block $\text{softmax}\left(\mathbf Q\mathbf K^\top\right) \mathbf V$ 。
我们通过使用多个头来创建不同的子空间，分别学习不同的特征交互。我们收集在所有子空间学到的组合特征如下：
$\begin{matrix} (7) & {\tilde{\vec{e}}}_{m} = {\tilde{\vec{e}}}_{m}^{(1)} \oplus {\tilde{\vec{e}}}_{m}^{(2)} \oplus \dots \oplus {\tilde{\vec{e}}}_{m}^{(H)} \end{matrix}$
$\oplus$ $H$ 为总的头数。
为了保留先前学到的组合特征，包括原始特征（即，一阶特征），我们在网络中加入了标准的残差连接：
$\begin{matrix} (8) & {\vec{e}}_{m}^{Res} = ReLU ({\tilde{\vec{e}}}_{m} + W_{Res} {\vec{e}}_{m}) \end{matrix}$
$\mathbf W_\text{Res}\in \mathbb R^{d^\prime H\times d}$ 为投影矩阵。
标准的 Transformer 中也包含残差连接。
representation $\mathbf{\vec e}_m$ representation $\mathbf{\vec e}_m^\text{Res}$ 。我们可以将多个这样的层堆叠起来，将前一个交互层的输出作为下一个交互层的输入。通过这样做，我们可以建模任意阶次的组合特征。
这就是标准的 Transformer Encoder Block ，将其应用到 feature field embedding 上。
Output Layer $\left\{\mathbf{\vec e}_m^\text{Res}\right\}_{m=1}^M$ 。对于最终的 CTR 预估，我们简单地将它们全部拼接起来，然后应用非线性投影：
$\begin{matrix} (9) & \hat{y} = σ (w^{⊤} ({\vec{e}}_{1}^{Res} \oplus {\vec{e}}_{2}^{Res} \oplus \dots \oplus {\vec{e}}_{M}^{Res}) + b) \end{matrix}$
$\mathbf w\in \mathbb R^{d^\prime HM}$ $b$ bias $\sigma(x) = 1/(1+\exp(-x))$ 为 sigmoid 函数。
训练：损失函数为 log loss：
$\begin{matrix} (10) & L = - \frac{1}{N} \sum_{j = 1}^{N} [y_{j} \log {\hat{y}}_{j} + (1 - y_{j}) \log (1 - {\hat{y}}_{j})] \end{matrix}$
$y_j$ ground-truth $\hat y_j$ CTR $N$ 为样本数量。

26.2 分析

建模任意阶次的组合特征：可以看到，AutoInt 是以 hierarchical 的方式学习特征交互，即从低阶交互到高阶交互，所有的低阶特征交互都由残差连接来承载。具体分析参考原始论文。
$O(Ldd^\prime H + nd)$ $L$ 为交互层的层数。
- embedding $nd$ $d$ embedding size $n$ 为输入特征的维度。
- $\left\{\mathbf W_Q^{(h)},\mathbf W_K^{(h)},\mathbf W_V^{(h)},\mathbf W_\text{Res}\right\}$ $L$ $L\times (3dd^\prime + d^\prime Hd)$ 。
- $d^\prime HM + 1$ 。
$O(Ldd^\prime H + nd)$ $L$ $d$ field embedding $d^\prime$ field embedding $H$ $n$ 为输入特征的维度（几乎等于所有 vocab size 的总和）。
论文的结论是：空间复杂度几乎被交互层的参数所统治。结论不正确，实际上空间复杂度几乎是被 embedding table 所统治。
$O(MHd^\prime(M+d))$ 。
- head $O(Mdd^\prime + M^2d^\prime)$ 。
- head $O(Mdd^\prime + M^2d^\prime)$ 。
$H$ $O(MHd^\prime(M+d))$ $M$ 为 field 数量。

26.3 实验

数据集：Criteo、Avazu、KDD12、MovieLens-1M 。
- 我们对 MovieLens-1M 进行了二元化：我们将评分小于 3 的样本视为负样本，将评分大于 3 的样本视为正样本，并删除中性样本（即评分等于 3 的样本）。
- 我们删除不经常出现的特征（出现次数少于阈值），并将其作为一个单一的特征 "<unknown>" ，其中阈值对Criteo、Avazu和 KDD12 数据集分别设置为 {10，5，10} 。
- 由于数值特征可能有很大的方差，对机器学习算法造成伤害，我们采用 Criteo 竞赛的冠军提出的方案进行数值特征归一化：
  $\begin{matrix} (11) & \begin{matrix} z (x) = {\begin{cases} \log^{2} (x), & if x > 2 \\ 2, & else \end{cases} \end{matrix} \end{matrix}$
- 我们随机选择 80% 的样本进行训练，并将剩下的样本随机分成大小相同的验证集和测试集。
数据集的统计信息如下表所示。
评估指标：AUC, Logloss 。
baseline 方法：
- LR：仅建模原始特征的线性组合。
- FM：使用因子化技术建模二阶特征交互。
- AFM：通过注意力机制来区分二阶组合特征的重要性，从而扩展了 FM 。
- DeepCrossing：采用带残差连接的深度全连接神经网络，以隐式的方式学习非线性的特征交互。
- NFM：将深度神经网络堆叠在二阶特征交互层之上。通过神经网络隐式地捕获高阶特征。
- CrossNet：CrossNet 是 Deep&Cross 的核心，它在 bit-wise level 上执行 concatenated 特征向量的外积，从而显式地建模特征交互。
- CIN：Compressed Interaction Network: CIN 是 xDeepFM 模型的核心，在vector-wise level 上对堆叠的特征矩阵进行外积。
- HOFM：提出了高效的 kernel-based 算法来训练高阶FM 。我们实现了一个三阶FM 。
实现细节：
- 对于 AutoInt 和所有 baselineembedding $d$ 设置为16，batch size = 1024。
- AutoInt $d^\prime = 32$ $H=2$ 。
- 为了防止过拟合，我们用网格搜索法在 {0.1 - 0.9} 范围内为 MovieLens-1M 数据集选择 dropout rate ，我们发现 dropout 对其他三个大数据集来说是没有必要的。
- 对于 baseline 方法，我们按照他们的论文建议：
  - 在 NFM的 Bi-Interaction层上使用一个大小为 200 的隐藏层。
  - 对于 CN 和 CIN ，和 AutoInt 一样，我们使用三个交互层。
  - DeepCrossing 有四个前馈层，隐单元的数量为 100 ，因为它在使用三个前馈层时表现很差。
  一旦所有的网络结构都固定下来，我们还对 baseline 方法应用网格搜索，以获得最佳的超参数。
- 我们使用 Adam 来优化所有基于深度神经网络的模型。
模型效果：我们将 10 次不同运行的平均结果总结到下表，可以看到：
- 探索二阶特征交互的 FM 和 AFM 在所有的数据集上都以很大的幅度超过 LR，这表明单个特征在 CTR 预估中是不够的。
- 一个有趣的观察是：一些捕捉高阶特征交互的模型的劣势。例如：DeepCrossing 和 NFM 使用深度神经网络作为学习高阶特征交互的核心组件，但它们并不能保证比 FM 和 AFM 有更大的改进。这可能是由于它们是以隐式的方式学习特征交互的。相反，CIN 显式地做到了这一点，并持续优于低阶模型。
  此外，尽管 HOFM 可以学习比 FM 更高阶的特征交互，但是 HOFM 在 Avazu, KDD12 上的效果比 FM 更差。
- AutoInt在四个真实世界的数据集中的三个上取得了最佳性能。在 Avazu 数据集上，CIN 在 AUC 评估中的表现比 AutoInt 好一点，但我们得到的 Logloss 更低。
  请注意，我们提出的 AutoInt 与 DeepCrossing 共享相同的结构，除了特征交互层，这表明使用注意力机制来学习显式的组合特征是至关重要的。
模型效率：我们在下图中展示了不同算法在四个数据集上的运行时间。可以看到：
- LR 由于其简单性而成为最高效的算法。
- FM 和 NFM 在运行时间方面表现相似，因为 NFM 只在二阶交互层之上堆叠了一个前馈隐藏层。
- 在所有列出的方法中，CIN 在所有 baseline 中实现了最好的预测性能，但由于其复杂的交叉层，它要耗费更多的时间。
- AutoInt有足够的效率，这与高效算法 DeepCrossing 和 NFM 相当。
我们还比较了不同模型的大小（即参数的数量），作为效率评估的另一个标准。如下表所示，与 baseline 模型中的最佳模型 CIN相比，AutoInt 的参数数量要小得多。
综上所述，AutoInt 在所有 baseline 模型中取得了最好的性能。与最具竞争力的 baseline 模型 CIN相比，AutoInt 需要的参数要少得多，而且在在线推理过程中效率更高。
消融研究：
- 残差结构的影响：为了证明残差单元的贡献，我们把它们从标准模型中分离出来，并保持其他结构不变。如下表所示，如果去除残差连接，所有数据集的性能都会下降。
- 网络深度的影响：我们考虑不同交互层的数量的影响。注意，当交互层的数量为零时，意味着不考虑组合特征。结果如下图所示。
  - 如果使用一个交互层，即考虑到特征交互，在两个数据集上的性能都会大幅提高，这表明组合特征对于预测来说是非常有参考价值的。
  - 随着交互层数量的进一步增加，即高阶组合特征被考虑在内，模型的性能进一步提高。
  - 当层数达到三层时，性能变得稳定，表明增加更高阶特征对预测没有参考价值。
- embedding $d$ 的影响。结果如下图所示。
可解释性：我们以 MovieLens-1M 数据集为例。
- case-level：下图 (a) 展示了不同 field 的输入特征之间的相关性，这些相关性是由注意力得分得到的，其中该样本的 label = 1 。我们可以看到：AutoInt 能够识别出有意义的组合特征 <Gender=Male, Age=[18-24], MovieGenre=Action&Triller> （即红色的虚线矩形）。这是非常合理的，因为年轻男子很可能喜欢动作片和惊悚片。
  这种相关性是怎么计算的？如果是利用了 attention 矩阵，那么对于多个交互层，使用哪一层的结果？读者猜测是第一个交互层的 attention 矩阵。
- global-level：下图 (b) 展示了不同 feature field 之间在整个数据中的平均注意力得分，从而衡量各 feature field 之间的相关性。可以看到：<Gender, Genre>, <Age, Genre>, <RequestTime, ReleaseTime>, <Gender, Age, Genre> 是强相关的（即，绿色的实心区域），这是推荐的可解释性规则。
  是考虑所有样本还是仅考虑正样本？读者猜测是仅考虑正样本。
集成隐式交互：前馈神经网络能够建模隐式的特征交互，并被广泛集成到现有的 CTR 预测方法中。为了研究集成隐式的特征交互是否能进一步提高性能，我们通将 AutoInt 与两层前馈神经网络相结合（并行集成，而不是堆叠）。我们将这个联合模型命名为 AutoInt+ ，并将其与以下算法进行比较：Wide&Deep、DeepFM、Deep&Cross、xDeepFM 。
结果如下表所示。可以看到：
- 通过集成前馈神经网络，我们的方法在所有数据集上的性能都有所提高。这表明，集成隐式的特征交互确实提高了 AutoInt 的预测能力。
  然而，从最后两栏可以看出，与其他模型相比，性能提高的幅度相当小，表明我们的单个模型 AutoInt 是相当强大的。
- 集成了隐式的特征交互之后，AutoInt+ 的性能超过了所有的 baseline 方法，并取得了新的 SOTA 的性能。

二十七、Fi-GNN[2019]

建模复杂的特征交互，对CTR 预测的成功起到了核心作用。FM 是一个著名的模型，它通过向量内积来建模二阶特征交互。FFM 进一步考虑了 field 信息并引入了 field-aware embedding 。然而，这些 FM-based模型只能建模二阶交互。
最近，许多基于深度学习的模型被提出来从而学习高阶特征交互，这些模型遵循一个通用的范式：简单地拼接 field embedding 向量，并将其馈入 DNN 或其他专门设计的模型，从而学习交互。例如 FNN, NFM, Wide&Deep, DeepFM 等。然而，这些基于 DNN 的模型都是以 bit-wise 的、隐式的方式来学习高阶特征交互，这缺乏良好的模型解释。
一些模型试图通过引入专门设计的网络来显式地学习高阶交互。例如，Deep&Cross ]引入了 Cross Network: CrossNet ，xDeepFM 引入了压缩交互网络 Compressed Interaction Network: CIN 。尽管如此，它们仍然不够有效和显式，因为它们仍然遵循将 feature field 组合在一起的通用范式来建模交互。简单的 unstructured combination 将不可避免地限制了灵活地、显式地建模不同 feature field 之间复杂交互的能力。
在论文 《Fi-GNN: Modeling Feature Interactions via Graph Neural Networks for CTR Prediction》 中，作者考虑了 multi-field feature 的结构。具体来说，作者用一个名为 feature graph 的图结构来表示 multi-field feature 。直观而言，图中的每个节点对应于一个 feature field ，不同 field 可以通过边进行交互。因此，建模 feature field之间复杂交互的任务可以转化为建模 feature graph 上的节点交互的任务。为此，作者在 Graph Neural Network: GNN 的基础上设计了一个新的 Feature interaction Graph Neural Network: Fi-GNN ，它能够以灵活的、显式的方式建模复杂的节点交互（即，特征交互）。在 Fi-GNN 中，节点将通过与邻居节点交流 node state 来进行交互，并以 recurrent 的方式更新自己。
AutoInt 用 Transformer Encoder Block 建模 multi-field feature，而这里用 GNN 来建模 multi-field feature 。 Transformer Encoder Block 可以视为一个简单的 GNN 。
在每一个 time step 中，模型与邻居节点进行 one-hop 的交互。因此， interaction step 的数量等同于特征交互的阶次。此外，在 feature graph 中，边的权重反映了不同 feature interaction 对于 CTR 预测的重要性，而节点的权重反映了每个 feature field 对于 CTR 预测的重要性。这可以提供很好的解释。
总的来说，论文提出的模型能够以显式的、灵活的方式建模复杂的特征交互，并提供良好的可解释性。论文贡献如下：
- 论文指出了现有工作的局限性，即把 multi-field feature 视为 feature field 的 unstructured combination 。为此，作者首次提出用图结构来表示 multi-field feature 。
- 论文设计了一个新的模型 Feature interaction Graph Neural Network: Fi-GNN ，从而以更灵活的、显式的方式建模 graph-structured feature 上 feature field 之间的复杂交互。
- 论文在两个真实世界的数据集上进行的广泛实验表明：所提出的方法不仅可以超越 SOTA 的方法，而且可以提供良好的模型解释。
相关工作：
- Feature Interaction in CTR Predict：建模特征交互是 CTR 预测成功的关键，因此在文献中得到了广泛的研究。
  - LR 是一种线性方法，它只能对原始单个特征的线性组合建模一阶交互。
  - FM 通过向量内积来建模二阶特征交互。之后，FM 的不同变体也被提出：
    - Field-aware factorization machine: FFM 考虑了 field 信息并引入了 field-aware embedding 。
    - AFM 考虑了不同二阶特征交互的权重。
    然而，这些方法只能建模二阶交互，这是不够的。
  随着 DNN 在各个领域的成功，研究人员开始用它来学习高阶特征交互，因为它有更深的结构和非线性激活函数。一般的范式是将 field embedding 向量拼接在一起，并将其馈入 DNN 来学习高阶特征交互。
  - 《A convolutional click prediction model》 利用卷积网络建模特征交互。
  - FNN 在应用 DNN 之前，在 field embedding 上使用预训练的 FM 。
  - PNN 通过在 field embedding layer 和 DNN layer 之间引入一个 product layer 来建模二阶交互和高阶交互。
  - 类似地，NFM 通过在 field embedding layer 和 DNN layer 之间引入一个 Bi-Interaction Pooling layer 来建模二阶交互，但是随后的操作是 sum 操作，而不是像 PNN 中的拼接操作。
  另一个方向上的一些工作试图通过混合架构来联合建模二阶交互和高阶交互：Wide&Deep 和 DeepFM 包含一个 wide 组件来建模低阶交互、一个 deep 组件来建模高阶交互。
  然而，所有这些利用 DNN 的方法都是以隐式的、 bit-wise 的方式学习高阶特征交互，因此缺乏良好的模型解释能力。最近，一些工作试图通过专门设计的网络以显式的方式学习特征交互：
  - Deep&Cross 引入了一个在 bit-level 上对特征进行外积的 CrossNet 。
  - 相反，xDeepFM 引入了一个在 vector-level 对特征进行外积的 CIN 。
  然而，他们仍然没有解决最根本的问题，即把 field embedding 向量拼接起来。
  对 feature field 进行简单的 unstructured combination 将不可避免地限制了以灵活的、显式的方式建模不同 field 之间复杂交互的能力。为此，我们提出用图结构表示 multi-field feature ，每个节点代表一个 field ，不同的 feature field 可以通过边进行交互。因此，我们可以在图上建模不同 feature field 之间的灵活交互。
- Graph Neural Network：图是一种数据结构，它对一组对象（节点）和它们的关系（边）进行建模。早期的工作通常将图结构的数据转换成序列结构的数据来处理。
  - 无监督的 DeepWalk 算法受 word2vec 的启发，用于学习基于 random walk 的 node embedding 。
  - 之后，LINE 算法保留了图的一阶结构信息和二阶结构信息。
  - node2vec 引入了一个有偏的随机行走。
  然而，这些方法的计算成本很高，而且对于大型图而言也不是最优的。图形神经网络（graph neural network: GNN ）就是为了解决这些问题而设计的，它是基于深度学习的方法，在 graph domain 上运行。现在已经有很多 GNN 的变种，这里我们只介绍一些有代表性的经典方法：
  - Gated Graph Neural Network: GGNN 使用 GRU 作为更新器。
  - Graph Convolutional Network: GCN 考虑了图的 spectral structure 并利用卷积聚合器。
  - GraphSAGE 考虑了空间信息，并引入了三种聚合器：mean aggregator, LSTM aggregator, Pooling aggregator 。
  - graph attention network: GAT 将注意力机制纳入消息传播步骤。
  由于 GNN 具有令人信服的性能和较高的可解释性，GNN 已经成为一种广泛应用的图分析方法。在这项工作中，我们提出了一个基于 GGNN 的模型 Fi-GNN 来为 CTR 预测建模特征交互。

27.1 模型

$m$ 个 field 的 categorical featurelabel $y\in \{0,1\}$ CTR $m$ field $\hat y$ 。
$m=4$ ）：
- 输入的 sparse m-field feature vector 首先被映射成稀疏的 one-hot 向量，然后通过 embedding layer 和 multi-head self-attention layer 嵌入到稠密的 field embedding 向量中。
- 然后， field embedding 向量被表示为一个 feature graph ，其中每个节点对应于一个 feature field ，不同的 feature field 可以通过边进行交互。因此，建模交互的任务可以转换为建模 feature graph 上的节点交互。因此， feature graph 被馈入 Fi-GNN 从而建模节点交互。
- 最后，在 Fi-GNNAttentional Scoring Layer $\hat y$ 。
这里的 Multi-head Self-Attention Layer 就是单层的 AutoInt，因此，Fi-GNN 相当于是 AutoInt 和 GNN 的堆叠。实验并没有表明 AutoInt 在这里的贡献，而且即使是 AutoInt + Fi-GNN，模型在所有数据集上的整体效果提升也不明显，因此论文价值不大。
Embedding Layer：我们将每个 field 表示为一个 ont-hot encodingfield embedding $m$ 个 field 的 field embedding 向量被拼接为（沿着 feature field 维度拼接）：
$\begin{matrix} (12) & E = {[{\vec{e}}_{1} | | {\vec{e}}_{2} | | \dots | | {\vec{e}}_{m}]}^{⊤} \in R^{m \times d} \end{matrix}$
$\mathbf{\vec e}_i \in \mathbb R^d$ field $i$ embedding $d$ field embedding $||$ 为沿着 feature field 维度拼接。
Multi-head Self-attention Layer：我们利用多头自注意力机制来捕获不同语义子空间中的 pairwise 特征交互。
遵从 《AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks》feature embedding $\mathbf E$ ，我们获取 feature representationattention head $i$ 中的 pairwise interaction ：
$\begin{matrix} (13) & \begin{matrix} H_{i} = {softmax}_{i} (\frac{Q K^{⊤}}{{\sqrt{d}}_{k}}) V \in R^{m \times d_{i}} \\ Q = E W_{i}^{(Q)}, K = E W_{i}^{(K)}, V = E W_{i}^{(V)} \end{matrix} \end{matrix}$
$\mathbf W_i^{(Q)}, \mathbf W_i^{(K)},\mathbf W_i^{(V)}\in \mathbb R^{d\times d_i}$ attention head $i$ $d_i$ head $i$ 的维度。
然后，我们将学到的每个 head 的 feature representation 结合起来，以保留每个语义子空间中的 pairwise feature interaction ：
$\begin{matrix} (14) & H^{1} = ReLU (H_{1} \oplus H_{2} \oplus \dots \oplus H_{h}) \in R^{m \times d^{'}} \end{matrix}$
$\oplus$ embedding $h$ attention head $d^\prime = \sum_{i=1}^h d_i$ 为拼接后的 embedding 维度。
Feature Graph：与以往简单地将 field embedding 向量拼接在一起并将其馈入模型中从而学习特征交互所不同的是，我们用图结构来表示 feature field 。具体而言，我们将每个输入的 multi-field featurefeature graph $\mathcal G=(\mathcal N, \mathcal E)$ $n_i\in \mathcal N$ feature field $i$ field $|\mathcal N| = m$ 。因此，建模特征交互的任务可以转换为建模图上节点交互的任务。
每个样本对应一张图，因此这是一个 graph-level 分类任务（二分类）。
Feature Interaction Graph Neural Network：Fi-GNN 旨在以一种灵活的、显式的方式建模 feature graphFi-GNN $n_i$ hidden state $\mathbf{\vec h}_i^t$ ，图的状态由这些节点的状态组成：
$\begin{matrix} (15) & H^{t} = {{\vec{h}}_{1}^{t}, {\vec{h}}_{2}^{t}, \dots, {\vec{h}}_{m}^{t}} \end{matrix}$
$t$ 表示 interaction stepfeature representation $\mathbf H^1$ 。
如下图所示，节点以循环方式进行交互并更新其状态。在每一个 interaction step 中，节点聚合邻居节点的状态信息（经过变换之后），然后根据聚合信息、以及节点历史状态通过 GRU 和残差连接来更新节点状态。
- State Aggregationinteraction step $t$ $n_i$ 的聚合信息是其邻居节点的状态信息（转换之后）之和：
  $\begin{matrix} (16) & {\vec{a}}_{i}^{t} = \sum_{(j, i) \in E} A_{j, i} W_{p} {\vec{h}}_{j}^{t - 1} \end{matrix}$
  $A_{j,i}$ $\mathbf A\in \mathbb R^{m\times m}$ $n_j$ $n_i$ $(j,i)$ $\mathbf W_p$ 是投影矩阵。
  显然，投影矩阵和邻接矩阵决定了节点之间的交互。由于每条边上的交互应该是不同的，我们的目标是建模边上的交互，这需要对每条边有一个 unique 的权重和投影矩阵。
  - $n_i$ $n_j$ 之间的边的权重通过它们的初始节点状态（即，field embedding 向量）来计算：
    $\begin{matrix} (17) & w (n_{i}, n_{j}) = \frac{\exp (LeakyRelu (W_{w} [{\vec{e}}_{i} \oplus {\vec{e}}_{j}]))}{\sum_{k} \exp (LeakyRelu (W_{w} [{\vec{e}}_{i} \oplus {\vec{e}}_{k}]))} \end{matrix}$
    $\mathbf W_w\in \mathbb R^{2d^\prime}$ $\oplus$ 表示拼接操作（沿着 embedding 维度）。利用 softmax 函数进行归一化，使不同节点的权重容易比较。
    最终邻接矩阵为：
    $\begin{matrix} (18) & \begin{matrix} A_{i, j} = {\begin{cases} w (n_{i}, n_{j}), & if i \neq j \\ 0, & else \end{cases} \end{matrix} \end{matrix}$
    由于边的权重反映了不同交互的重要性，Fi-GNN 可以很好地解释输入样本的不同 feature field 之间的关系，这一点将在实验部分进一步讨论。
  - edge-wise 变换：如前所述，所有边上的固定的投影矩阵无法建模灵活的交互，对每个边进行 unique 的变换是必要的。然而，我们的图是完全图 complete graph （即，任意两个节点之间都存在边），因此包含大量的边。简单地给每条边分配一个 uniqueedge-wise transformation $n_i$ $\mathbf W_\text{out}^i$ $\mathbf W_\text{in}^i$ $n_i$ $n_j$ $n_i$ $\mathbf W^i_\text{out}$ $n_j$ $n_j$ $\mathbf W^i_\text{in}$ $n_i$ $n_j$ $(i,j)$ 上的投影矩阵可以写作：
    $\begin{matrix} (19) & W_{p}^{i \to j} = W_{in}^{j} W_{out}^{i} \end{matrix}$
    $\mathbf{\vec a}_i^t$ 可以重写为：
    $\begin{matrix} (20) & {\vec{a}}_{i}^{t} = \sum_{(j, i) \in E} A_{j, i} W_{in}^{i} W_{out}^{j} {\vec{h}}_{j}^{t - 1} \end{matrix}$
    这样一来，参数的数量与节点的数量成正比，而不是与边的数量成正比，这就大大降低了空间复杂性和时间复杂性，同时也实现了 edge-wise interaction 。
- State Update ：聚合状态信息之后，节点将通过 GRU 和残差连接来更新状态向量。
  - 通过 GRUGGNN $n_i$ $n_i$ 的聚合状态信息、以及节点在上一个 step 的状态通过 GRU 更新的：
    $\begin{matrix} (21) & {\vec{h}}_{i}^{t} = GRU ({\vec{h}}_{i}^{t - 1}, {\vec{a}}_{i}^{t}) \end{matrix}$
  - 通过残差连接进行状态更新：我们引入了额外的残差连接（来自初始状态），与 GRU 一起更新节点状态，这可以促进低阶特征重用和梯度反向传播：
    $\begin{matrix} (22) & {\vec{h}}_{i}^{t} = GRU ({\vec{h}}_{i}^{t - 1}, {\vec{a}}_{i}^{t}) + {\vec{h}}_{i}^{1} \end{matrix}$
    $\mathbf{\vec h}_i^1$ $\mathbf{\vec h}_i^{t-1}$ 。
Attentional Scoring Layer $T$ 个 propagation step 之后，我们得到了 final node state：
$\begin{matrix} (23) & H^{T} = {{\vec{h}}_{1}^{T}, {\vec{h}}_{2}^{T}, \dots, {\vec{h}}_{m}^{T}} \end{matrix}$
$T$ Fi-GNN $T$ 阶特征交互。我们需要一个 graph-level output 来预测 CTR 。
我们分别对每个 fieldfinal state $n_i$ 的预测得分、以及它的 attentional node weight 可以通过两个 MLP 分别得到：
$\begin{matrix} (24) & {\hat{y}}_{i} = {MLP}_{1} ({\vec{h}}_{i}^{T}), a_{i} = {MLP}_{2} ({\vec{h}}_{i}^{T}) \end{matrix}$
整体预测是所有节点的预测的加权和：
$\begin{matrix} (25) & \hat{y} = \sum_{i = 1}^{m} a_{i} {\hat{y}}_{i} \end{matrix}$
训练：损失函数为 logloss，即：
$\begin{matrix} (26) & L = - \frac{1}{N} \sum_{i = 1}^{N} (y_{i} \log {\hat{y}}_{i} + (1 - y_{i}) \log (1 - {\hat{y}}_{i})) \end{matrix}$
$N$ $y_i$ $i$ label $\hat y_i$ $i$ 个训练样本的预测 CTR 。
我们采用 RMSProp 优化器。此外，为了平衡正负样本比例，在训练过程中，对于每个 batch 我们随机选择相同数量的正样本和负样本。

27.2 实验

数据集：Criteo, Avazu 。对于这两个数据集：
- 我们移除了低频特征，并将低频特征替换为 "<unknown>" 。频次阈值分别为：Criteo 数据集为 10 、Avazu 数据集为 5 。即出现频次低于该阈值则移除。
- 由于数值特征可能具有较大的方差，因此我们进行对数变换：
  $\begin{matrix} (27) & \begin{matrix} z = {\begin{cases} \log^{2} (x), & if x > 2 \\ x, & else \end{cases} \end{matrix} \end{matrix}$
  这是由 Criteo 竞赛的获胜者提出的。
- 数据集以 8:1:1 的比例随机拆分为训练集、验证集、测试集。
数据集的统计信息如下表所示。
评估指标：AUC, LogLoss, Relative Improvement (RI) 。
应该注意的是，对于真实世界的 CTR 任务来说，AUC 方面的微小改进被认为是显著的。为了估计我们的模型相对于 baseline 模型的相对改进，我们在此测量 RI-AUC 和 RI-Logloss：
$\begin{matrix} (28) & RI- X = \frac{| X (model) - X (base) |}{X (base)} \times 100 % \end{matrix}$
其中 X 为 AUC 或 LogLoss 。
baseline 方法：
- LR：通过原始特征的线性组合来建模一阶特征交互。
- FM：通过 field embedding 向量的内积来建模二阶特征交互。
- AFM：是 FM 的一个扩展，利用注意力机制考虑不同二阶特征交互的权重。
- DeepCrossing：利用具有残差连接的 DNN 以隐式的方式学习高阶特征交互。
- NFM：利用 Bi-Interaction Pooling layer 来建模二阶特征交互，然后将拼接的二阶组合特征馈入 DNN 来建模高阶特征交互。
- CrossNet(Deep&Cross)：是 Deep&Cross 模型的核心，它通过采用拼接的 feature vector 的外积，从而显式地在 bit-wise level 上建模特征交互。
- CIN(xDeepFM) ：是 xDeepFM 模型的核心，它通过采用堆叠的 feature matrix 的外积，从而显式地在 vector-wise level 上建模特征交互。
实现细节：我们使用 Tensorflow 实现我们的方法。最优超参数由网格搜索策略确定。baseline 的实现遵循 《AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks》 。
- 对于所有方法， field embedding 向量的维度是 16 ， batch size = 1024 。
- DeepCrossing 有四个前馈层，每层有 100 个隐单元。
- NFM 在 Bi-Interaction layer 之上有一个大小为 200 的隐层，如原始论文中所推荐的。
- CrossNet 和 CIN 都有三个交互层。
- 所有实验都是在配备了 8 个 NVIDIA Titan X GPU 的服务器上进行的。
不同模型的性能比较，如下表所示。可以看到：
- LR 在这些 baseline 中效果最差，这证明了单个特征在 CTR 预测中是不够的。
- 在所有数据集上，建模二阶特征交互的 FM 和 AFM 优于 LR ，这表明建模 feature field 之间的 pairwise 交互是有效的。此外，AFM 比 FM 具有更好的表现，证明了在不同交互上的注意力的有效性。
- 建模高阶特征交互的方法大多优于建模二阶特征交互的方法。这表明二阶特征交互是不够的。
- DeepCrossing 优于 NFM ，证明了残差连接在 CTR 预测中的有效性。
- 在两个数据集上，Fi-GNN 在所有这些方法中取得了最好的性能，尤其是在 Criteo 数据集上。
- Fi-GNN 在 Criteo 数据集上取得的相对改进，高于在 Avazu 数据集上取得的相对改进。这可能是因为 Criteo 数据集中有更多的 feature field ，可以更好地利用图结构的表达能力。
消融研究：我们提出的 Fi-GNN 模型是基于 GGNN 的，在此基础上我们主要做了两个改进：
- 通过 attentional edge weight 和 edge-wise transformation 实现 edge-wise node interaction。
- 引入残差连接从而与 GRU 一起更新节点状态。
为了评估两种改进的有效性，我们对比了三个变体：
- Fi-GNN(-E/R)：同时没有上述两个改进的变体。
- Fi-GNN(-E)：没有 edge-wise interaction: E 的变体。即，用二元邻接矩阵、以及所有边上共享的投影矩阵。
- Fi-GNN(-R)：没有 residual connection: R 的变体。
对比结果如下图 (a) 所示。可以看到：
- Fi-GNN(-E) 的性能相比完整的 Fi-GNN 大幅下降，这表明建模 edge-wise interaction 是至关重要的。
- Fi-GNN(-E) 取得了比 Fi-GNN(-E/R) 更好的性能，证明了残差连接确实可以提供有用的信息。
- 完整的 Fi-GNN 优于三种变体，表明我们所做的两种改进，即残差连接和 edge-wise interaction ，可以联合提高性能。
在 Fi-GNN 中，我们采用两种方法来实现 edge-wise node interaction ：attentional edge weight: W、edge-wise transformation: T 。为了进一步研究巨大的改进来自哪，我们比较了另外三个变体：
- Fi-GNN(-W/T)：即 Fi-GNN-(E) 。
- Fi-GNN(-W)：没有 attentional edge weight 。
- Fi-GNN(-T)：没有 edge-wise transformation ，即所有边上共享投影矩阵。
对比结果如下图 (b) 所示。可以看到：
- Fi-GNN(-T) 和 Fi-GNN(-W) 都优于 Fi-GNN(-W/T) ，这证明了它们的有效性。
- Fi-GNN(-W) 比 Fi-GNN(-T) 实现了更大的改进，这表明在建模 edge-wise interaction 方面， edge-wise transformation 比 attentional edge weight 更有效。这是非常合理的，因为投影矩阵应该比标量的 attentional edge weight 对 edge-wise interaction 有更强的影响。
超参数研究：
- state $d^\prime = \sum_{i=1}^h d_i$ $d^\prime$ 的增加先升后降，在维度分别为 32 （Avazu 数据集）、64 （Criteo 数据集）时性能最佳。这是合理的，因为 Criteo 数据集更复杂，需要更大的维度来保持足够的信息。
  没有考虑 attention head 的影响？
- interaction step $T$ interaction step $T$ 的增加先升后降，在特征交互的最高阶次分别为 2 （Avazu 数据集）、3 （Criteo 数据集）时性能最佳。这是合理的，因为 Avazu 数据集有 23 个 feature field、Criteo 数据集有 39 个 feature field 。因此，Criteo 数据集需要更多的 interaction step 来使 field node 与feature graph 中的其他节点完全交互。
模型可解释性：我们在 feature graph 的边上和节点上都应用了注意力机制，分别得到了 attentional edge weight 和 attentional node weight ，可以从不同的角度给出解释。
Multi-head Self-attention Layer 捕获的 pair-wise 交互是否也是可解释的？论文并没有说明这一点。
- attentional edge weight ：attentional edge weight 反映了两个相连的 field node 之间交互的重要性，也反映了两个feature field 之间的关系。下图展示了 Avazu 数据集中所有样本的全局平均邻接矩阵的热力图，它可以在全局水平上反映不同 field 之间的关系。由于有一些 field 是匿名的，我们只显示剩余的 13 个具有真实含义的 feature field 。
  可以看到：
  - 一些 feature field 倾向于与其他 field 有很强的关系，例如 site_category 和 site_id 。这是有意义的，因为两个 feature field 都对应于投放广告的网站。
  - hour 是另一个与其他 field 有密切关系的特征。这是合理的，因为Avazu 专注于移动场景，用户可以在一天的任何时间在线冲浪。上网时间对其他的广告特征有很大的影响。
  - 另一方面，device_ip 和 device_id 似乎与其他 feature field 的关系较弱。这可能是因为它们几乎等同于 user id ，相对固定，不易受其他特征的影响。
- attentional node weight ：attentional node weight 反映了 feature field 对整体预测分数的影响的重要性。下图显示了 global-level 和 case-level 的 attentional node weight 的热力图。左边的是 Avazu 数据集中所有样本的全局平均值，右边的是Avazu 数据集中随机选择的四个样本（预测分数分别为 [0.97, 0.12, 0.91, 0.99]，标签分别为 [1, 0, 1, 1] ）。
  - 在 global level ，我们可以看到 featuer field app_category 对点击行为的影响最大。这是合理的，因为 Avazu 专注于移动场景，而 app 是最重要的因素。
  - 在 case level ，我们观察到，在大多数情况下，最终的点击行为主要取决于一个关键的 feature field 。

二十八、FwFM[2018]

CTR 预估所涉及的数据通常是 multi-field categorical data，这类数据具有以下特性：
- 首先，所有的特征都是 categorical 的，并且是非常稀疏的，因为其中许多是 id 。因此，特征的总数很容易达到数百万或数千万。
- 其次，每个特征都唯一地属于一个 field ，而且可能有几十到几百个 field 。
下表是一个用于 CTR 预估的现实世界 multi-field categorical data set 的例子。
multi-field categorical data 的特性对建立有效的机器学习模型进行 CTR 预测提出了几个独特的挑战：
- 特征交互feature interaction 是普遍存在的，需要专门建模。在和标签关联方面，特征拼接 feature conjunction 与单个特征不同。例如，nba.com 上展示的耐克广告的点击率，通常比所有网站上耐克广告的平均点击率、或 nba.com 上展示的所有广告的平均点击率高很多。这种现象在文献中通常被称为特征交互。
- 来自一个 field 的特征往往与来自其他不同 field 的特征有不同的交互。例如，我们观察到，来自 field GENDER 的特征通常与 field ADVERTISER 的特征有很强的交互，而它们与 field DEVICE_TYPE 的特征交互却相对较弱。这可能是由于具有特定性别的用户更偏向于他们正在观看的广告，而不是他们正在使用的设备类型。
- 需要注意潜在的高模型复杂性。由于实践中通常有数以百万计的特征，模型的复杂性需要精心设计和调整，以适应模型到内存中。
为了解决这些挑战的一部分，研究人员已经建立了几个解决方案，Factorization Machine: FM 和 Field-aware Factorization Machine: FFM 是其中最成功的：
- FM 通过将 pairwise 特征交互的影响建模为两个 embedding 向量的内积来解决第一个挑战。然而， field 信息在 FM 中根本没有被利用。
- 最近，FFM 已经成为 CTR 预估中表现最好的模型之一。FFM 为每个特征学习不同的 embedding 向量，从而用于当特征与其他不同 field 的特征进行交互。通过这种方式，第二个挑战被显式地解决了。然而，FFM 的参数数量是特征数量乘以 field 数量的数量级，很容易达到数千万甚至更多。这在现实世界的生产系统中是不可接受的。
在论文 《Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising》 中，作者引入了 Field-weighted Factorization Machines: FwFM 来同时解决所有这些挑战。论文贡献：
- 经验表明，不同的 field pairs 与 label 的关联程度明显不同。按照同样的惯例，论文称它为 field pair interaction 。
- 基于上述观察，论文提出了 Field-weighted Factorization Machine: FwFM 。通过引入和学习 field pair weight matrix ，FwFM 可以有效地捕获 field pair interaction 的异质性。此外，FwFM 中的参数比 FFM 中的参数少几个数量级，这使得 FwFM 成为现实世界生产系统中的首选。
- FwFM 通过用 embedding vector representation 取代线性项的 binary representation 而得到进一步的增强。这种新的处理方法可以有效地帮助避免过拟合，提高预测性能。
- 论文在两个真实世界的 CTR 预估数据集上进行了综合实验，以评估 FwFM 与现有模型的性能。实验结果表明：FwFM 仅用FFM 的 4% 的参数就能达到有竞争力的预测性能。当使用相同数量的参数时，FwFM 比 FFM 的 AUC 提升了 0.9% 。

28.1 模型

$m$ unique $\{f_1,\cdots,f_m\}$ $n$ fields $\{F_1,\cdots,F_n\}$ $f_i$ field $F(i)$ 。
$\mathcal S = \left\{y^{(s)},\mathbf{\vec x}^{(s)}\right\}_{s=1}^N$ $y^{(s)}\in \{1,-1\}$ label $\mathbf{\vec x}^{(s)}\in \{0,1\}^m$ $x_i^{(s)}=1$ $f_i$ 是 active 的。
field $n=2$ $f_1= 男性,f_2= 女性,f_3=博士,f_4=硕士,f_5=本科,f_6=本科以下$ $f_1,f_2$ field $f_3\sim f_6$ 属于学历这个 field，它们的取值都是 0 或 1 。
- LR 模型为：
  $\begin{matrix} (29) & min_{\vec{w}} λ ∥ \vec{w} ∥_{2}^{2} + \sum_{s = 1}^{N} \log (1 + \exp (- y^{(s)} Φ_{LR} (\vec{w}, {\vec{x}}^{(s)}))) \end{matrix}$
  $\lambda$ $\mathbf{\vec w}$ $\Phi_\text{LR}(\mathbf{\vec w}, \mathbf{\vec x}) = w_0 + \sum_{i=1}^m x_iw_i$ 。
  注意，因为这里将 label 取值空间设为 {1, -1} 而不是 {1, 0} ，因此这个损失函数与交叉熵不同，而是指数损失函数。
- Poly2：然而，线性模型对于诸如 CTR 预估这样的任务来说是不够的，在这些任务中，特征交互是至关重要的。解决这个问题的一般方法是增加 feature conjunction 。已有研究表明，Degree-2 Polynomial: Poly2Poly2 $\Phi_\text{LR}$ 替换为：
  $\begin{matrix} (30) & Φ_{Poly2} (\vec{w}, \vec{x}) = w_{0} + \sum_{i = 1}^{m} x_{i} w_{i} + \sum_{i = 1}^{m} \sum_{j = i + 1}^{m} x_{i} x_{j} w_{h (i, j)} \end{matrix}$
  $h(i,j)$ $i$ $j$ $\mathcal H$ $O(m^2)$ 的数量级。
- FM：Factorization Machine: FMembedding $\mathbf{\vec v}_i\in \mathbb R^K$ $K$ $K=10$ FM $i$ $j$ embedding $\mathbf{\vec v}_i$ $\mathbf{\vec v}_j$ 之间的内积：
  $\begin{matrix} (31) & Φ_{FM} ((\vec{w}, v), \vec{x}) = w_{0} + \sum_{i = 1}^{m} x_{i} w_{i} + \sum_{i = 1}^{m} \sum_{j = i + 1}^{m} x_{i} x_{j} < {\vec{v}}_{i}, {\vec{v}}_{j} > \end{matrix}$
  $<\cdot,\cdot>$ 为向量的内积。
  在涉及稀疏数据的应用中（如 CTR 预估），FM 的表现通常优于 Poly2 模型。原因是，只要特征本身在数据中出现的次数足够多，FM 总能为每个特征学习到一些有意义的 embedding 向量，这使得内积能很好地估计两个特征的交互效应 interaction effect ，即使两个特征在数据中从未或很少一起出现。
- FFM：然而，FM 忽略了这样一个事实：当一个特征与其他不同 fieldField-aware Factorization Machines: FFM $i$ $n-1$ 个 embeddingembedding $\mathbf{\vec v}_{i,F(j)}$ field $F(j)$ $j$ 交互：
  $\begin{matrix} (32) & Φ_{FM} ((\vec{w}, v), \vec{x}) = w_{0} + \sum_{i = 1}^{m} x_{i} w_{i} + \sum_{i = 1}^{m} \sum_{j = i + 1}^{m} x_{i} x_{j} < {\vec{v}}_{i, F (j)}, {\vec{v}}_{j, F (i)} > \end{matrix}$
  虽然 FFMFM $O(mnK)$ 的数量级。在现实世界的生产系统中，FFM 的巨大参数数量是不可取的。因此，设计具有竞争力的和更高内存效率的替代方法是非常有吸引力的。
field pair 的交互强度：我们特别感兴趣的是，在 field level ，交互强度是否不同。即，不同 feature pair 的平均交互强度是否不同。这里的平均交互强度指的是：给定一个 field pair，它包含的所有 feature pair 的平均交互强度。
例如，在CTR 预估数据中，来自 field ADVERTISER 的特征通常与来自 field PUBLISHER 的特征有很强的交互，因为 advertiser 通常针对一群有特定兴趣的人，而 PUBLISHER 的受众自然也是按兴趣分组的。另一方面， field HOUR_OF_DAY 的特征往往与 field DAY_OF_WEEK 的特征没有什么交互，这不难理解，因为凭直觉，它们的交互对点击量没有什么贡献。
为了验证 field pair interactionfield pair $(F_k,F_l)$ $Y$ 之间的互信息来量化 field pair 的交互强度：
$\begin{matrix} (33) & MI ((F_{k}, F_{l}), Y) = \sum_{(i, j) \in (F_{k}, F_{l})} \sum_{y \in Y} p ((i, j), y) \log \frac{p ((i, j), y)}{p (i, j) p (y)} \end{matrix}$
其中：
- $p(i,j)$ $f_i=1$ $f_j=1$ 的概率。
- $p(y)$ $y=1$ 的概率。
- $p((i,j), y)$ $f_i=1$ $f_j=1$ $y=1$ 的概率。
下图是每个 field pair 和标签之间的互信息的可视化，由 Oath CTR 数据计算得出。不出所料，不同 field pair 的交互强度是相当不同的。一些 field pair 有非常强的交互，如 (AD_ID，SUBDOMAIN)、(CREATIVE_ID，PAGE_TLD)，而其他一些 field pair 有非常弱的交互，如 (LAYOUT_ID，GENDER)、(Day_OF_WEEK，AD_POSITION_ID) 。
虽然分析结果并不令人惊讶，但我们注意到，现有的模型都没有考虑到这种 field level interaction 的异质性。这促使我们建立一个有效的机器学习模型来捕获不同 field pair 的不同交互强度。
FwFM：我们提出对不同 field pairfeature pair $(i,j)$ 的交互被建模为：
$\begin{matrix} (34) & x_{i} x_{j} < {\vec{v}}_{i}, {\vec{v}}_{j} > r_{F (i), F (j)} \end{matrix}$
$r_{F(i),F(j)}\in \mathbb R$ field pair $(F(i),F(j))$ 之间交互强度的权重。
FM $r_{F(i),F(j)}$ 。实现简单，效果好。
进一步地，我们是否可以在 field 的概念之上继续遵循这种做法。比如，可以把 field 进行分组：用户年龄、性别等等 field 是一组，item 类别、品牌等等是另一组、用户历史行为序列是其它一组，然后设定 field group 的权重：
$\begin{matrix} (35) & x_{i} x_{j} < {\vec{v}}_{i}, {\vec{v}}_{j} > r_{F (i), F (j)} \times r_{G (i), G (j)} \end{matrix}$
$r_{G(i),G)j}$ 为 field group 之间的权重。
我们将得到的模型称为 Field-weighted Factorization Machine: FwFM 。
- FM $m+mK$ $m$ $mK$ 为 embeddingFwFM $n(n-1)/2$ field pair $m+mK+n(n-1)/2$ FFM $m+m(n-1)K$ $n-1$ 个 embedding 向量。
  $n\ll m$ ，因此 FwFM 的参数与 FM 相当，显著少于 FFM 。
- embedding $\mathbf{\vec v}_i$ $i$ $x_i\mathbf{\vec v}_i$ 来在线性项中代表每个特征。
  $\mathbf{\vec w}_i$ ，因此 FwFM 的线性项变为：
  $\begin{matrix} (36) & \sum_{i = 1}^{m} x_{i} < {\vec{v}}_{i}, {\vec{w}}_{i} > \end{matrix}$
  $mK$ FwFM $2mK + n(n-1)/2$ ，记做 FwFM_FeLV 。
  这相当于为每个特征学习两个 embeddingembedding $\mathbf{\vec v}_i$ embedding $\mathbf{\vec w}_i$ 用于建模线性项。好处有两个：
  - 首先，这种方法的表达能力更强。
  - 其次，实现起来更简单。原始的线性项需要把特征表示成 sparse 形式从而节省内存和计算量（大量的零存在），在实现的时候需要特殊的逻辑（稀疏张量的转换和计算）。而这里直接用 embedding lookup，与现有的逻辑保持一致。
  field $\mathbf{\vec w}_{F(i)}$ ，此时线性项变为：
  $\begin{matrix} (37) & \sum_{i = 1}^{m} x_{i} < {\vec{v}}_{i}, {\vec{w}}_{F (i)} > \end{matrix}$
  $nK+mK + n(n-1)/2$ ，记做 FwFM_FiLV 。
  这相当于为每个 field 学习一个 embedding 。
  原始线性权重的 FwFM 记做 FwFM_LW 。
  $w_i = \sum_{s=1}^dv_{i,d}$ $\mathbf{\vec w}_{F(i)}$ 1 $<\mathbf{\vec v}_i, \mathbf{\vec w}_i> + <\mathbf{\vec v}_i, \mathbf{\vec v}_j> + <\mathbf{\vec v}_j, \mathbf{\vec w}_j>$ $\mathbf{\vec v}$ $10$ $\mathbf{\vec w}$ $10$ $<\mathbf{\vec v}_i, \mathbf{\vec 1}> + <\mathbf{\vec v}_i, \mathbf{\vec v}_j> + <\mathbf{\vec v}_j, \mathbf{\vec 1}>$ $\mathbf{\vec v}$ 方法或缩小会完全影响最终结果。
  在后面的实验部分，确实发现参数更少的 FwFM_FiLVAUC $\mathbf{\vec w}_{F(i)}$ 固定为全 1 的向量时效果还要好？

28.2 实验

数据集：
- Criteo CTR 数据集：我们将数据按 60%: 20%: 20% 随机分成训练集、验证集和测试集。
- Oath CTR 数据集：我们使用两周的点击日志作为训练集，下一天的数据作为验证集、下下一天的数据作为测试集。
  对于 Oath CTR 数据集，正样本的比例通常小于 1% 。我们对负样本进行降采样，使正负样本更加平衡。对验证集和测试集不做降采样，因为评估应该在反映实际流量分布的数据集上进行。
$\tau$ NULL $\tau$ 在 Criteo 数据集中被设置为20 ，在 Oath 数据集中为10 。
这两个数据集的统计数字如下表所示：
实现：我们使用 LibLinear来训练 Poly2feature conjunctions $10^7$ 的哈希空间。所有其他的模型都在 Tensorflow 中实现。Tensorflow 中 FwFM 的结构如下图所示。
$\mathbf{\vec x}\in \mathbb R^m$ $n$ $n$ 个field 。对每个样本而言每个 field 都有一个且只有一个活跃的特征。
FwFM 和已有模型的比较：我们评估了带原始线性项的 FwFM ，即 FwFM_LW 。对于所有的超参数，我们在验证集上进行调优，然后在测试集上进行评估。可以看到：
- 在两个数据集上，FwFM 都能取得比 LR、Poly2 和 FM 更好的性能。这种改进来自于 FwFM 显式地建模了 field pair 的不同交互强度。
- FFM 总是在验证集和测试集上获得最佳性能。然而，FwFM 的性能相比 FFM 具有相当的竞争力。
FwFM 与 FFM 在具有相同参数规模的情况下的比较：
FFM $O(mnK)$ FFM $K$ $\mathcal H$ ）。《Field-aware factorization machines in a real-world online advertising system》FFM $K_\text{FFM} = 2$ $\mathcal H_\text{FFM}$ $O(nm_\text{FFM}K_\text{FFM})$ 。
$K_\text{FFM}$ $\mathcal H_\text{FFM}$ ，使得 FFMFwFM $K_\text{FwFM} = 10$ $K_\text{FFM} = 2$ $K_\text{FFM} = 4$ 。实验结果如下表所示。可以看到：当使用相同数量的参数时，FwFM 在 Criteo 和Oath 数据集的测试集上得到更好的表现，提升幅度分别为 0.70% 和 0.45% 。
具有不同线性项的 FwFM：下表给出了不同线性项的 FwFM 的性能。可以看到：
- FwFM_LW 和 FwFM_FeLVFwFM_FiLV $m$ $mK$ FwFM_FiLV $nK$ ）有更多的参数，所以它们能比 FwFM_FiLV 更好地拟合训练集和验证集。
- 然而，FwFM_FiLV 在测试集上得到了最好的结果，这表明它有更好的泛化性能。
- 此外，当我们使用相同数量的参数将 FwFM_FiLV 与 FFM 进行比较时，在Oath 数据集和Criteo 数据集上的AUC 提升分别为0.92% 和 0.47% 。
超参数调优：以下所有的评估都是 FwFM_FiLV 模型在 Oath 验证集上进行的。
- L2 $\lambda$ Figure3 $\lambda =10^{-5}$ 在验证集上得到最好的性能。
  正则化系数作用于所有的 parameters 。
- $\eta$ Figure4 $\eta = 10^{-4}$ 。
- embedding $K$ $K=10$ 。
学到的 field 交互强度：这里我们比较了 FM、FFM 和 FwFM 在捕获不同 field pairfield pair $r_{F_k,F_l}$ 的存在，FwFM 可以比 FM 和 FFM 更好地建模交互强度。
field pairfield pair $\text{MI}((F_k,F_l),Y)$ ）进行量化，并在 Figure 5(a) 中通过热力图进行了可视化。
为了衡量学到的 field 交互强度，我们定义了以下指标：
$\begin{matrix} (38) & \frac{\sum_{(i, j) \in (F_{k}, F_{l})} I (i, j) \times # (i, j)}{\sum_{(i, j) \in (F_{k}, F_{l})} # (i, j)} \end{matrix}$
其中：
- $\#(i,j)$ feature pair $(i,j)$ 在训练数据中出现的次数。
- $I(i,j)$ feature pair $(i,j)$ 学到的交互强度。
  - FM $I(i,j) = |<\mathbf{\vec v}_i,\mathbf{\vec v}_j>|$ 。
  - FFM $I(i,j) = |<\mathbf{\vec v}_{i,F_l},\mathbf{\vec v}_{j,F_k}>|$ 。
  - FwFM $I(i,j) = |<\mathbf{\vec v}_i,\mathbf{\vec v}_j>\times r_{F_k,F_l}|$ 。
注意，我们将内积项的绝对值相加，否则正值和负值会相互抵消。
如果一个模型能够很好地捕捉到不同 field pairfield $\text{MI}((F_k,F_l),Y)$ 。为了便于比较，我们在 Figure 5 中以热力图的形式绘制了由 FM, FFM, FwFM 学到的fieldfield pair $\text{MI}((F_k,F_l),Y)$ 。我们还计算了皮尔逊相关系数，以定量地衡量所学到的 field 交互强度与互信息的匹配程度。
- 从 Figure 5(b) 中我们观察到：FM 学到的交互强度与互信息完全不同。这并不奇怪，因为 FM 在建模特征交互强度时没有考虑 field 信息。
- 从 Figure 5(c) 中我们观察到：FFM 能够学习与互信息更相似的交互强度。
- 从 Figure 5(d) 中我们观察到：FwFM 学到的交互强度的热力图与互信息的热力图非常相似。
$r_{F_k,F_l}$ 在建模 field pairFigure 6 $r_{F_k,F_l}$ $r_{F_k,F_l}$ 的FwFM （退化回 FMfield $r_{F_k,F_l}$ 的热力图与 Figure 5(a) 的互信息热力图、Figure 5(d) 的 FwFMfield $r_{F_k,F_l}$ 确实可以学到不同 field pair 的不同交互强度。

二十九、FM2[2021]

CTR 预估所涉及的数据通常是 multi-field categorical data，这类数据具有以下特性：
- 首先，所有的特征都是 categorical 的，并且是非常稀疏的，因为其中许多是 id 。因此，特征的总数很容易达到数百万或数千万。
- 其次，每个特征都唯一地属于一个 field ，而且可能有几十到几百个 field 。
针对 ctr 预测问题的一个卓越模型是具有交叉特征的逻辑回归。当考虑到所有的交叉特征时，产生的模型等同于二阶的多项式核。然而，要考虑所有可能的交叉特征需要太多的参数。为解决这个问题，人们提出了 matrix factorization: MF 和 factorization machine: FM ，这些方法通过两个 feature embedding 向量的点乘来学习交叉特征的影响。在 FM 的基础上，人们提出了 Field-aware Factorization Machine: FFM，从而考虑 field 信息来建模来自不同 field pair 的不同的特征交互。最近，人们又提出了 Field-weighted Factorization Machine: FwFM 模型，以一种更加 parameter-efficient 的方式来考虑 field 信息。
现有的考虑 field 信息的模型要么有太多的参数（如 FFM ），要么不是很有效（如 FwFM）。论文 《FM2: Field-matrixed Factorization Machines for Recommender Systems》 建议使用两个特征向量之间的 field matrix 来建模这两个特征向量之间的交互，其中矩阵是为每个 field-pair 单独学习的。论文表明，field-pair matrix 方法在保持计算空间和时间效率的同时，实现了良好的准确性。

29.1 模型

$m$ unique $\{f_1,\cdots,f_m\}$ $n$ fields $\{F_1,\cdots,F_n\}$ $f_i$ field $F(i)$ 。
$\mathcal S = \left\{y^{(s)},\mathbf{\vec x}^{(s)}\right\}_{s=1}^N$ $y^{(s)}\in \{1,-1\}$ label $\mathbf{\vec x}^{(s)}\in \{0,1\}^m$ $x_i^{(s)}=1$ $f_i$ 是 active 的。
- LR 模型为：
  $\begin{matrix} (39) & min_{\vec{w}} λ ∥ \vec{w} ∥_{2}^{2} + \sum_{s = 1}^{N} \log (1 + \exp (- y^{(s)} Φ_{LR} (\vec{w}, {\vec{x}}^{(s)}))) \end{matrix}$
  $\lambda$ $\mathbf{\vec w}$ $\Phi_\text{LR}(\mathbf{\vec w}, \mathbf{\vec x}) = w_0 + \sum_{i=1}^m x_iw_i$ 。
  然而，线性模型缺乏表示特征交互的能力。由于交叉特征可能比那些单一特征更重要，在过去的几十年里，人们提出了许多改进。
- Poly2：然而，线性模型对于诸如 CTR 预估这样的任务来说是不够的，在这些任务中，特征交互是至关重要的。解决这个问题的一般方法是增加 feature conjunction 。已有研究表明，Degree-2 Polynomial: Poly2Poly2 $\Phi_\text{LR}$ 替换为：
  $\begin{matrix} (40) & Φ_{Poly2} (\vec{w}, \vec{x}) = w_{0} + \sum_{i = 1}^{m} x_{i} w_{i} + \sum_{i = 1}^{m} \sum_{j = i + 1}^{m} x_{i} x_{j} w_{h (i, j)} \end{matrix}$
  $h(i,j)$ $i$ $j$ $\mathcal H$ $O(m^2)$ 的数量级。
- FM：Factorization Machine:FMembedding $\mathbf{\vec v}_i\in \mathbb R^K$ $K$ $K=10$ FM $i$ $j$ embedding $\mathbf{\vec v}_i$ $\mathbf{\vec v}_j$ 之间的内积：
  $\begin{matrix} (41) & Φ_{FM} ((\vec{w}, v), \vec{x}) = w_{0} + \sum_{i = 1}^{m} x_{i} w_{i} + \sum_{i = 1}^{m} \sum_{j = i + 1}^{m} x_{i} x_{j} < {\vec{v}}_{i}, {\vec{v}}_{j} > \end{matrix}$
  $<\cdot,\cdot>$ 为向量的内积。
  在涉及稀疏数据的应用中（如 CTR 预估），FM 的表现通常优于 Poly2 模型。原因是，只要特征本身在数据中出现的次数足够多，FM 总能为每个特征学习到一些有意义的 embedding 向量，这使得内积能很好地估计两个特征的交互效应 interaction effect ，即使两个特征在数据中从未或很少一起出现。
- FFM：然而，FM 忽略了这样一个事实：当一个特征与其他不同 fieldField-aware Factorization Machines: FFM $i$ $n-1$ 个 embeddingembedding $\mathbf{\vec v}_{i,F(j)}$ field $F(j)$ $j$ 交互：
  $\begin{matrix} (42) & Φ_{FM} ((\vec{w}, v), \vec{x}) = w_{0} + \sum_{i = 1}^{m} x_{i} w_{i} + \sum_{i = 1}^{m} \sum_{j = i + 1}^{m} x_{i} x_{j} < {\vec{v}}_{i, F (j)}, {\vec{v}}_{j, F (i)} > \end{matrix}$
  虽然 FFMFM $O(mnK)$ 的数量级。在现实世界的生产系统中，FFM 的巨大参数数量是不可取的。因此，设计具有竞争力的和更高内存效率的替代方法是非常有吸引力的。
- FwFM：在 FwFMfeature pair $(i,j)$ 的交互被建模为：
  $\begin{matrix} (43) & x_{i} x_{j} < {\vec{v}}_{i}, {\vec{v}}_{j} > r_{F (i), F (j)} \end{matrix}$
  $<\cdot,\cdot>$ $r_{F(i),F(j)}\in \mathbb R$ field pair $(F(i),F(j))$ 之间交互强度的权重。
  FwFM 的公式为：
  $\begin{matrix} (44) & Φ_{FwFM} ((\vec{w}, v), \vec{x}) = w_{0} + \sum_{i = 1}^{m} x_{i} w_{i} + \sum_{i = 1}^{m} \sum_{j = i + 1}^{m} x_{i} x_{j} < {\vec{v}}_{i}, {\vec{v}}_{j} > r_{F (i), F (j)} \end{matrix}$
  FwFMFM $r_{F(i),F(j)}$ 来显式地建模不同 feature pair 的不同交互强度。FFM 可以隐式地建模不同 feature pairFFM $i$ embedding $\mathbf{\vec v}_{i,F_k}$ field $F_k$ $F_k\ne F(i)$ $F(i)$ 与不同 field 特征的不同交互。
最近，也有很多关于基于深度学习的 CTR 预测模型的工作。这些模型同时捕获了低阶交互和高阶交互，并取得了明显的性能改进。然而，这些模型的在线推理复杂性比浅层模型要高得多。通常需要使用模型压缩技术，如剪枝、蒸馏或量化来加速这些模型的在线推理。在本文中，我们专注于改进低阶交互，所提出的模型可以很容易地作为这些深度学习模型中的浅层组件。
我们提出了一个新的模型，将 field pair 的交互表达为一个矩阵。与 FM 和 FwFMembedding $\mathbf M_{F(i),F(j)}$ field $F(i)$ field $F(j)$ 之间的交互：
$\begin{matrix} (45) & x_{i} x_{j} < M_{F (i), F (j)} {\vec{v}}_{i}, {\vec{v}}_{j} > \end{matrix}$
其中：
- $\mathbf{\vec v}_i,\mathbf{\vec v}_j$ feature $i$ $j$ 的 embedding 向量。
- $F(i), F(j)$ feature $i$ $j$ 的 field。
- $\mathbf M_{F(i), F(j)}\in \mathbb R^{K\times K}$ field $F(i)$ field $F(j)$ 之间交互的矩阵。
  $\mathbf M_{F(i), F(j)} \neq \mathbf M_{F(j), F(i)}$ ，因为它们作用的 embeddingfield $F(i)$ field $F(j)$ field $F(j)$ field $F(i)$ 之间的交互”，因此有：
  $\begin{matrix} (46) & < M_{F (i), F (j)} {\vec{v}}_{i}, {\vec{v}}_{j} >=< M_{F (j), F (i)} {\vec{v}}_{j}, {\vec{v}}_{i} > \end{matrix}$
我们称这个模型为 Field-matrixed Factorization Machine: FmFM（也叫做 FM2）：
$\begin{matrix} (47) & Φ_{FmFM} ((\vec{w}, v), \vec{x}) = w_{0} + \sum_{i = 1}^{m} x_{i} w_{i} + \sum_{i = 1}^{m} \sum_{j = i + 1}^{m} x_{i} x_{j} < M_{F (i), F (j)} {\vec{v}}_{i}, {\vec{v}}_{j} > \end{matrix}$
FmFMFwFM $\mathbf M_{F(i),F(j)}$ FwFM $r$ ）来建模不同field pairembedding $n-1$ 个 embedding 空间。我们将这些矩阵命名为 Field-Matrix 。
FwFM $r_{F(i), F(j)}$ $\mathbf M_{F(i), F(j)}$ 。
feature pair $(i,j )$ $(i,k)$ $i, j,k$ 来自于三个不同的 field 。计算可以分解为三步：
- Embedding Lookup：从 embedding tablefeature embedding $\mathbf{\vec v}_i,\mathbf{\vec v}_j,\mathbf{\vec v}_k$ 。
- $\mathbf M_{F(i),F(j)}$ $\mathbf M_{F(i),F(k)}$ $\mathbf{\vec v}_i$ $\mathbf{\vec v}_{i,F(j)} = \mathbf M_{F(i),F(j)} \mathbf{\vec v}_i$ field $F(j)$ $\mathbf{\vec v}_{i,F(k)} = \mathbf M_{F(i),F(k)} \mathbf{\vec v}_i$ field $F(k)$ 。
- $\mathbf{\vec v}_{i,F(j)}\cdot \mathbf{\vec v}_j$ $\mathbf{\vec v}_{i,F(k)}\cdot \mathbf{\vec v}_k$ 。

29.2 FM2 作为统一框架

FM 家族的统一框架：
- FM：下图展示了 FM 中特征交互的计算。如果将 FmFM 中所有的 field matrix 都固定为单位矩阵，那么 FmFM 将退化为 FM 。由于单位矩阵是固定的、不可训练的，因此我们定义其自由度为 0 。
- FwFM：下图展示了 FwFMFmFM $\mathbf M_{F(i),F(j)}$ $r\mathbf I_K\in \mathbb R^{K\times K}$ $r$ 为标量并且针对不同的 field pair 取不同的值，那么 FmFM 将退化为 FwFM 。我们定义 FwFM 的自由度为 1 。
- FvFM：根据 Figure 3FmFM $\mathbf M_{F(i),F(j)}$ $\mathbf D^{F(i),F(j)} = \text{diag}(d^{F(i),F(j)}_1,d^{F(i),F(j)}_2,\cdots,d^{F(i),F(j)}_K)\in \mathbb R^{K}$ ，其中不同 field pair 选择不同的对角矩阵，如 Figure3 的右边的矩阵所示，那么：
  $\begin{matrix} (48) & {\vec{v}}_{i, F (j)} = D^{F (i), F (j)} {\vec{v}}_{i} = {\vec{v}}_{i} ⊙ {\vec{d}}^{F (i), F (j)} \end{matrix}$
  $\mathbf{\vec d}^{F(i),F(j)} = \left(d^{F(i),F(j)}_1,d^{F(i),F(j)}_2,\cdots,d^{F(i),F(j)}_K\right)$ 。
  我们将这种方法命名为 Field-vectorized Factorization Machine: FvFM ，它的自由度为 2 。
- FmFM：它具有一个矩阵的所有自由度，即自由度为 3 。我们预期 FmFM 比其他 FM 模型有更强大的预测能力。
总之，我们发现 FM、FwFM 、FvFM 都是 FmFM 的特例，唯一的区别是它们的 field matrix的限制。根据它们的灵活性，我们把它们总结在下表中。
FmFM 与 OPNN 的关系：FmFM 也可以看做是通过加权外积来建模两个 feature embedding vector 的交互：
$\begin{matrix} (49) & \begin{matrix} Φ_{FmFM} ((\vec{w}, v), \vec{x}) = w_{0} + \sum_{i = 1}^{m} x_{i} w_{i} + \sum_{i = 1}^{m} \sum_{j = i + 1}^{m} x_{i} x_{j} p ({\vec{v}}_{i}, {\vec{v}}_{j}, W_{F (i), F (j)}) \\ W_{F (i), F (j)} \in R^{K \times K}, p ({\vec{v}}_{i}, {\vec{v}}_{j}, W_{F (i), F (j)}) = \sum_{k = 1}^{K} \sum_{k^{'} = 1}^{K} v_{i, k} v_{j, k^{'}} w_{F (i), F (j), k, k^{'}} \end{matrix} \end{matrix}$
OPNN 也提出通过外积来建模特征交互。然而，FmFM 在以下两个方面与 OPNN 不同：
- 首先，FmFM 是一个简单的浅层模型，没有像 OPNN 中那样的全连接层。我们可以将 FmFM 作为任何深度 CTR 模型的一个浅层组件或构建块。
- 其次，FmFM 支持针对不同 feature field 的可变 embedding size 。
FFM vs FmFM ，即 Memorization vs Inference ：与上述其他 FM 不同，FFM 不能被改造成 FmFM 框架。下图展示了 FFM 中特征交互的计算。 FFMfeature embedding $n-1$ embedding $n-1$ 个 field 进行交叉。在训练过程中，这些 field-specific embedding 将被独立学习，而且这些 embedding 之间没有任何限制，即使它们属于同一特征。
这种 FFM 机制给了模型最大的灵活性来拟合数据，而且大量的 embedding 参数也具有惊人的记忆能力。同时，即使有数十亿的样本需要训练，也总是存在着过拟合的风险。特征分布的属性是一个长尾分布，而不是均匀分布，这使得 feature pair 的分布更加不平衡。
feature pair $(i, j)$ $(i,k)$ $\mathbf{\vec v}_{i,F(j)}$ $\mathbf{\vec v}_{i,F(k)}$ 是两个独立的 embeddingembedding $\mathbf{\vec v}_{i,F(j)}$ $\mathbf{\vec v}_{i,F(k)}$ 未被训练得很好。由于特征的长尾分布，那些高频的 feature pair 可能占据了训练数据的绝大部分，而低频的 feature pair （占据了 feature pair 中的绝大多数）则不能被很好地训练。
FmFM 使用共享 embedding 向量，因为每个特征只有一个 embeddingembedding $n-1$ field $n-1$ embedding $\mathbf{\vec v}_{i,F(*)}$ embedding $\mathbf{\vec v}_i$ 绑定的。有了这些 field matrix ，向量是可以前向变换和反向变换。这就是 FFMFmFM $\mathbf{\vec v}_{i,F(\cdot)}$ ）有助于模型很好地学习那些低频 feature pair 。
回到 Figure 1feature pair $(i, k)$ feature embedding $\mathbf{\vec v}_i$ feature pair $(i,j)$ field matrix $\mathbf M_{F(i), F(k)}$ field $F(i)$ field $F(k)$ feature pair $(i,k)$ $\mathbf{\vec v}_{i,F(k)}$ $\mathbf M_{F(i),F(k)} \mathbf{\vec v}_i$ 推断出来。
尽管 FFM 和 FmFM 之间有这种差异，但它们有更多的共同点。Figure 4 和 Figure 1 之间一个有趣的观察是：当所有变换完成后，FmFM 模型变成了 FFM 模型。我们可以缓存那些中间向量，避免在运行时进行矩阵操作。细节将在下一节讨论。
相反，FFMFmFM $n-1$ 个 field feature embedding table 是独立的，因此很难将它们压缩成单个 feature embedding table ，并在需要时恢复它们。
模型复杂度：
- FM $m + mK$ $m$ $mK$ 为所有特征的 embedding 向量。
- FwFMfield $n(n-1)/2$ FwFM $m+mK+n(n-1)/2$ 。
- FmFMfield $n(n-1)/2$ $\frac{n(n-1)}{2}K^2$ FwFM $m+mK+n(n-1)K^2/2$ 。
- FFM $m+m(n-1)K$ $n-1$ 个 embedding 向量。
在下表中，我们比较了到目前为止提到的所有模型的复杂度。我们还列出了每个模型的估计参数规模（模型配置，如 embedding size ，参考实验部分），这些模型使用了公共数据集 Criteo 。这些数字可以让我们对每个模型的规模有一个直观的印象。FM 、FwFM 和 FmFM 的规模相近，而 FFM 的规模比其他模型大十几倍。

29.3 模型优化

这里我们可以设计出 3 种策略来进一步降低 FmFM 的复杂度：
- field-specific embedding dimension：它是 FmFM 的一个独特属性，允许我们在 embedding tablefield-specific $K$ 。
  这里 field-specific 的维度是通过对训练好的 embedding table 进行降维来实现的。因此需要训练两遍。
- 缓存中间向量：避免矩阵运算从而在运行时减少 FmFM 的计算复杂度（仅用于推断期间）。
- 减少线性项：用 field-specific 权重来代替。
这里面提到的优化方法大多数都不实用，无法优化训练速度，而仅聚焦于优化推断速度。实际上，如果想优化推断速度，那么可以用模型剪枝、模型量化、模型蒸馏技术。
Field-specific Embedding Dimension：为了进行点积， FMfeature embedding $K$ 相同，即使特征来自不同的 field 。改进后的模型如 FwFMFvFM $K$ 只能全局优化。
当我们利用 FmFM 中的矩阵乘法时，它实际上并不要求 field matrix 是方阵：我们可以通过改变 field matrix 的 shape 来调整输出向量的维度。这一特性给了我们另一种灵活性，可以在 embedding table 中按需设置 field-specific 维度，如下图所示。
embedding 向量的维度决定了它所能携带的信息量。例如，field user_gender 可能只包含 3 个值（ male, female, other ），field top_level_domain 可能包含超过 1M 个特征。因此，user_gender 的 embedding table 可能只需要 5 维，而 field top_level_domain 的 embedding table 可能需要 7 维，因此它们之间的 field matrixshape $(7, 5)$ 。
为了在不损失模型性能的前提下设计 field-specific embedding vector dimension ，我们提出了一种 2-pass 方法：
- 在第一个 pass，我们对所有 fieldembedding $K=16$ ，并将 FmFM 训练为完整模型。从完整的模型中，我们了解到每个 field 有多少信息（方差），然后我们在每个 field 的 embedding table 上应用标准的 PCA 降维方法。从实验部分中我们发现，包含 95%原始方差的新维度是一个很好的 tradeoff。
- 有了这个新的 field-specific 的维度设置，我们在第二个 pass 中从头开始训练模型。与第一个完整的模型相比，所得到的第二个模型没有任何明显的性能损失。
这种方法训练时间翻倍。一般而言，CTR 预测任务的数据集很大、模型也比较复杂，因此整体训练时间会很长。翻倍的训练时间不太有利。
并且，这种方法还需要仔细设计 field matrix 的 shape，增加了开发成本。
下表显示了 Criteo 数据集中每个 field 通过 PCA 进行优化后的维度。可以看到，这些维度的范围很大，从 2 到 1410 $\bar K$ 只有 7.72FwFM $K$ 值。由于保留了数据集的大部分方差，较低的平均维度意味着模型的参数较少，需要较少的内存。
Intermediate Vectors Cache：在参数数量上，FmFM 是一个比 FFM 更低复杂度的模型。但是 FmFM 在变换步骤中需要昂贵的矩阵运算。在下表中，我们列出了每个模型的浮点运算( Floating Point Operations: FLOPs )的数量，并以典型的设置对其进行估计。
$n=39, K=16, H=200$ DNN $L=3$ DNN $K^\prime=32$ AutoInt $s_\text{FwFM} = 90\%$ $s_\text{DNN} = 80\%$ 分别为在 DeepLight 中 FwFM 和 DNN 组件的稀疏率。
在这些 FM 模型中，FmFM 需要最多的操作来完成其计算，大约是FwFMFFM $K$ 倍，但仍然比大多数 DNN 模型快。如前所述，我们已经表明，通过缓存所有的中间向量，可以将 FmFM 模型转化为 FFM 模型。在这个意义上，我们可以把它的操作数量减少到与FM 和 FFM 相同的量级，这几乎是 20 倍的速度。
首先，如何缓存？论文并未提到细节。
其次，缓存中间向量仅在推理期间有效，因为此时所有参数都已经学好并固定不动。然而在训练期间，每经过一个 training iteration 参数都发生更新，因此缓存的中间向量到下一个 iteration 就没有意义。因此，读者估计，FmFM 的训练时间会非常的长。
最后，这里给的计算复杂度及其估计值是针对推理期间的，而不是训练期间的。而 95% variance 是在训练完成之后进行的，在训练期间不可用。
Embedding Dimension and Cache Optimization Combined ：当我们把 field-specific embedding dimensional optimization 和缓存优化结合起来时，推理速度可以快得多，而且所需的内存也可以大大减少。这得益于 FmFM 的另一个特性：交互矩阵是对称的。这意味着：
$\begin{matrix} (50) & < M_{F (i), F (j)} {\vec{v}}_{i}, {\vec{v}}_{j} >=< M_{F (i), F (j)}^{⊤} {\vec{v}}_{j}, {\vec{v}}_{i} > \end{matrix}$
证明见原始论文。
因此，我们可以选择缓存那些 field embeddingTable 3 $i$ $j$ 分别来自 field #16field #28 $i$ $j$ $\mathbf M_{16,28} \mathbf{\vec v}_i$ $\mathbf M_{16,28}^\top \mathbf{\vec v}_j$ 。
- field matrix $\mathbf M_{16, 28}$ $(14, 2)$ $\mathbf M_{16,28} \mathbf{\vec v}_i$ 将维度从 2 （ field #16 ）增加到 1414 $\mathbf{\vec v}_j$ 进行点乘。它花费了 14 个单位的内存用于中间向量的缓存，在推理过程中需要 2*14 个 FLOPs 。
- $\mathbf M_{16,28}^\top \mathbf{\vec v}_j$ 将维度从 14 （field #28 ）缩减到 22 $\mathbf{\vec v}_i$ 进行点乘，它在中间向量缓存中花费 2 个单位的内存，并在推理中花费 2*2 FLOPs 。因此缓存维度为 2 的中间向量，可以节省 7 倍的内存和时间，而没有任何精度损失。
通过这两种优化技术的结合，FmFM 模型的时间复杂度大大降低。在 Table 4 中，我们估计优化后的模型只需要 8,960 个 FLOPs ，这只是FFM 的 1/3 左右。在实验部分中，我们将说明这个优化的模型可以达到与完整模型相同的性能。
Soft Pruning：field-specific embedding dimension 实际上也起到了类似于剪枝的作用。传统的剪枝，如 DeepLight ，给出了保留或放弃一个 field 或一个 field pair 的二元决定。而 field-specific embedding dimension 给了我们一个新的方法：按需确定每个 field 和 field pair 的重要性，并给每个 field 分配一个系数（即，emebdding 维度）来代表其重要性。例如，在 Table 3 的 FmFM 模型中，cross field #17 和 #20 是一个高强度的 field pair ，它在推理过程中需要 11 个单位的缓存和 2*11 个 FLOPs ；相反，一个低强度的 field pair ，即 cross field #18 和 #22 ，只需要 2 个单位的缓存和 2*2 个 FLOPs 。
缓存空间大小就是 field pair 中最短的那个 emebdding 维度。
在传统的剪枝方法中，当我们放弃一个 field pair 时，它的信号就完全消失了。而在我们的方法中，一个 field pair 仍然以最小的代价保留主要信息（即，很小的 embedding 维度）。这是一个 soft pruning 的版本，类似于 Softmax 。它的效率更高，在 soft pruning 过程中性能下降更少。
然后这种剪枝方法依赖于 emebdding 维度，而 embedding 维度是针对 embedding table 进行降维而得到的。这意味着在正式训练之前，先要完成一个训练从而得到 embedding table。此外，PCA 降维方法无法应用到大规模 embedding table 。
Figure 6 显示了 Criteo 数据集中 field pair 和 label 之间的互信息分数的热力图，它代表了 field pair 在预测中的强度。Figure 7 显示了 cross field dimension ，这是两个 field 之间的较低维度，它表示每个 field pair 的参数和计算成本。显然，这两个热力图是高度相关的，这意味着优化后的 FmFM 模型在那些强度较高的 field pair 上分配了更多的参数和更多的计算，而在强度较低的 field pair 上分配了较少的参数和较少的计算。
线性项：线性部分为：
$\begin{matrix} (51) & \sum_{i = 1}^{m} x_{i} w_{i} \end{matrix}$
$i$ $w_i$ embedding $\mathbf{\vec v}_i$ $w_i$ $\mathbf{\vec v}_i$ $\mathbf{\vec v}_i$ $w_i$ ）的另一个好处是，它可以帮助从线性部分学习 embedding 向量。
我们遵从 FwFMfield-specific $\mathbf {\vec w}_{F(i)}$ field $F(i)$ 的特征将共享相同的线性权重向量。然后，线性项可以被改写为：
$\begin{matrix} (52) & \sum_{i = 1}^{m} x_{i} < {\vec{v}}_{i}, {\vec{w}}_{F (i)} > \end{matrix}$
在本文的其余部分，我们默认对 FwFM、FvFM 和 FmFM 应用这种线性项优化。

29.4 实验

数据集：Criteo、Avazu 。
- 我们遵循那些已有的工作，将每个数据集随机分成三部分，80% 用于训练、10% 用于验证、10% 用于测试。
- 对于 Criteo 数据集中的数值特征，我们采用 Criteo 竞赛冠军提出的对数变换来归一化数值特征：
  $\begin{matrix} (53) & \begin{matrix} z (x) = {\begin{cases} \log (x)^{2}, & if x > 2 \\ x, & else \end{cases} \end{matrix} \end{matrix}$
- 对于 Avazu 数据集中的 date/hour 特征，我们将其转换为两个特征：day_of_week(0-6) 、hours(0-23) 。
- 我们还删除了两组数据中那些低于阈值的低频特征，并用该 field 的默认 "unknown" 特征来替换。Criteo 数据集的阈值为 8，Avazu 数据集的阈值为 5 。
归一化后的数据集的统计数字如下表所示：
baseline 方法：LR、FM、FwFM、FFM、FvFM、FmFM。
我们遵循 PNN 原始论文中 LR 和 FM 的实现，并遵循 FwFM 原始论文中 FFM 和 FwFM 的实现。
评估指标：验证集的 AUC, logloss 。
模型配置：对于那些 SOTA 模型，它们都是 DNN 模型，可能需要更多的超参数调优，我们从它们的原始论文中提取它们的性能（AUC 和 Log Loss ），以保持它们的结果最佳。我们列出他们的结果只是为了参考。
Deep & Cross 网络是一个例外，因为他们的论文只列出了 logloss 而没有列出 AUC 。因此，我们实现了他们的模型，得到了类似的性能。
$\lambda$ $\eta$ 等超参数，我们选择最佳验证集性能的超参数，然后在测试集上使用它们进行评估。
模型评估结果如下所示，其中对于 FmFM 我们不采用任何优化手段。可以看到：
- 在这两个数据集上，FvFM 和 FmFM 都能取得比 LR 、FM 和 FwFM更好的性能，这也是我们所预期的。
- 令人惊讶的是，FmFM 在两个测试集上都能取得比 FFM 更好的性能。正如我们之前提到的，即使 FFM 是一个比 FmFM 大几十倍的模型，我们的 FmFM 模型仍然在所有浅层模型中得到最好的 AUC 。
  FmFM 和 FFM 的性能相差无几，非常接近。
- AUC $\Delta \text{AUC}_\text{FmFM} = 0.0074$ 是那些 factorization machine 模型中最低的一个，这肯定了我们前面的假设：那些低频特征在交互矩阵的帮助下也被训练得不错，这种机制帮助 FmFM 避免过拟合。
  $\Delta \text{AUC}_\text{FmFM}$ 并不是最低的，而且数值也不是 0.0074 ，最低的是 LR 模型。
Embedding Dimension Optimization：在这一部分，我们前面描述的方法，即我们有一个 full size 的模型，我们可以为每个 field 提取其 embedding table ，然后我们利用标准的 PCA 降维。在这里，我们做了几个实验，比较降维对模型性能的影响，并试图在模型大小、速度和性能之间找到一个平衡点。
我们使用 Criteo 数据集，PCA 降维中分别保持 99%, 97%, 95%, 90%, 85%, 80% 的方差，并估计平均 embedding 维度和 FLOPS （具有缓存的中间向量）。在新的维度设置下，我们分别训练这些 FmFM 模型的第二遍，并观察测试集的 AUC 和 Log Loss 变化。结果如下表所示。可以看到：
- 当我们保持较少的 PCA 方差时，平均 embedding 维度明显减少。
- 当我们保持 95% 的方差时，与 full size 模型相比，只有不到 1/2 的 emebdding 维度和 1/3 的计算成本，而模型的性能没有明显变化。因此，当我们优化 FmFM 的 embedding 维度时，95% 的方差是一个很好的 tradeoff 。
下图显示了这些模型的性能（AUC ）和它们的计算复杂性（ FLOPs ）。与所有的 baseline 模型相比，作为一个浅层模型，优化后的 FmFM 模型得到了更高的 AUC 以及更低的 FLOPs ，除了 Deep&Cross 和 DeepLight 。然而 FmFM 的计算成本比这两个 ensemble 了 DNN 模块和浅层模块的复杂模型（即，Deep&Cross 和 DeepLight ）要低得多，其 FLOPs 分别只有它们的 1.76% 和8.78% 。较低的 FLOPs 使得 FmFM 在计算延迟受到严格限制时更受欢迎，这也是实时在线广告 CTR 预测和推荐系统中的常见情况。

29.5 讨论

未来方向：
- FmFM 仍然是一个线性模型，我们可以将非线性层引入到 field 交互中，让模型成为非线性模型，这样就更加灵活。
- 所有的 FM 模型实际上都是二阶模型，它最多允许 2 个 field 交互。这种限制主要是因为点积的原因。在未来，我们可以引入三维张量，允许 3 个 field 的交互，或者甚至更高阶次。这项工作可能需要更多的模型优化，因为有太多的三阶交互。
- 我们可以结合 DNN 模型，如 Wide & Deep、DeepFM、DeepLight，并尝试将 FmFM 作为 DNN 模型的一个构建模块，以进一步提高其性能。

三十、FiBiNET[2019]

近年来，许多基于深度学习的 CTR 模型被提出并取得了成功，如 Factorization-Machine Supported Neural Network: FNN、Wide&Deep model: WDL、Attentional Factorization Machine: AFM、DeepFM、XDeepFM 等等。
论文 《FiBiNET: Combining Feature Importance and Bilinear Feature Interaction for Click-Through Rate Prediction》 提出了一个叫做 FiBiNET 的新模型，它是 Feature Importance and Bilinear feature Interaction NETwork 的缩写，用于动态地学习特征重要性和细粒度的特征交互。
- 众所周知，不同的特征对目标任务有不同的重要性。例如，当我们预测一个人的收入时，职业这个特征比爱好这个特征更重要。考虑到这一点，论文引入了 Squeeze-and-Excitation network: SENET 来动态地学习特征的权重。
- 此外，特征交互是 CTR 预测领域的一个关键挑战，许多相关工作以简单的方式计算特征交互，如 Hadamard 积和内积。论文提出了一种新的细粒度的方法采用双线性函数来计算特征交互。
论文主要贡献：
- 受 SENET 在计算机视觉领域的成功启发，论文使用 SENET 机制来动态地学习特征的权重。
- 论文引入了三种类型的双线性交互层 Bilinear-Interaction layer ，以一种精细的方式学习特征交互。而之前的工作用 Hadamard 积或内积来计算特征交互。
- 结合 SENET 机制和双线性特征交互，论文的浅层模型在 Criteo 和 Avazu 数据集上的浅层模型之间（如 FFM ）实现了 SOTA 。
- 为了进一步提高性能，论文将经典的深度神经网络组件与浅层模型相结合，构成一个深度模型。深度 FiBiNET 在 Criteo 和Avazu 数据集上的表现一直优于其他 SOTA 的深度模型。
相关工作：
- FM 及其变体：factorization machine: FM 和 field-aware factorization machine: FFM 是两个最成功的 CTR 模型。
  - FM 使用因子化的参数建模所有的特征交互。它的时间复杂度和空间复杂度都很低，在大型稀疏数据上表现很好。
  - FFM 引入了 field-aware 的潜在向量，并赢得了由 Criteo 和 Avazu 主办的两个比赛。然而，FFM 的空间复杂度太高，不容易在互联网公司中使用。
- Deep Learning based CTR Models：近年来，许多基于深度学习的 CTR 模型被提出。大多数基于神经网络的 CTR 模型的关键因素是：如何有效地建模特征交互。
  - Factorization-Machine Supported Neural Network: FNN 是一个前馈神经网络，使用 FM 来预训练 embedding layer 。然而，FNN 只能捕获高阶的特征交互。
  - Wide & Deep model: WDL 联合训练 wide linear model 和 deep neural network ，从而为推荐系统来结合 memorization 和 generalization 的好处。然而，对于 WDL 的 wide 部分的输入，仍然需要专业的特征工程，这意味着 cross-product transformation 也需要手工设计。
  - 为了减轻特征工程中的人工努力，DeepFM 用 FM 取代了 WDL 的 wide 部分，并在 FM 和 deep 组件之间共享 feature embedding 。DeepFM 被认为是 CTR 预估领域中的 SOTA模型之一。
  - Deep & Cross Network: DCN 以一种显式的方式有效地捕捉了有界阶次的特征交互。
  - eXtreme Deep Factorization Machine: xDeepFM 也通过提出一个新颖的 Compressed Interaction Network : CIN 组件来显式地建模低阶特征交互和高阶特征交互。
  - 正如 《Attentional factorization machines: Learning the weight of feature interactions via attention networks》 所提到的，FM 的一个不足是它对所有特征交互采用相同的权重，然而并不是所有的特征交互都同样有用和具有预测性。因此，他们提出了 Attentional Factorization Machine: AFM 模型，该模型使用注意力网络来学习特征交互的权重。
  - Deep Interest Network: DIN 用兴趣分布 interest distribution 表示用户的多样化兴趣，并设计了一个类似注意力的网络结构从而根据候选广告局部地激活相关的兴趣。
- SENET Module：《Squeeze-and-excitation networks》 提出了 Squeeze-and-Excitation Network: SENET ，通过显式地建模卷积特征通道之间的相互依赖关系，从而提高网络的表达能力。SENET 被证明在图像分类任务中是成功的，并在 ILSVRC 2017 分类任务中赢得了第一名。
  除了图像分类，SENET 还有其他的应用。
  - 《Recalibrating Fully Convolutional Networks with Spatial and Channel’Squeeze & Excitation’Blocks》介绍了三种用于语义分割任务的 SE 模块的变体。
  - 对常见的胸部疾病进行分类，以及对胸部X 光片上的可疑病变区域进行定位（《Weakly Supervised Deep Learning for Thoracic Disease Classifcation and Localization on Chest X-rays》）是另一个应用领域。
  - 《Global-andlocal attention networks for visual recognition》用 global-and-local attention: GALA 模块扩展了 SENET 模块，在 ILSVRC 上获得 SOTA 的准确性。

30.1 模型

我们的目标是以一种细粒度的方式动态地学习特征的重要性和特征交互。为此，我们提出了用于CTR 预估任务的 Feature Importance and Bilinear feature Interaction NETwork: FiBiNET 。
我们的模型结构如下图所示。为了清晰起见，我们省略了 logistic regression 的部分，这部分可以很容易地纳入。我们的模型由以下部分组成：sparse input layer, embedding layer, SENET layer, Bilinear-Interaction layer, combination layer, multiple hidden layers, output layer。
- sparse input layer 和 embedding layer 与 DeepFM 相同，它对输入特征采用稀疏表示并将原始特征嵌入到稠密向量中。
- SENET layer 可以将 embedding layer 转换为 SENET-Like embedding feature ，这有助于提高特征的 discriminability 。
  由于原始 Embeddings 和 SENET-Like Embeddings 都作为后续模块的输入，因此 SENET-Like Embeddings 仅仅是作为原始 Embeddings 的补充（类似于残差机制），而不是作为原始 Embeddings 重要性的解释。
  如果仅仅将 SENET-Like Embeddings 作为后续模块的输入，这时候才具有可解释性。
- 接下来的 Bilinear-Interaction layer 分别对原始 embedding 和 SENET-Like embedding 的二阶特征交互进行建模。
- combination layer 拼接了 Bilinear-Interaction layer 的输出。
- 最后，我们将combination layer 的输出馈入一个深度神经网络从而得到预测分数。
Sparse Input and Embedding layer：sparse input layer 对原始输入特征采用了 sparse representation ，embedding layer 将 sparse feature 嵌入到一个低维稠密的实值向量中。embedding layerfield embedding $\mathbf{\vec e} = \left[\mathbf{\vec e}_1,\mathbf{\vec e}_2,\cdots,\mathbf{\vec e}_f\right]\in \mathbb R^{fk}$ $\mathbf{\vec e}_i\in \mathbb R^k$ $f$ field $k$ 为 field embedding 维度。
SENET Layer：我们都知道，不同的特征对目标任务有不同的重要性。例如，当我们预测一个人的收入时，职业这个特征比爱好这个特征更重要。受到 SENET 在计算机视觉领域的成功启发，我们引入了 SENET 机制，让模型更加关注特征的重要性。对于特定的 CTR 预估任务，我们可以通过 SENET 机制动态地增加重要特征的权重、减少不重要特征的权重。
以 feature embedding 作为输入，SENETfield embedding $\mathbf{\vec a}=(a_1,\cdots,a_f)\in \mathbb R^f$ $\mathbf{\vec a}$ embedding $\mathbf{\vec e}$ 从而得到一个新的 embedding （即，SENET-Like embedding）：
$\begin{matrix} (54) & \vec{v} = [{\vec{v}}_{1}, {\vec{v}}_{2}, \dots, {\vec{v}}_{f}] \in R^{f k}, {\vec{v}}_{i} = a_{i} \times {\vec{e}}_{i} \in R^{k} \end{matrix}$
$a_i\in \mathbb R$ $i$ field $\mathbf{\vec v}_i\in \mathbb R^k$ $i$ 个 field 的 SENET-Like embedding 。
如下图所示，SENET 由三个步骤组成：squeeze step 、excitation step 、re-weight step 。
- squeeze：这一步是用来计算每个 field embedding 的 summary statistics 的。具体而言，我们使用一些池化方法（如 max/meanembedding $\mathbf{\vec e} = \left[\mathbf{\vec e}_1,\mathbf{\vec e}_2,\cdots,\mathbf{\vec e}_f\right]$ $\mathbf{\vec z}=(z_1,\cdots,z_f)\in \mathbb R^f$ $z_i\in \mathbb R$ $i$ 个特征表示的全局信息。
  $z_i$ $z_i = F_\text{sq}(\mathbf{\vec e}_i)$ $F_\text{sq}(\cdot)$ 可以为均值池化、sum 池化、或者最大池化。
  $\begin{matrix} (55) & z_{i} = F_{sq} ({\vec{e}}_{i}) = \frac{1}{k} \sum_{t = 1}^{k} e_{i, t}, z_{i} = F_{sq} ({\vec{e}}_{i}) = \sum_{t = 1}^{k} e_{i, t}, z_{i} = F_{sq} ({\vec{e}}_{i}) = max_{1 \leq t \leq k} {e_{i, t}} \end{matrix}$
  原始 SENET 论文中的 squeeze 函数是最大池化。然而，我们的实验结果表明，均值池化的性能比最大值池化的性能更好。
- excitation $\mathbf{\vec z}$ 来学习每个 field embedding 的权重。我们使用两个全连接层来学习权重：
  - $\mathbf W_1$ $r$ $\sigma_1$ 。
  - $\mathbf W_2$ $\sigma_2$ 。
  正式地，field embedding 的权重的计算公式为：
  $\begin{matrix} (56) & \vec{a} = F_{ex} (\vec{z}) = σ_{2} (W_{2} σ_{1} (W_{1} \vec{z})) \in R^{f} \end{matrix}$
  $\sigma_1,\sigma_2$ $\mathbf W_1\in \mathbb R^{f\times \frac{f}{r}}, \mathbf W_2\in \mathbb R^{\frac{f}{r}\times f}$ 。
  $r$ 个权重。
- re-weight：SENET 的最后一步是 reweight ，在原始论文中被称为 re-scaleSENET-Like embedding $\mathbf{\vec v}$ 可以被计算为：
  $\begin{matrix} (57) & \vec{v} = F_{Reweight} (\vec{a}, \vec{e}) = [a_{1} \times {\vec{e}}_{1}, \dots, a_{f} \times {\vec{e}}_{f}] = [{\vec{v}}_{1}, \dots, {\vec{v}}_{f}] \end{matrix}$
Bilinear-Interaction Layer：Interaction layerHadamard $\left\{\left(\mathbf{\vec v}_i\cdot \mathbf{\vec v}_j\right)x_ix_j\right\}_{(i,j)\in \mathcal R_x}$ $\left\{\left(\mathbf{\vec v}_i\odot\mathbf{\vec v}_j\right)x_ix_j\right\}_{(i,j)\in \mathcal R_x}$ $\mathcal R_x=\{(i,j)\}_{i,j\in \{1,\cdots,f\}, j\gt i}$ 。内积和Hadamard 积过于简单，不能有效地建模稀疏数据集中的特征交互。因此，我们提出了一种更加细粒度的方法来结合内积和 Hadamard 积，如下图 (c) 所示。
具体来说，我们在Interaction layerBilinear-Interaction layer $i$ field embedding $\mathbf{\vec v}_i$ $j$ field embedding $\mathbf{\vec v}_j$ $p_{i,j}$ 可以计算为：
- Field-All Type：
  $\begin{matrix} (58) & p_{i, j} = (W {\vec{v}}_{i}) ⊙ {\vec{v}}_{j} \in R^{k} \end{matrix}$
  $\mathbf W\in \mathbb R^{k\times k}$ 为权重矩阵，它在所有的 field interaction pair 之间共享。
- Field-Each Type：
  $\begin{matrix} (59) & p_{i, j} = (W_{i} {\vec{v}}_{i}) ⊙ {\vec{v}}_{j} \in R^{k} \end{matrix}$
  $\mathbf W_i\in \mathbb R^{k\times k}$ 为权重矩阵，每个 field 都有一个。
- Field-Interactoin Type：
  $\begin{matrix} (60) & p_{i, j} = (W_{i, j} {\vec{v}}_{i}) ⊙ {\vec{v}}_{j} \in R^{k} \end{matrix}$
  $\mathbf W_{i,j}\in \mathbb R^{k\times k}$ 为权重矩阵，每个 field interaction pair 都有一个。
如 Figure 1 所示，我们有两种 embedding：原始 embedding、SENET-like embedding 。对于每一种 embedding，我们可以选择采用 bilinear 函数或 Hadamard 积。
最终，Bilinear-Interaction layerembeddign $\mathbf{\vec e}$ interaction vector $\mathbf{\vec p}=\left[\mathbf{\vec p}_1,\cdots,\mathbf{\vec p}_f\right]$ SENET-like embedding $\mathbf{\vec v}$ interaction vector $\mathbf{\vec q}=\left[\mathbf{\vec q}_1,\cdots,\mathbf{\vec q}_f\right]$ 。
Combination Layer：combination layerinteraction vector $\mathbf{\vec p}$ $\mathbf{\vec q}$ 拼接起来：
$\begin{matrix} (61) & \vec{c} = F_{concat} [{\vec{p}}_{1}, \dots, {\vec{p}}_{f}, {\vec{q}}_{1}, \dots, {\vec{q}}_{f}] = [{\vec{c}}_{1}, \dots, {\vec{c}}_{2 f}] \end{matrix}$
$\mathbf{\vec c}$ 中的每个元素相加，然后用一个 sigmoid 函数来输出预测值，我们就有了一个浅层的 CTR 模型。
为了进一步提高性能，我们将浅层组件和 DNN 组件组合成一个统一的模型，形成深度网络结构。这个统一的模型在本文中称为深度模型。
$\mathbf{\vec c}$ 之后进行线性加权，即：
$\begin{matrix} (62) & \begin{matrix} {score}_{p} = \sum_{i = 1}^{f} \sum_{j = 1}^{f} w_{i, j}^{(p)} \times p_{i, j}, {score}_{q} = \sum_{i = 1}^{f} \sum_{j = 1}^{f} w_{i, j}^{(q)} \times q_{i, j} \\ score = {score}_{p} + {score}_{q} \end{matrix} \end{matrix}$
Deep Network：深度网络由多个全连接层组成，隐式地捕获了高阶的特征交互。
Deep NetworkFigure 1 $\mathbf{\vec c}$ 。
Output Layer：我们模型的输出为：
$\begin{matrix} (63) & \hat{y} = σ (w_{0} + \sum_{i = 0}^{2 f k} w_{i} c_{i} + y_{d}) \end{matrix}$
$\sigma$ sigmoid $y_d$ deep part $w_0+\sum_{i=0}^{2fk}w_ic_i$ 为 wide part 的输出。
目标函数为交叉熵损失：
$\begin{matrix} (64) & L = - \frac{1}{N} \sum_{i = 1}^{N} (y_{i} \log {\hat{y}}_{i} + (1 - y_{i}) \log (1 - {\hat{y}}_{i})) \end{matrix}$
$N$ $y_i$ 为 ground-truth 。
与 FM, FNN 的联系：
- 假设我们去掉 SENET layer 和 Bilinear-Interaction layer，不难发现我们的模型将退化为 FNN 。
- 当我们进一步去掉 DNN 部分，同时使用常数的 sum ，那么浅层 FiBiNET 就退化为传统的 FM 模型。

30.2 实验

数据集：
- Criteo：包含有 4500 万个样本的点击日志。在 Criteo 数据集中有 26 个匿名的 categorical feature field 和 13 个 continuous feature field 。我们将数据集随机分成两部分：90% 用于训练，其余用于测试。
- Avazu：包含有 4000 万个样本的点击日志。对于每个点击数据，有24 个 feature field 。我们将其随机分成两部分：80% 用于训练，而其余部分用于测试。
评估指标：AUC, LogLoss 。
baseline 方法：
- 浅层 baseline 模型：LR、FM、FFM、AFM 。
- 深层 baseline 模型：FNN、DCN、DeepFM 、XDeepFM 。
实现细节：
- 所有模型用 TensorFlow 来实现。
- embedding layer 的维度：Criteo 数据集设为 10、Avazu 数据集设为 50 。
- 使用 Adam 优化器，Criteo 数据集的 batch size = 1000，Avazu 数据集的 batch size = 500，学习率设为 0.0001 。
- 对于所有的深度模型，层深度都是 3 、激活函数都是 RELU 、dropout rate 都是 0.5 。 Criteo 数据集的隐层维度为 400、Avazu 数据集的隐层维度为 2000 。
- 对于 SENETRELU $r=3$ 。
- 硬件配置：2 个 Tesla K40 GPU 。
Table 1 和 Table 2 中分别总结了浅层模型和深层模型在 Criteo 测试集和 Avazu 测试集上的总体表现。
这里 Interaction layer 使用 Field-All 双线性函数，如表格的标题所示。
- 浅层模型：我们的浅层 SE-FM-All 模型一直优于其他模型，如 FM、FFM、AFM等。
  - 一方面，结果表明，将 SENET 机制与稀疏特征上的 bilinear interaction 结合起来，对于许多现实世界的数据集来说是一种有效的方法。
  - 另一方面，对于经典的浅层模型来说， SOTA 的模型是 FFM ，但是它受到大内存的限制，不能轻易用于互联网公司。我们的浅层模型的参数较少，但仍然比 FFM 表现更好。因此，它可以被视为 FFM 的一个替代方案。
- 深层模型：
  - 将浅层部分和 DNN 结合成一个统一的模型，浅层模型可以获得进一步的性能提升。我们可以从实验结果中推断，隐式的高阶特征交互有助于浅层模型获得更多的表达能力。
  - 在所有的比较方法中，我们提出的深度 FiBiNET 取得了最好的性能。在 Criteo 数据集上和 Avazu 数据集上，我们的深度模型以 0.222% 和 0.59% 的 AUC （ 0.494% 和 0.6% 的 logloss ）优于DeepFM 。
  - 结果表明，将 SENET 机制与 DNN 中的Bilinear-Interaction 相结合进行预测是有效的。
    一方面，SENET 固有地引入了以输入为条件的动态性，有助于提高特征的discriminability ；另一方面，与内积或 Hadamard 积等其他方法相比，双线性函数是一种有效的方法来建模特征交互。
不同的特征交互方式：我们将讨论在 Bilinear-Interaction layer 中，双线性函数和 Hadamard 积不同类型的组合的影响。为方便起见，我们用0 和1来表示在 Bilinear-Interaction layer 使用哪种函数：1 表示使用双线性函数，而 0 表示使用 Hadamard 积。
Interaction layer 使用 Field-Each 双线性函数。很奇怪Table3 和 Table1/2 使用了不同的双线性函数。
我们有两个 embedding ，所以使用两个数字。第一个数字表示用于原始 embedding 的特征交互方法，第二个数字表示用于 SENET-like embedding 的特征交互方法。例如：10 表示双线性函数被用作原始 embedding 的特征交互方法、Hadamard 函数被用作 SENET-like embedding 的特征交互方法。
实验结果如下表所示。可以看到，在 Criteo 数据集上：
- 11 的组合在浅层模型中表现最好，但是在深度模型中表现最差。
- 深层模型中的首选组合应该是 01 。这种组合意味着双线性函数只适用于 SENET-Like embedding layer 。
不同数据集的结论不同，因此这个双线性函数的组合方式需要根据不同的数据进行调优。
Bilinear-Interaction 的 Field Types：这里我们研究了 Bilinear-Interaction layer 的不同 field 类型（Field-All, Field-Each, Field-Interaction ）的影响。对于深层模型，Bilinear-Interaction layer 的组合被设置为 01 ；对于浅层模型，Bilinear-Interaction layer 的组合被设置为 11。
- 对于浅层模型，与Field-All 类型相比（见 Table 1 ），Field-Interaction 类型可以在 Criteo 数据集上获得 0.382% （相对提升 0.476% ）的 AUC 改进。
- 对于深层模型，与 Field-All 类型相比（见 Table 2 ），Criteo 数据集的 Field-Interaction 类型、以及 Avazu 数据集的Field-Each 类型可以分别获得一些改进。
- 不同类型的 Bilinear-Interaction layer 的性能取决于数据集。
超参数：
- Embedding 部分：我们将 embedding size 从 10 改变到 50。可以看到：
  - 随着维度从 10 扩大到 50 ，在 Avazu 数据集上我们的模型可以获得大幅改善。
  - 当我们增加 Criteo数据集的 embedding size 时，性能就会下降。
    扩大 embedding size 意味着增加 embedding layer 和 DNN 部分的参数数量。我们猜测可能是 Criteo 数据集的特征比Avazu 数据集多得多，导致了优化的困难。
    有两个原因：过拟合、以及优化困难。因为这两个数据集的样本量都在 4000 万以上，因此二者的过拟合程度应该相差无几。
- SENET 部分：
  - squeeze 函数：下表总结了不同 squeeze 函数的性能，我们发现 GlobalMeanPooling 在 Criteo 数据集和 Avazu 数据集上优于 GlobalMaxPooling 或 GlobalSumPooling 。
  - 激活函数：我们改变了激活函数的组合，如下表所示。
    - 在这些激活函数的组合中，Relu-Relu 略胜于其他组合。
    - 与原始 SENET 的设置不同，FiBiNET 的 SENET 组件中的第二个激活函数是Relu函数，其性能比sigmoid 函数更好。
  - $1\le r\le 5$ $r=3$ 。
- DNN 部分：
  - 网络层数：增加层数可以增加模型的复杂性。我们可以从下图中观察到，增加层数在开始时可以提高模型性能。然而，如果层数不断增加，性能就会下降。这是因为过于复杂的模型很容易过拟合。对于Avazu 数据集和Criteo数据集，将隐藏层的数量设置为 3 是一个不错的选择。
  - 隐层神经元数量：同样，增加每层的神经元数量也会引入复杂性。在下图中，我们发现对于 Criteo 数据集，每层设置 400个神经元比较好；对于 Avazu 数据集，每层设置 2000 个神经元比较好。
消融研究：目前为止，我们还没有分离出 FiBiNET 的每个组件的具体贡献。在本节中，我们对 FiBiNET 进行了消融实验，以便更好地了解它们的相对重要性。我们将 DeepSE-FM-Interaction 设定为基础模型，并以下列方式进行：
- No BI ：从 FiBiNET 中删除 Bilinear-Interaction layer。
- No SE ：从 FiBiNET 中删除 SENET layer。
如果同时我们删除 SENET layer 和 Bilinear-Interaction layer，我们的浅层 FiBiNET 和深层 FiBiNET 将降级为 FM 和 FNN 。实验结果如下表所示。
- Bilinear-Interaction layer 和 SENET layer 对于 FiBiNET 的性能都是必要的。我们可以看到，当我们删除任何组件时，性能将明显下降。
- 在 FiBiNET 中，Bilinear-Interaction layer 与 SENET layer 一样重要。

三十一、AutoFIS[2020]

显式的特征交互可以显著提高 CTR 模型的性能。早期的协同过滤推荐算法，如矩阵分解matrix factorization: MF 和分解机factorization machine: FM ，用一个 bi-linear learning model 抽取二阶信息。
然而，并非所有的交互都有利于性能。一些基于树的方法已经被提出来，以自动找到有用的特征交叉。gradient boosting decision tree: GBDT 试图找到损失函数梯度较高的交互。AutoCross 在一个树状结构的空间中搜索有效的交互。但是树型模型在 multi-field categorical data 的推荐系统中只能探索所有可能的特征交互中的一小部分，所以它们的探索 exploration 能力受到限制。
同时，深度神经网络 DNN 模型被提出。它们的表达能力更强，而且根据通用近似特性universal approximation property ，它们可以探索大多数的特征交互。然而，使用基于梯度的优化，并不能保证 DNN 自然地收敛到任何预期的函数。简单的 DNN 模型可能无法找到合适的特征交互。因此，人们提出了各种复杂的架构，如深度兴趣网络 Deep Interest Network: DIN、深度分解机Deep Factorization Machine: DeepFM 、Product-based Neural Network: PNN、以及 Wide & Deep 。因子分解模型 Factorization Model （如 FM, DeepFM, PNN, Attention Factorization Machine: AFM, Neural Factorization Machine: NFM ），已被提出采用 feature extractor 来探索显式的特征交互。
然而，所有这些模型要么是简单地枚举所有的特征交互，要么是需要人为的努力来识别重要的特征交互。前者总是给模型带来巨大的内存和计算成本，并且难以扩展到高阶交互。此外，无用的特征交互可能带来不必要的噪音，使训练过程复杂化。后者，如在 Wide & Deep 中手动识别重要的特征交互，具有很高的人力成本，并有可能错过一些反直觉的（但重要的）特征交互。
如果在这些因子分解模型中可以事先识别出有用的特征交互，那么模型就可以专注于对它们的学习而不必处理无用的特征交互。通过去除无用甚至有害的特征交互，我们期望模型能在降低计算成本的情况下表现得更好。
为了自动学习哪些特征交互是必要的，我们为每个特征交互引入了一个 gate （处于打开或关闭状态），以控制其输出是否应该被传递到下一层。在以前的工作中， gate 的状态要么是由专家知识事先指定、要么是设置为全部打开。从数据驱动的角度来看，一个 gate 是打开还是关闭，应该取决于每个特征交互对最终预测的贡献。显然，那些贡献小的特征交互应该关闭，从而防止给模型学习引入额外的噪音。然而，要找到模型性能的最佳 open gate 集合是一个 NP-Hard2 $2^{C_m^2}$ $m$ 为 feature field 的数量）来搜索。
受最近用于神经架构搜索的 DARTS 的启发，论文 《AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction》 提出了一个两阶段的方法 AutoFIS ，用于自动选择因子分解模型中的低阶特征交互和高阶特征交互：
- 在搜索阶段，AutoFIS 不是在一组离散的候选特征交互上进行搜索，而是通过引入一组架构参数 architecture parameters （每个特征交互一个）从而将 choice 松弛为连续的，这样就可以通过梯度下降学习每个特征交互的相对重要性。架构参数与神经网络权重由 GRDA 优化器（一种容易产生稀疏解的优化器）联合优化，这样训练过程可以自动丢弃不重要的特征交互（架构参数为零）而保留那些重要的特征交互。
- 之后，在 re-train 阶段，AutoFIS 选择架构参数值非零的特征交互，用选定的特征交互重新训练模型，同时将架构参数作为注意力单元 attention unit ，而不是交互重要性的指标。
论文在三个大规模的数据集上进行了广泛的实验（两个公开的 benchmark、一个是 private 数据集）。实验结果表明：AutoFIS 可以显著提高所有数据集上因子分解模型的 CTR 预估性能。由于 AutoFIS 可以去除大约 50%-80% 的二阶特征交互，原始模型总是可以实现效率的提升。通过学习每个三阶特征交互的重要性，论文还将 AutoFIS 应用于三阶交互的选择。实验结果表明：在选择了大约1%-10% 的三阶交互之后，因子分解模型的 AUC 可以提高 0.1%-0.2% ，而不会引入很多计算成本。
实验结果表明，使用 AutoFIS 进行高阶特征交互的自动选择是一个很有前景的方向。实验还表明，重要的二阶特征交互和三阶特征交互，通过在FM 中由 AutoFIS 所识别，也可以大大提升目前 SOTA 模型的性能，这意味着我们可以使用一个简单的模型进行交互选择 interaction selection ，并将选择结果应用于其他模型。此外，论文在真实数据和人工合成数据上分析了AutoFIS 所选择的特征交互的有效性。此外，在华为应用商店的推荐服务中进行了为期十天的 online A/B test ，其中 AutoFIS 产生的推荐模型比DeepFM 实现了 20.3% 的CTR 改善、以及 20.1% 的 CVR 改善，这为业务收入的增长做出了巨大贡献。
综上所述，本文的主要贡献如下：
- 论文通过经验验证：在训练因子分解模型时，去除冗余的特征交互是有益的。
- 论文提出了一个两阶段的算法 AutoFIS 来自动选择因子分解模型中重要的低阶特征交互和高阶特征交互。
  - 在搜索阶段，AutoFIS 可以在一个完整的训练过程中通过架构参数学习每个特征交互的相对重要性。
  - 在重训练阶段，移除不重要的交互，作者重新训练得到的神经网络，同时保留架构参数作为注意力单元从而帮助模型的学习。
- 在三个大规模数据集上的离线实验证明了 AutoFIS 在因子分解模型中的优越性能。此外，AutoFIS 还可以找到一组重要的高阶特征交互，以提升现有模型的性能，而没有引入太多的计算成本。一个为期十天的 online A/B test 表明，AutoFIS 在 CTR 和 CVR 方面将 DeepFM 模型平均提高了约 20% 。
相关工作：
- factorization machine: FM 将每个特征投影到一个低维向量中，并通过内积来建模特征交互，这对于稀疏的数据来说效果很好。Field-aware factorization machine: FFM 进一步使每个特征有多个 vector representation 从而与其他 field 的特征进行交互。
- 最近，深度学习模型在一些公共 benchmark 上取得了 SOTA 的性能。有几个模型使用 MLP 来改进 FM，如 Attention FM、Neural FM 。
  - Wide & Deep 联合训练了一个 wide 模型（采用人工特征）、和一个 deep 模型（采用原始特征）。
  - DeepFM 使用一个 FM layer 来代替 Wide & Deep 中的 wide 组件。
  - PNN 使用 MLP 来建模 FM layer 和 feature embeddings 的交互，而 PIN 引入了 network-in-network 架构来建模 pairwise 特征交互，而不是 PNN 和 DeepFM 的内积操作。
    PNN 用内积/外积来建模 feature embeddings 的交互。
  需要注意的是：现有的因子分解模型都是简单地枚举所有二阶的特征交互，其中包含了许多无用的和噪音的交互。
- gradient boosting decision tree: GBDT 是一种通过决策树算法进行特征工程和搜索交互的方法。然后，转换后的特征交互可以被送入逻辑回归或 FFM 模型。在实践中，树状模型更适合于连续数据，但不适合推荐系统中的高维 categorical data ，因为 categorical feature 的使用率很低。
- 同时，也有一些工作使用 AutoMLAutoCross $m$ field $2^{C_m^2}$ 个候选集合。因此，AutoCross 通过两个方面的近似来加速：
  - 它通过树状结构中的 beam search 贪心地构建局部最优的特征集合。
  - 它通过 field-aware LR 模型来评估新生成的特征集合。
  由于这两种近似，从 AutoCross 中提取的高阶特征交互可能对深度模型没有用。
  与 AutoCross 相比，我们提出的 AutoFIS 只需要执行一次搜索阶段来评估所有特征交互的重要性，这要高效得多。此外， AutoFIS 学到的有用的交互将改善深度模型，因为这些特征交互是在该深度模型中直接学习和评估的。
- 最近， one-shot 架构搜索方法（如 DARTS）已经成为最流行的神经架构搜索 neural architecture search: NAS 算法，以有效地搜索网络架构。在推荐系统中，这种方法被用来为协同过滤模型搜索适当的交互函数。《Efficient Neural Interaction Function Search for Collaborative Filtering》 中的模型主要是为特征交互识别适当的交互函数，而我们的模型主要是搜索和保留重要的特征交互。
  受最近用于神经架构搜索的 DARTS 工作的启发，我们将搜索有效特征交互的问题表述为一个包含架构参数 architecture parameters 的连续搜索问题。与 DARTS 使用 two-level optimization 来交替优化架构参数和模型权重，并通过训练集和验证集进行迭代不同，我们使用 one-level optimization 来联合训练这两类参数，并以所有数据作为训练集。

31.1 模型

31.1.1 Factorization Model: Base Model

因子分解模型是指：通过内积或神经网络等操作将来自不同特征的几个 embedding 的交互建模为一个实数。我们将 FM 、DeepFM和 IPNN 作为实例来描述我们的算法，并探索在各种数据集上的性能。下图展示了 FM 、DeepFM和 IPNN 模型的结构。
- FM 由一个 feature embedding layer 和一个 feature interaction layer 组成。
- DeepFM 和 IPNN 模型除了 feature embedding layer 、 feature interaction layer 之外，还有一个额外的 MLP layer 。DeepFM 和 IPNN 的区别在于：在 DeepFM 中，feature interaction layer 和 MLP layer 是并行工作的，而在 IPNN 中是堆叠排列的。
Feature Embedding Layer：在大多数 CTR 预测任务中，数据是以 multi-field categorical form 收集的。一个典型的数据预处理是：通过 one-hot encoding 或 multi-hot encoding 将每个数据实例转化为高维稀疏向量。只有当一个 field 是 multivariate 的时候，它才被表示为 multi-hot encoding vector 。一个数据样本可以被表示为：
$\begin{matrix} (65) & \vec{x} = [{\vec{x}}_{1}, {\vec{x}}_{2}, \dots, {\vec{x}}_{m}] \end{matrix}$
$m$ field $\mathbf{\vec x}_i$ $i$ 个 field 的 one-hot/multi-hot encoding vector 。
feature embedding layer 用于将 encoding vector 转化为低维向量，即：
$\begin{matrix} (66) & {\vec{e}}_{i} = V_{i} {\vec{x}}_{i} \in R^{d} \end{matrix}$
$\mathbf V_i\in \mathbb R^{d\times n_i}$ $i$ 个 fieldembedding $n_i$ $i$ 个 fieldfeature value $d$ 为低维向量的维度。
- $\mathbf{\vec x}_i$ one-hot encoding vector $j$ 1 $\mathbf{\vec e}_i = \mathbf{\vec v}_i^{(j)}$ $\mathbf{\vec v}_i^{(j)}\in \mathbb R^d$ $\mathbf V_i$ $j$ 列。
- $\mathbf{\vec x}_i$ multi-hot encoding vector $\{j_1,\cdots,j_{i_k}\}$ 1 $\mathbf{\vec e}_i = \sum_{j\in \{j_1,\cdots,j_{i_k}\}}\mathbf{\vec v}_i^{(j)}$ sum $\mathbf{\vec e}_i =\frac{1}{i_k} \sum_{j\in \{j_1,\cdots,j_{i_k}\}}\mathbf{\vec v}_i^{(j)}$ （均值池化）。
feature embedding layerembedding $\mathbf{\vec e} = \left[\mathbf{\vec e}_1,\mathbf{\vec e}_2,\cdots,\mathbf{\vec e}_m\right]\in \mathbb R^{md}$ 。
Feature Interaction Layer：将特征转换到低维空间后，可以用 feature interaction layer 在这样的空间中建模特征交互。
- 首先，计算pairwise特征交互的内积：
  $\begin{matrix} (67) & [< {\vec{e}}_{1}, {\vec{e}}_{2} >, < {\vec{e}}_{1}, {\vec{e}}_{3} >, \dots, < {\vec{e}}_{m - 1}, {\vec{e}}_{m} >] \end{matrix}$
  $\mathbf{\vec e}_i$ $i$ 个 fieldfeature embedding $<\cdot,\cdot>$ 为两个向量的内积。
  pairwise $C_m^2$ 。
  $\sum x_ix_j=(\sum x_i)^2 - (\sum x_i^2)$ $O(m)$ 。
- 然后，在 FM 和 DeepFM 模型中，feature interaction layer 的输出为：
  $\begin{matrix} (68) & l_{fm} =< \vec{w}, \vec{x} > + \sum_{i = 1}^{m} \sum_{j > i}^{m} < {\vec{e}}_{i}, {\vec{e}}_{j} >\in R \end{matrix}$
  在这里，所有的特征交互以相同的贡献被传递到下一层。正如前面内容所指出的（并将在实验部分得到验证），并非所有的特征交互都具有同等的预测性，无用的特征交互甚至会降低性能。因此，我们提出了 AutoFIS 算法来有效选择重要的特征交互。
- 为了研究我们的方法是否可以用来识别重要的高阶特征交互，我们将具有三阶交互（即三个 field 的组合）的 feature interaction layer 定义为：
  $\begin{matrix} (69) & l_{fm}^{3rd} =< \vec{w}, \vec{x} > + \sum_{i = 1}^{m} \sum_{j > i}^{m} < {\vec{e}}_{i}, {\vec{e}}_{j} > + \sum_{i = 1}^{m} \sum_{j > i}^{m} \sum_{t > j}^{m} < {\vec{e}}_{i}, {\vec{e}}_{j}, {\vec{e}}_{t} >\in R \end{matrix}$
  $<\mathbf{\vec a}, \mathbf{\vec b}, \mathbf{\vec c}> = \sum_{s=1}^d a_i\times b_i\times c_i$ 。
MLP Layer：MLP Layer 由若干个带激活函数的全连接层组成，它学习特征的 relationship 和 combination 。单层 MLP Layer 的输出为：
$\begin{matrix} (70) & {\vec{h}}^{(l + 1)} = relu (W^{(l)} {\vec{h}}^{(l)} + {\vec{b}}^{(l)}) \end{matrix}$
$\mathbf{\vec h}^{(l)}$ $l$ $\mathbf W^{(l)}, \mathbf{\vec b}^{(l)}$ $l$ 层的权重和 bias ；relu 为 relu 激活函数。
Output Layer：
- FM 模型没有 MLP Layer，它直接将 feature interaction layer 和 prediction layer 相连：
  $\begin{matrix} (71) & {\hat{y}}_{FM} = sigmoid (l_{fm}) = \frac{1}{1 + \exp (- l_{fm})} \end{matrix}$
  $\hat y_\text{FM}$ 为 predicted CTR 。
- DeepFM 以并行的方式将 feature interaction layer 和 MLP layer 进行组合：
  $\begin{matrix} (72) & {\hat{y}}_{DeepFM} = sigmoid (l_{fm} + MLP (\vec{e})) \end{matrix}$
- IPNN 以堆叠的方式将 feature interaction layer 和 MLP layer 进行组合：
  $\begin{matrix} (73) & {\hat{y}}_{IPNN} = sigmoid (MLP ([\vec{e}, l_{fm}])) \end{matrix}$
  请注意，IPNN 的 MLP layer 也可以作为不同特征交互的 re-weighting ，从而捕获其相对重要性。这也是 IPNN 比 FM 和DeepFM 有更高容量的原因。然而，在 IPNN 的公式中，人们无法检索到对应于每个特征交互的相对贡献的精确值。因此，IPNN 中无用的特征交互既不能被识别、也不能被丢弃，这给模型带来了额外的噪声和计算成本。
Objective Function：FM、DeepFM 和 IPNN 有着相同的目标函数，即最小化预测值和标签的交叉熵：
$\begin{matrix} (74) & L (y, {\hat{y}}_{M}) = - y \log {\hat{y}}_{M} - (1 - y) \log (1 - {\hat{y}}_{M}) \end{matrix}$
$y\in \{0,1\}$ label $0\le \hat y_M \le 1$ $y=1$ 的概率。

31.1.2 AutoFIS

AutoFIS 自动选择有用的特征交互，可以应用于任何因子分解模型的 feature interaction layer 。AutoFIS 可以分为两个阶段：
- 搜索阶段 search stage ：检测有用的特征交互
- 重训练阶段 re-train stage ：对具有选定特征交互的模型进行重训练。
data-driven $\alpha$ 来学习 field 交互特征的重要性，并裁剪不重要的 field 交互特征。
AutoFIS 和 AFM 很类似，它们都是学习每个交互特征的重要性，然而：
- AutoFIS 通过自由参数来描述交互特征的重要性，可以视为 global-level 的建模。
- AFM 通过 attention 机制来描述交互特征的重要性，可以视为 sample-level 的建模。理论上而言，对于给定的 field-pair，我们可以统计所有样本在它上面的注意力权重，从而得到 global-level 的重要性。
- 此外，AFM 用逐元素乘积来描述交互特征，而 AutoFIS 用内积。

a. 搜索阶段

为了便于介绍算法，我们引入了 gate 操作来控制是否选择一个特征交互：一个打开的 gate 对应于选择一个特征交互，而一个关闭的 gategate $C_m^2$ open gate $O\left(2^{C_m^2}\right)$ 来搜索。
open gate $\vec {\boldsymbol\alpha}$ 将 choice 放宽为连续的，这样就可以通过梯度下降学习每个特征交互的相对重要性。下图显示了所提出的 AutoFIS 的概览。
这种通过梯度学习的架构选择方案受到 DARTS的启发，其中，DARTS 的目标是从卷积神经网络架构的一组候选操作中选择一个操作。具体而言，我们将因子分解模型中的 interaction layer 重新表述为：
$\begin{matrix} (75) & l_{AutoFIS} =< \vec{w}, \vec{x} > + \sum_{i = 1}^{m} \sum_{j > i}^{m} α_{(i, j)} \times < {\vec{e}}_{i}, {\vec{e}}_{j} > \end{matrix}$
$\vec {\boldsymbol\alpha} = \{\alpha_{(1,2)},\cdots,\alpha_{(m-1,m)}\}$ 为架构参数。
AutoFIS $\alpha_{(i,j)}$ $\alpha_{(i,j)} = 0$ ）关闭从而决定每个特征交互的 gate 状态。
$\vec {\boldsymbol\alpha}$ 的稀疏性？论文采用特殊的优化器 GRDA Optimizer 来实现。
此外，是否可以保留最重要的 field ，而不仅仅是最重要的 field pairfield $i$ $w_i = 0$ $\{\alpha_{i,1},\cdots,\alpha_{i,m}\}$ field $i$ 就可以被裁剪掉。
Batch Normalization $\alpha_{(i,j)}\times <\mathbf{\vec e}_i, \mathbf{\vec e}_j>$ $\left(\frac{\alpha_{(i,j)}}{\eta}\right)\times \left(\eta <\mathbf{\vec e}_i, \mathbf{\vec e}_j>\right)$ $\eta$ 为任意非零的实数。
$<\mathbf{\vec e}_i, \mathbf{\vec e}_j>$ $\alpha_{(i,j)}$ scale $\alpha_{(i,j)}$ $\alpha_{(i,j)}$ $<\mathbf{\vec e}_i, \mathbf{\vec e}_j>$ $<\mathbf{\vec e}_i, \mathbf{\vec e}_j>$ 应用 Batch Normalization: BN 来消除其 scale 问题。
原始的 BN 采用 mini-batch 统计量从而对 activated output 进行标准化。具体而言：
$\begin{matrix} (76) & \hat{\vec{z}} = \frac{{\vec{z}}_{in} - {\vec{μ}}_{B}}{\sqrt{{\vec{σ}}_{B}^{2} + ϵ}}, {\vec{z}}_{out} = \vec{θ} ⊙ \hat{\vec{z}} + \vec{β} \end{matrix}$
$\mathbf{\vec z}_\text{in}$ BN $\mathbf{\vec z}_\text{out}$ BN $\vec\mu_\mathcal B$ $\vec \sigma_\mathcal B^2$ $\mathbf{\vec z}_\text{in}$ mini-batch $\mathcal B$ $\vec\theta,\vec\beta$ 为 BNscale/shift parameters $\epsilon$ $\odot$ 以及除法都是逐元素进行的。
$\alpha_{(i,j)}$ 的稳定估计，我们将 scale/shift parameters 分别设为 10 $<\mathbf{\vec e}_i, \mathbf{\vec e}_j>$ 的 BN 操作计算如下：
$\begin{matrix} (77) & < {\vec{e}}_{i}, {\vec{e}}_{j} >_{BN} = \frac{< {\vec{e}}_{i}, {\vec{e}}_{j} > - μ_{B} (< {\vec{e}}_{i}, {\vec{e}}_{j} >)}{\sqrt{σ_{B}^{2} (< {\vec{e}}_{i}, {\vec{e}}_{j} >) + ϵ}} \end{matrix}$
$\mu_\mathcal B, \sigma_\mathcal B^2$ $<\mathbf{\vec e}_i, \mathbf{\vec e}_j>$ mini-batch $\mathcal B$ 上的均值和标准差。
GRDA Optimizer：generalized regularized dual averaging: GRDAstep $t$ $\mathbb Z_t$ $\vec {\boldsymbol\alpha}$ ，我们使用以下公式：
$\begin{matrix} (78) & {\vec{α}}_{t + 1} = \arg min_{\vec{α}} {{\vec{α}}^{⊤} (- {\vec{α}}_{0} + γ \sum_{i = 0}^{t} \nabla L ({\vec{α}}_{t}; Z_{i + 1}) + g (t, γ) {‖ \vec{α} ‖}_{1} + \frac{1}{2} {‖ \vec{α} ‖}_{2}^{2})} \end{matrix}$
$g(t,\gamma) = c\gamma^{1/2}(t\gamma)^u$ $\gamma$ $c$ $u$ 为可调的超参数从而权衡准确性和稀疏度。
GRDA $\vec {\boldsymbol\alpha}$ $\alpha_{(i,j)}$ ）将被自动丢弃。
$\vec {\boldsymbol\alpha}$ 之外的其他参数由 Adam 优化器学习。
One-level OptimizationAutoFIS $\alpha_{(i,j)}$ $\vec {\boldsymbol\alpha}$ 与所有其他网络权重共同优化。这与DARTSDARTS $\vec {\boldsymbol\alpha}$ higher-level $\Theta$ 作为lower-level 变量，然后用 bi-levelDARTS $\vec {\boldsymbol\alpha}$ 能够 "做出正确的决定"。
在 AutoFISgate $2^{C_m^2}$ DARTS $\vec {\boldsymbol\alpha}$ $\Theta$ 。
我们认为，这种近似的不精确性可能会降低性能。因此，我们建议不使用 bi-levelone-level $\vec {\boldsymbol\alpha}$ $\Theta$ $\vec {\boldsymbol\alpha}$ $\Theta$ 使用训练集通过梯度下降一起更新，基于：
$\begin{matrix} (79) & \nabla_{Θ} L_{train} (Θ_{t - 1}, {\vec{α}}_{t - 1}), \nabla_{\vec{α}} L_{train} (Θ_{t - 1}, {\vec{α}}_{t - 1}) \end{matrix}$
$\vec {\boldsymbol\alpha}$ $\Theta$ $\vec {\boldsymbol\alpha}$ 被学习作为单个特征交互的贡献。
在实验部分中，我们将展示 one-level optimization 比 two-level optimization 的优越性。

b. 重训练阶段

$\vec {\boldsymbol\alpha}^*$ $G_{(i,j)}$ $<\mathbf{\vec e}_i, \mathbf{\vec e}_j>$ gate $\alpha^*_{(i,j)}=0$ $G_{(i,j)} = 0$ $G_{(i,j)} = 1$ 。在重训练阶段，这些不重要的特征交互的 gate 状态被固定为永久关闭。
在移除这些不重要的交互后，我们重新训练新的模型。具体来说， feature interaction layer 被替换为：
$\begin{matrix} (80) & l_{fm}^{re} =< \vec{w}, \vec{x} > + \sum_{i = 1}^{m} \sum_{j > i}^{m} α_{(i, j)} \times G_{(i, j)} \times < {\vec{e}}_{i}, {\vec{e}}_{j} > \end{matrix}$
$\alpha(i,j)$ 不再作为决定一个特征交互是否应该包括在模型中的指标（如搜索阶段）。取而代之的是，它作为一个注意力单元，让架构学习被保留下来的特征交互的相对重要性。在这个阶段，我们不需要选择特征交互。因此，所有的参数都由 Adam 优化器学习。
$G_{i,j}$ 被初始化为 0 或 1 （根据特征交互的选择的结果），并且在训练过程中保持不变。
$\vec {\boldsymbol\alpha}$ ）都用 Adam 优化器来优化。

31.2 实验

数据集：两个 public 数据集（Avazu, Criteo ）、一个 private 数据集。
- Avazu：在 Kaggle 的 CTR 预估竞赛中被发布。随机拆分80% 的数据作为训练和验证，剩余 20% 用于测试。出现次数少于 20 次的 categories 将被删除从而进行降维。
- Criteo：包含一个月的点击日志，有数十亿的数据样本。我们选择 "data 6-12" 作为训练集和验证集，同时选择 "day-13" 进行评估。为了应对标签的不平衡，我们采用了负降采样的方法，使正样本比例大致保持在 50% 左右。13 个数值字段通过分桶被转换为 one-hot 特征，其中某个字段中出现少于 20 次的特征被设置为 dummy feature "other" 。
  如何分桶？论文并未说明。
- Private：从华为应用商店的游戏推荐场景中收集的。该数据集包含 app 特征（如 ID, category ），用户特征（如用户的行为历史）和上下文特征。
数据集统计结果如下表所示。
baseline：我们将 AutoFIS 应用于 FM 和 DeepFM 模型以显示其有效性（分别表示为 AutoFM 和 AutoDeepFM ）。
baseline 方法为：GBDT-based 的方法（ GBDT+LR, GBDT+FFM），FM 模型（AFM, FwFM, FFM, IPNN）。
由于其巨大的计算成本和源代码的不可用，我们没有将我们的模型与 AutoCross 进行比较。
评估指标：AUC, Log loss 。
超参数配置：
实现细节：
- 为 AutoFMAutoDeepFM $\vec {\boldsymbol\alpha}$ $\Theta$ 。然后，我们删除无用的交互，重新训练我们的模型。
- 为 AutoFM 和 AutoDeepFM 选择三阶特征交互：我们复用所选中的二阶交互，并在搜索阶段枚举三阶特征交互从而学习其重要性。最后，我们用选中的二阶交互和三阶交互来重新训练我们的模型。
$\vec {\boldsymbol\alpha}$ GRDA $\Theta$ 由 Adam 优化器优化。在重新训练阶段，所有参数都由 Adam 优化器优化。
AutoFIS 选择的特征交互：Table 1 和 Table3 总结了 AutoFM 和 AutoDeepFM 在 Avazu, Criteo, Private 数据集上自动选择二阶重要交互和三阶重要交互的性能。可以看到：
- 对于 Avazu 数据集，FM/DeepFM 分别可以移除 71%/76% 的二阶交互。移除这些无用的交互：
  - 不仅可以使模型在推理时更快：AutoFM(2nd) 和 AutoDeepFM(2nd) 的推理时间明显少于 FM 和 DeepFM 。
  - 而且可以明显提高预测准确性：从 AUC 来看，AutoFM(2nd) 比 FM 的相对性能提高了 0.49% 、AutoDeepFM(2nd) 比 DeepFM 的相对性能提高了 0.20%。
  类似的改进也可以从其他数据集中得出。
- 对于高阶特征交互的选择，只有 2%-10% 的三阶特征交互需要包含在模型中。
  - AutoFM(3rd) 和 AutoDeepFM(3rd) 的推理时间远远少于 FM(3rd) 和 DeepFM(3rd) （与 FM 和 DeepFM 相当）。
  - 同时，通过移除不重要的三阶特征交互，准确率得到了显著的提高。即在 Avazu 上的 AUC 指标上，AutoFM(3rd) 比 FM(3rd) 的相对性能提高了 0.22% 、AutoDeepFM(3rd) 比 DeepFM(3rd) 提高了 0.20% 。
    对 Criteo 的观察也是如此。
- 所有这些性能提升都是以边际时间成本 marginal time cost 实现的。例如，AutoDeepFM(3rd) 在 Avazu 和 Criteo 用一块 GPU 卡搜索重要的二阶特征交互和三阶特征交互需要 24 分钟和 128 分钟。同样的结果可能需要人类工程师花很多小时或几天的时间来手动识别这些重要的特征交互。
注意，在 FM 和 DeepFM 中直接枚举三阶特征交互会使推理时间增加 7 到 12 倍，这在工业应用中是不可接受的。
所选特征的可迁移性：我们研究了由 AutoFM （这是一个简单的模型）所学到的特征交互是否可以迁移到 SOTA 的模型（如 IPNN ）从而提高其性能。
如下表所示：
- 使用 AutoFM 选择的二阶特征交互（即 AutoIPNN(2nd) ）实现了与 IPNN 相当的性能，在 Avazu 和 Criteo 的所有交互中约占 30% 和 50% 。
- 使用 AutoFM 选择的二阶特征交互和三阶特征交互（即 AutoIPNN(3rd) ），性能得到明显改善。
这两个证据都验证了 AutoFM 所选择的特征交互的可迁移性。
所选特征的效果：
- 在真实数据上：我们定义 statistics_AUC 来表示一个特征交互对最终预测的重要性。对于一个给定的特征交互。我们构建一个只考虑该交互的 predictor ，其中 prediction 为训练集中特定特征交互的 statistical CTR （#downloads/#impressions ）。然后，这个 predictor 的 AUC 是相对于这个给定的特征交互的 statistics_AUC 。 statistics_AUCstatistics_AUC $\alpha_{(i,j)}$ 值之间的关系可视化。
  即，仅仅以这一对特征作为输入，label 不变。这个 predictor 如何构建？论文并未说明。可以选择 LR 或 FM 模型。
  $\alpha_{(i,j)}$ ）都有较高的 statistics_AUC ，但并非所有具有高 statistics_AUC 的特征交互都被选中。这是因为这些交互中的信息也可能存在于其它交互中，而这些其它交互也被我们模型所选中。
  为了评估我们的模型所选择的特征交互的有效性，我们还根据 statistics_AUCtop-N $𝑁$ 是我们的模型所选择的二阶特征交互的数量），并利用这些特征交互重新训练模型。如下表所示，在计算成本相同的情况下，我们的模型的性能远远好于通过 statistics_AUC 选择的特征交互的模型。
- 在人工合成数据上：合成数据集是由一个不完整的 poly-2 函数产生的，其中的双线性项类似于 categories 之间的交互。基于这个数据集，我们研究了：我们的模型是否能够找到重要的交互、我们的模型与其他FM 模型相比的性能。
  $\mathbf{\vec x}$ $m$ field $N$ $y$ 是 binary 标签：
  $\begin{matrix} (81) & \begin{matrix} y = σ (\sum_{i = 1}^{m} w_{i} x_{i} + \sum_{(i, j) \in C} v_{i, j} x_{i} x_{j} + b + ϵ) \\ σ (z) = {\begin{cases} 1, & if z \geq threshold \\ 0, & otherwise \end{cases} \end{matrix} \end{matrix}$
  $p(\mathbf{\vec x})$ $\mathcal C$ $\mathbf{\vec w}, \mathbf{\vec v}, b$ data pair $\epsilon$ 。
  我们使用 FM 和我们的模型来拟合人工合成数据。我们在测试数据集上使用 AUC 来评估这些模型。
  $m=6, N=60$ $\mathcal C$ $\mathcal C = \{(x_0, x_1), (x_2, x_5), (x_3, x_4)\}$ 。Figure 4 展示了我们的模型与FM 的性能比较，这表明了我们的模型的优越性。
  Figure 5 $\mathcal C$ $\alpha_{(i,j)}$ 值，一些不重要的特征交互被移除。
在线实验：我们在华为应用商店的推荐系统中进行了在线实验，以验证 AutoDeepFM 的卓越性能。
具体而言，在 App Store 的游戏推荐场景中进行了为期 10 天的 A/B test 。我们在线实验的 baseline 是 DeepFM ，这是一个强大的baseline ，因为它具有优秀的准确性和高效率，已经在商业系统中部署了很长一段时间。
- 对照组：随机选择 5% 的用户，并向他们展示由 DeepFM 生成的推荐。
- 实验组：随机选择 5% 的用户，并向他们展示由 AutoDeepFM 生成的推荐。
Figure 6 和 Figure 7 显示了实验组比对照组在 CTR （#downloads/#impressions ）和 CVR（#downloads/#user ）上的改进。可以看到：
- 该系统是相当稳定的，在 A/A test 期间，CTR 和 CVR 都在8% 以内波动。
- 我们的 AutoDeepFM 模型在第 8 天被启动到实时系统中。从第 8 天开始，我们观察到在 CTR 和 CVR 方面比 baseline 模型有明显的改善。在 10 天的 A/B test 中，CTR 的平均改进为 20.3% ，CVR 的平均改进为 20.1% 。这些结果证明了我们所提出的模型的巨大有效性。
- 从第 18 天开始，我们再次进行 A/A test，在实验组中用 baseline 模型替换我们的 AutoDeepFM 模型。我们观察到实验组的性能急剧下降，这再次验证了实验组在线性能的改善确实是由我们提出的模型引入的。
消融研究：
- $\vec {\boldsymbol\alpha}$ $\vec {\boldsymbol\alpha}$ 的稳定估计意味着模型的决定（哪种交互是重要）不受随机数种子的影响。我们在Avazu 上用不同的随机数种子运行 AutoFM 的搜索阶段。
  $\vec {\boldsymbol\alpha}$ 的 Pearson0.86 $\vec {\boldsymbol\alpha}$ 的估计是稳定的。如果对特征交互不使用 BN ，这个Pearson 相关性会下降到 0.65 左右。
- AutoFIS 组件的效果：为了验证 AutoFIS 中各个组件的有效性，我们提出了几个变体，如 Table 6 所示。
  - 为了验证AutoFIS搜索阶段的有效性，我们将其与 "Random" 策略（即，随机选择特征交互）进行比较。
  - BN $\vec {\boldsymbol\alpha}$ 的优势。
  注意，对于 AutoFM-BN，仅仅是在重训练阶段没有 BN，而在搜索阶段还是用了 BN 的。
  Table 7 列出了这些变体的性能。对于 "Random" 策略，我们选择与 AutoFM 相同的交互数量，我们尝试了 10 种不同的 "Random" 策略，并对结果进行了平均。
  结论：
  - 比较 AutoFM-BN-𝛼 和 Random+FM ，我们可以看到：在相同数量的交互下，AutoFIS 的选择总是能取得比随机选择更好的性能。这说明在搜索阶段 AutoFIS 就能识别出重要的交互。
  - 在 Criteo 数据集中，Random+FM 和 FM 之间的性能差距表明：在某些情况下，随机选择的特征交互可能优于保留所有特征交互的模型。这支持了我们的说法：移除一些无用的特征交互可以提高性能。
    类似于 xgboost 中的 feature sample 。
    在 Avazu 数据集中， Random+FM 略逊于 FM 。
  - AutoFM 和 AutoFM-BN 之间的比较验证了 BN 在重训练阶段的有效性，其中的原因在 AutoFIS 章节已经说明。
  - AutoFM-BNAutoFM-BN-𝛼 $\vec {\boldsymbol\alpha}$ 提高了性能，因为它区分了不同特征交互在重训练阶段的贡献。
- one-level optimization vs bi-level optimization：结果如 Table 8 所示。可以看到：AutoFM 和 Bi-AutoFM （以及AutoDeepFM 和 Bi-AutoDeepFM ）之间的性能差距表明了 one-level optimization 比 bi-level optimization 的优越性，其原因在 one-level optimization 章节已经说明。

三十二、DCN V2[2020]

有效的特征交叉 feature cross 对于许多 learning to rank: LTR 模型的成功至关重要。特征交叉提供了单个特征之外的额外交互信息。例如，"国家" 和 "语言" 的组合比其中单个特征更有信息量。在线性模型时代，机器学习从业者依靠手动识别这种特征交叉来增加模型的表达能力。不幸的是，这涉及到一个组合搜索空间，在数据大多是 categorical 的 web-scale 的应用中，这个搜索空间很大而且很稀疏。在这种情况下的搜索是耗时耗力的，往往需要领域的专业知识，并使模型更难以泛化。
后来， embedding 技术被广泛采用，将特征从高维稀疏向量投影到更低维的稠密向量。Factorization Machine: FM 利用 embedding 技术，通过两个 latent vector 的内积来建模 pairwise 特征交互。与那些传统的线性模型中的特征交叉相比，FM 带来了更多的泛化能力。
在过去的十年中，随着更大的算力和巨大的数据规模，工业界的 LTR 模型已经逐渐从线性模型和 FM-based 的模型迁移到深度神经网络（DNN ）。这使得搜索和推荐系统的模型性能得到了全面的提升。人们普遍认为 DNN 是通用的函数近似器，可以潜在地学习各种特征交互。然而，最近的研究（《Latent cross: Making use of context in recurrent recommender systems》、《Deep & Cross Network for Ad Click Predictions》）发现：DNN 甚至对二阶特征交叉或三阶特征交叉进行近似建模都是低效的。
为了更准确地捕捉有效的特征交叉，常见的补救措施是通过更宽或更深的网络进一步提高模型容量。这自然是一把双刃剑：
- 我们在提高模型性能的同时也使模型的服务速度大大降低。在许多生产环境中，这些模型正在处理极高的 QPS ，因此对实时推理有非常严格的延迟要求。可能，serving 系统已经被推到了一个极限，无法承受更大的模型。
- 此外，更深的模型往往引入可训练性问题，使模型更难训练。
这已经揭示了设计一个能够有效地学习 predictive 特征交互的模型的关键需求，特别是在一个处理数十亿用户的实时流量的资源限制环境中。最近的许多工作试图解决这一挑战。共同的思想是：利用那些从DNN 学到的隐式高阶交叉、以及显式的和有界的特征交叉（在线性模型中已经发现，显式的和有界的特征交叉是有效的）。隐式交叉是指通过端到端的函数来学习交互，而没有任何明确的公式来建模这种交叉。另一方面，显式交叉是通过一个具有可控交互阶次的显式公式来建模的。
在所有这些方法中，Deep & Cross Network: DCN 是有效和优雅的。然而，在大规模工业系统中部署 DCN 面临许多挑战。DCN 的 cross network 是有局限性的：
- cross network $O(\text{input size})$ 的参数来刻画，这在很大程度上限制了它建模 random cross patterns 的灵活性。
- 此外，cross network 和 DNN 之间的分配容量是不平衡的。当将 DCN 应用于大规模生产数据时，这种差距明显增加。绝大部分的参数将被用于学习 DNN 中的隐式交叉。
在论文 《DCN V2: Improved Deep & Cross Network and Practical Lessons forWeb-scale Learning to Rank Systems》 中，作者提出了一个新的模型 DCN-V2 ，改进了原来的DCN 模型。作者已经在整个谷歌的相当多的 learning to rank system 中成功部署了 DCN-V2 ，在离线模型准确性和在线业务指标方面都有显著的提高。
DCN-V2 首先通过 cross layer 学习输入（通常是 embedding layer ）的显式特征交互，然后与深度网络相结合从而学习互补的隐式交互。DCN-V2 的核心是 cross layer ，它继承了 DCN 中 cross network 的简单结构，然而在学习显式的和有界的交叉特征方面的表达能力显著增强。论文研究了以点击为正标签的数据集，然而 DCN-V2 与标签无关，可以应用于任何 learning to rank system 。
论文贡献：
- 论文提出了一个新的模型 DCN-V2 来学习有效的显式特征交叉和隐式特征交叉。与现有的方法相比， DCN-V2 更具有表达能力，但仍然是高效和简单的。
- 观察到 DCN-V2 中所学到的矩阵的低秩性质，论文提出利用低秩技术从而在子空间中近似feature cross ，以获得更好的性能和延迟的 trade-off 。
  此外，论文提出了一种基于 Mixture-of-Expert 架构的技术，以进一步将矩阵分解为多个较小的子空间。然后，这些子空间通过一个门控机制被聚合起来。
- 论文利用人工合成数据集进行并提供了广泛的研究，证明了传统的基于 ReLU 的神经网络学习高阶特征交叉的低效率。
- 通过全面的实验分析，论文证明了的 DCN-V2 模型在 Criteo 和 MovieLen-1M 基准数据集上的表现明显优于 SOTA 算法。
- 论文提供了一个案例研究，并分享了在一个大规模工业 ranking 系统中部署 DCN-V2 的经验，这带来了显著的离线收益和在线收益。
feature interaction learning $x_1\times x_2$ $f(\mathbf{\vec x}_1, \mathbf{\vec x}_2)$ $x_1$ $x_2$ 之间的 pairwise interaction 。我们根据他们如何结合显式部分和隐式部分来组织相关工作。
- 并行结构：一个工作方向是联合训练两个并行网络，其灵感来自于 wide and deep 模型，其中 wide 组件将原始特征的交叉作为输入，而 deep 组件是一个 DNN 模型。然而，为 wide 组件选择交叉特征又回到了线性模型的特征工程问题。尽管如此， wide and deep 模型已经激发了许多工作从而采用这种并行的架构并改进 wide 部分。
  - DeepFM 通过在 wide 组件采用 FM 模型从而自动进行 feature interaction learning 。
  - xDeepFM 通过生成多个 feature map 增加了 DCN 的表达能力，每个 feature map 都编码了当前 level 和输入 level 的特征之间的 pairwisefeature embedding $\mathbf{\vec x}_i$ unit $x_i$ 视为一个unit 。不幸的是，它的计算成本很高（ #params 的 10 倍），使得它在工业规模的应用中不实用。
    此外，DeepFM 和 xDeepFM 都要求所有的 feature embeddingcategorical features $O(10)$ 到数百万不等。
  - AFM 通过一个注意力网络为每个特征交互分配重要性。
  - AutoInt 利用带残差连接的 multi-head self-attention 机制。
  - InterHAt 进一步采用了分层注意力。
- 堆叠结构：另一个工作方向是在 embedding layer 和 DNN 模型之间引入一个 interaction layer ，该 interaction layer 创建了显式的特征交叉。这个 interaction layer 在早期阶段捕捉到了特征交互，并促进了后续隐层的学习。
  - product-based neural network: PNN 引入了 inner product layer （IPNN）和 outer product layer （OPNN）作为 pairwise interaction layer 。OPNN 的一个缺点在于其高计算成本。
  - Neural FM: NFM 通过用 Hadamard 积代替内积来扩展 FM 。
  - DLRM 遵从 FM ，通过内积来计算特征交叉。
  这些模型只能创建到二阶显式交叉。
  - AFN 将特征转化为对数空间，并自适应地学习任意阶的特征交互。
  与 DeepFM 和 xDeepFM 类似，这些方法只接受大小相等的 embedding size 。
尽管这些年经过了许多发展，我们的综合实验表明，DCN 仍然是一个强大的基线。我们将此归因于其简单的结构，它促进了 optimization 。然而，正如所讨论的，其有限的表达能力使其无法在 web-scale 的系统中学习更有效的特征交叉。在下文中，我们提出了一个新的架构，它继承了 DCN 的简单结构，同时提高了它的表达能力。

32.1 模型

这里描述了一个新颖的模型架构 DCN-V2 来学习显式特征交互和隐式特征交互。DCN-V2 从一个 embedding layer 开始，然后是一个包含多个 cross layer 的 cross network （用于建模显式特征交互），然后结合一个深度神经网络（用于建模隐式特征交互）。
DCN-V2 中的改进对于将 DCN 用于高度优化的生产系统至关重要。DCN-V2 极大地提高了 DCN 在 web-scale的生产数据中在建模复杂的显式的交叉项的表达能力，同时保持其优雅的公式，便于部署。DCN-V2 所建模的函数族是 DCN 所建模的函数族的严格超集。
模型整体架构如下图所示，有两种方式将 cross network 与 deep network 结合起来：堆叠式、并行式。此外，考虑到 cross layer 的低秩性质，我们建议利用 low-rank cross layer 的混合来实现模型性能和效率之间更健康的 trade-off 。
Embedding Layer：embedding layer 将 categorical (sparse)dense $\mathbf{\vec x}_0\in \mathbb R^d$ 。它遵循与 DCN 类似的 setting 。与 DeepFM, NFM, xDeepFM, DLRM, IPNN, FM 不同的是，DCN-V2embedding size $O(10)$ $O(10^8)$ 不等的工业级推荐器尤为重要。
Cross Network：DCN-V2cross layer $(l+1)$ 个 cross layer如下所示：
$\begin{matrix} (82) & {\vec{x}}_{l + 1} = {\vec{x}}_{0} ⊙ (W_{l} {\vec{x}}_{l} + {\vec{b}}_{l}) + {\vec{x}}_{l} \end{matrix}$
其中：
- $\mathbf{\vec x}_0\in \mathbb R^d$ 为 base layer ，它包含原始的一阶特征，通常被设置为 embedding layer 。
- $\mathbf{\vec x}_l, \mathbf{\vec x}_{l+1}\in \mathbb R^d$ $(l+1)$ 个交叉层的输入和输出。
- $\mathbf W_l\in \mathbb R^{d\times d}, \mathbf{\vec b}_l\in \mathbb R^d$ 是待学习的权重矩阵和 bias 向量。
- $\odot$ 为逐元素乘法。
下图展示了一个单独的 cross layer 。
$l$ cross network $l+1$ $l+1$ $\mathbf W = \mathbf{\vec 1} \mathbf {\vec w}^\top$ 时，DCN-V2 退化到 DCN 。
cross layer 仅能建模有界的多项式类，而其他任何复杂的函数空间只能被近似。因此，我们接下来引入了一个 deep network 来补充数据中固有分布的建模。
DCN V1 $\mathbf{\vec x}_{l+1} = \left(\mathbf{\vec x}_0 \mathbf{\vec x}_l^\top\right)\mathbf {\vec w}_l + \mathbf{\vec b}_l + \mathbf{\vec x}_l$ DCN V2 $\mathbf{\vec x}_{l+1} = \mathbf{\vec x}_0\odot \left(\mathbf W_l \mathbf{\vec x}_l + \mathbf{\vec b}_l\right) + \mathbf{\vec x}_l$ bias $\mathbf{\vec b}_l$ $\mathbf{\vec x}_l$ ，那么：
$\begin{matrix} (83) & \begin{matrix} DCN V1 : x_{l + 1, i} = x_{0, i} \times \sum_{j = 1}^{d} x_{l, j} \times w_{l, j} \\ DCN V2 : x_{l + 1, i} = x_{0, i} \times \sum_{j = 1}^{d} x_{l, j} \times W_{l, i, j} \end{matrix} \end{matrix}$
DCN V1 $x_{l,j}$ $i$ DCN V2 $x_{l,j}$ $i$ 行独立。因此，DCN V2 的模型容量更高。
DCN V2 $\mathbf W$ $\mathbf{\vec w}$ 。读者感觉没什么创新点。
Deep Network $l$ 层 deep layer 的公式为：
$\begin{matrix} (84) & {\vec{h}}_{l + 1} = f (W_{l} {\vec{h}}_{l} + {\vec{b}}_{l}) \end{matrix}$
其中：
- $\mathbf{\vec h}_l\in \mathbb R^{d_l},\mathbf{\vec h}_{l+1}\in \mathbb R^{d_{l+1}}$ $l$ 层 deep layer 的的输入和输出。
- $\mathbf W_l\in \mathbb R^{d_l\times d_{l+1}} ,\mathbf{\vec b}_l\in \mathbb R^{d_{l+1}}$ 为待学习的权重矩阵和 bias 向量。
- $f(\cdot)$ 为逐元素的激活函数，我们将其设置为 ReLU 。
Deep and Cross Combination：我们提出了两种结构：
- Stacked StructureFigure 1a $\mathbf{\vec x}_0$ 被馈入 cross networkdeep network $\mathbf{\vec x}_\text{final}$ $f_\text{deep}\circ f_\text{cross}(\mathbf{\vec x}_0)$ 。
- Parallel StructureFigure 1b $\mathbf{\vec x}_0$ 被并行馈入到 cross networkdeep network $\mathbf{\vec x}_\text{final}$ $f_\text{deep}(\mathbf{\vec x}_0) \text{ concat } f_\text{cross}(\mathbf{\vec x}_0)$ 。
prediction 为：
$\begin{matrix} (85) & {\hat{y}}_{i} = σ ({\vec{w}}_{logit}^{⊤} {\vec{x}}_{final}) \end{matrix}$
$\mathbf{\vec w}_\text{logit}$ $\sigma(x)$ 为 sigmoid 函数。
对于损失函数，我们使用 logloss（带正则化项）。注意，DCN-V2 本身是对 prediction-task 和损失函数无关的。
Cost-Effective Mixture of Low-Rank DCN：对于那些生产模型来说，模型容量往往受到有限的 serving 资源、严格的 latency 要求的限制。因此，我们寻求使 DCN-v2 更具 cost-efficient 的方法。
DCN-V2matrix-vector $\mathbf U, \mathbf V\in \mathbb R^{d\times r}$ $\mathbf W\in \mathbb R^{d\times d}$ $r\le d/2$ $\mathbf M$ gap $\mathbf W$ 在实践中在数值上是低秩的。
下图 (a)DCN-V2 $\mathbf W$ $\sigma_1\ge\sigma_2 \ge\cdots\ge\sigma_n$ $R_T$ 为：
$\begin{matrix} (86) & R_{T} = \arg min_{k} (σ_{k} < T \times σ_{1}) \end{matrix}$
$(l+1)$ 个 cross layer 的低秩版本为：
$\begin{matrix} (87) & {\vec{x}}_{l + 1} = {\vec{x}}_{0} ⊙ (U_{l} (V_{l}^{⊤} {\vec{x}}_{l}) + {\vec{b}}_{l}) + {\vec{x}}_{l} \end{matrix}$
$\mathbf U_l,\mathbf V_l \in \mathbb R^{d\times r}, r\ll d$ 。
这个新的公式有两种解释：
- 我们在一个子空间中学习特征交叉。
  这个解释启发我们采用Mixture-of-Experts: MoE 的思想。MoE-based 模型由两部分组成：expertsgating $\mathbf {\vec x}$ ）自适应地结合学到的交叉。所得到的低秩交叉层的 mixture 的公式如下（如下图 (b) 所示）：
  $\begin{matrix} (88) & \begin{matrix} {\vec{x}}_{l + 1} = \sum_{i = 1}^{K} G_{i} ({\vec{x}}_{l}) E_{i} ({\vec{x}}_{l}) + {\vec{x}}_{l} \\ E_{i} ({\vec{x}}_{l}) = {\vec{x}}_{0} ⊙ (U_{l}^{(i)} ({(V_{l}^{(i)})}^{⊤} {\vec{x}}_{l}) + {\vec{b}}_{l}) \end{matrix} \end{matrix}$
  其中：
  - $K$ 为专家的数量。
  - $G_i(\cdot):\mathbb R^d\rightarrow \mathbb R$ 为门控函数，通常是 sigmoid 或 softmax 函数。
  - $E_i(\cdot):\mathbb R^d\rightarrow \mathbb R^d$ $i$ 个专家。
  $G_i(\cdot)$ $\mathbf{\vec x}$ $G_i(\cdot) = 1$ $\mathbf{\vec x}_{l+1} = \mathbf{\vec x}_0\odot \left(\mathbf U_l\left(\mathbf V_l^\top \mathbf{\vec x}_l\right) + \mathbf{\vec b}_l\right) + \mathbf{\vec x}_l$ 。
- $\mathbf{\vec x}$ $\mathbb R^r$ $\mathbb R^d$ 。
  $\mathbb R^{d^\prime}$ $\mathbb R^d, d^\prime \ll d$ ，而是在投影空间中进一步应用非线性变换来 refine the representation ：
  $\begin{matrix} (89) & E_{i} ({\vec{x}}_{l}) = {\vec{x}}_{0} ⊙ (U_{l}^{(i)} g (C_{i}^{(i)} g ({(V_{l}^{(i)})}^{⊤} {\vec{x}}_{l})) + {\vec{b}}_{l}) \end{matrix}$
  $g(\cdot)$ 为非线性激活函数。
我们旨在有效利用固定的内存/时间预算来学习有意义的特征交叉。以下公式从上到下都代表一个严格意义上的、逐渐增大的函数族：
$\begin{matrix} (90) & \begin{matrix} {\vec{x}}_{l + 1} = {\vec{x}}_{0} ⊙ (W_{l} {\vec{x}}_{l} + {\vec{b}}_{l}) + {\vec{x}}_{l} \\ {\vec{x}}_{l + 1} = {\vec{x}}_{0} ⊙ (U_{l} (V_{l}^{⊤} {\vec{x}}_{l}) + {\vec{b}}_{l}) + {\vec{x}}_{l} \\ {\vec{x}}_{l + 1} = \sum_{i = 1}^{K} G_{i} ({\vec{x}}_{l}) E_{i} ({\vec{x}}_{l}) + {\vec{x}}_{l}, E_{i} ({\vec{x}}_{l}) = {\vec{x}}_{0} ⊙ (U_{l}^{(i)} ({(V_{l}^{(i)})}^{⊤} {\vec{x}}_{l}) + {\vec{b}}_{l}) \\ {\vec{x}}_{l + 1} = \sum_{i = 1}^{K} G_{i} ({\vec{x}}_{l}) E_{i} ({\vec{x}}_{l}) + {\vec{x}}_{l}, E_{i} ({\vec{x}}_{l}) = {\vec{x}}_{0} ⊙ (U_{l}^{(i)} g (C_{i}^{(i)} g ({(V_{l}^{(i)})}^{⊤} {\vec{x}}_{l})) + {\vec{b}}_{l}) \end{matrix} \end{matrix}$
这一组模型有比较大的工程参考意义，它描述了从简单模型到复杂模型的升级路径，同时也具有一定的物理意义。
$d$ embedding size $L_c$ cross layers $K$ DCN $r$ cross network $O(d^2L_c)$ ，对于 mixDCNDCN $O(2drKL_c)$ 。
从 bit-wisefeature-wise $l$ 层的 cross networkcross network $l+1$ 阶的所有的特征交互。
与 DCN 相比，DCN-V2 用更多的参数来刻画相同的多项式类，表达能力更强。此外，DCN-V2 中的特征交互具有更强的表达能力，可以从 bit-wise 和 feature-wise 两方面来看；而在DCN 中，它只是从 bit-wise 的角度来看。

32.2 实验

"CrossNet" 或 "CN" 代表 cross network ，"Mix" 代表低秩混合版本。

32.2.1 人工合成数据集

大多数工作只研究了具有未知交叉模式和噪音的数据的公共数据集。很少有工作在一个干净的环境中用已知的 ground-truth 模型进行研究。因此，重要的是要了解：
- 在哪些情况下，传统的神经网络会变得没有效率。
- 在我们提出的模型 DCN-V2 中每个组件的作用。
我们用 DCN 模型中的 cross networkReLU $x_i\in \mathbb R$ $x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_d^{\alpha_d}$ $\sum \alpha_d = |\vec\alpha|_1$ 阶的特征交叉。
ground-truth model $f\left(\mathbf{\vec x}\right) = \sum_{|\vec\alpha|_1 = 2} w_{\vec\alpha}x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_d^{\alpha_d}$ $f\left(\mathbf{\vec x}\right)$ 的难度取决于：
- $w_{\vec\alpha} = 0$ ）：交叉的数量。
- $\text{Var}( w_{\vec\alpha})$ 来刻画）：意味着一个特征的变化会同时影响大多数特征交叉达到多大程度。
因此，我们创建了难度不断增加的人工合成数据集：
$\begin{matrix} (91) & \begin{matrix} f_{1} (\vec{x}) = x_{1}^{2} + x_{1} x_{2} + x_{3} x_{1} + x_{4} x_{1} \\ f_{2} (\vec{x}) = x_{1}^{2} + 0.1 x_{1} x_{2} + x_{2} x_{3} + 0.1 x_{3}^{2} \\ f_{3} (\vec{x}) = \sum_{(i, j) \in S} w_{i, j} x_{i} x_{j}, \vec{x} \in R^{100}, | S | = 100 \end{matrix} \end{matrix}$
$\mathcal S$ $w_{i,j}$ $x_i$ 为区间 [-1, 1] 之间均匀采样的。
下表报告了 5 次运行和 model size 的平均 RMSE 。可以看到：
- $f_1$ ），DCN-V2 和 DCN 都很有效。
- $f_3$ ），DCN-V2 仍然准确，而 DCN 则准确性下降了。
- 即使采用更宽更深的结构，DNN 的性能仍然很差。这表明 DNN 在建模单项式模式时效率不高。
每个组件的作用：我们还分别对 3 阶和 4 阶的同质多项式进行了消融研究。对于34 $\mathbf{\vec x}\in \mathbb R^{50}$ 中随机选择 20 个交叉项。下图展示了层深度对于平均 RMSE 的影响。
- $\mathbf{\vec x}_0\odot \left(\mathbf W_l \mathbf{\vec x}_l + \mathbf{\vec b}_l\right)$ $l-1$ $l$ 阶交叉，这在第 2 层对 3 阶多项式取得的最佳性能得到验证（4 阶多项式也是类似的）。在其他层，性能明显下降。
- DCN （红色虚线）在复杂的交叉模式建模方面的有限表达能力。
总而言之，ReLU （即，ReLU 激活函数的 DNN）在捕获显式的特征交叉（乘法关系）方面效率不高，即使有更深更大的网络。DCN 准确地捕捉到了简单的交叉模式，但在更复杂的模式中却失败了。DCN-V2 对于复杂的交叉模式仍然是准确和有效的。

32.2.2 真实数据集

数据集：
- Criteo：包含 7 天内的用户日志，包含 45M 个样本和 39 个特征。我们使用前6 天的数据进行训练，并将最后一天的数据随机平均分成验证集和测试集。我们对 13 个 dense 特征执行 logfeature-2 $\log(x+4)$ $\log(x+1)$ ），并且嵌入剩下的 26 个 categorical feature 。
- MovieLen-1M：包含 740k 个样本和 7 个特征。每个训练样本包括一个 <user-features, movie-features, rating> 三元组。我们将任务形式化为一个回归问题：所有一分和两分的评分都被归一化为 0 、四分和五分被归一化为 1、三分被删除。使用和嵌入 6 个 non-multivalent categorical feature 。数据被随机分成 80% 用于训练、10% 用于验证、10% 用于测试。
baseline 方法：SOTA 的 feature interaction learning 算法，如下表所示。
实现细节：所有 baseline 和我们的方法都在 TensorFlow v1 中实现。为了公平比较，除了特征交互组件，所有模型的实现都是相同的。
- embedding：除了 DNN 和 DCN 模型，所有的 baselineembedding size $\text{Avg}_\text{vocab}\left(6\times (\text{vocab cardinality})^{1/4}\right)$ （Criteo 为 39 、Movielen-1M 为 30 ）。
- optimization：Adam 优化器，batch size = 512 （MovieLen batch size = 128）。权重以 He Normal 来初始化，bias 被初始化为零，梯度被截断为范数 10 。对参数采用 decay = 0.9999 的指数移动平均。
- 超参数调优：对于所有的 baseline ，我们对超参数进行了粗粒度（大范围）的网格搜索，然后再进行细粒度（小范围）的搜索。为了确保可重复性和减少模型方差，对于每个方法和数据集，我们报告了最佳配置的 5 次独立运行的均值和标准差。我们在下面描述了 Criteo 的详细设置。对于 MovieLens ，我们也遵循类似的过程。
  对于 Criteo 的所有 baseline ：
  - $10^{-4}$ $10^{-1}$ $10^{-4}$ $5×10^{-4}$ 。
  - 训练步数调优范围：{150k, 160k, 200k, 250k, 300k}
  - 隐层深度调优范围：{1, 2, 3, 4} 。
  - 隐层维度调优范围：{562, 768, 1024} 。
  - $\{0, 3\times 10^{-5}, 10^{-4}\}$ 。
  每个模型自己的超参数：
  - DCN：交叉层的数量调优范围 {1, 2, 3, 4} 。
  - AutoInt：注意力层的数量调优范围 {2, 3, 4} ；attention embedding size 调优范围 {20, 32, 40} ；attention head 数量调优范围 {2, 3} ；残差连接调优范围 {enable, disable} 。
  - xDeepFM：CIN layer size 调优范围 {100, 200} ，CIN layer depth 调优范围 {2, 3, 4} ，激活函数为恒等映射，计算为 direct 或 indirect 。
  - DLRM：bottom MLP layer size 和数量的调优范围 {(512,256,64), (256,64)} 。
  - PNN：我们运行了 IPNN 、OPNN 和 PNN* ，对于后两者，kernel type 调优范围 {full matrix, vector, number} 。
  $1024^2×5$ ，从而限制搜索空间并避免过于昂贵的计算。
DCN-V2 和 baseline 比较结果：每个模型的最佳 setting 是超参数空间中搜索出来的。如果两个 setting 的性能相当，我们就报告成本较低的那个。可以看到：
- 我们看到，DCN-V2 的表现一直优于 baseline （包括 DNN ），并实现了健康的 quality/cost trade-off 。
  注意，在我们为 baseline 模型的最佳 setting 而进行的彻底的超参数搜索中，我们确实探索了更宽、更深的模型。然而，更大的模型也不能产生更多的质量收益，清楚地表明许多 bseline 的瓶颈是质量而不是效率。
- Best Setting：
  - 对于 DCN-V2 模型，"stacked" 和 "parallel" 结构都优于所有 baseline，而"stacked" 在 Criteo 上效果更好、 "parallel" 在Movielen-1M 上效果更好。
    在实践中，我们发现："stacked" 结构更能提高质量，而 "parallel" 结构有助于减少模型方差。
- 与 baseline 的比较：
  - 对于二阶方法，DLRM 的表现不如 DeepFM ，尽管它们都来自FM。这可能是由于 DLRM 在点积层之后省略了一阶稀疏特征。
  - 对于高阶方法，xDeepFM、AutoInt 和 DCN 在 Criteo 上的表现相似；而在 MovieLens 上，xDeepFM 在 Logloss 上表现出很高的方差。
  - DCN-V2 在 Criteo 上取得了最好的性能，它显式地建模三阶特征交互。DCN-Mix 有效地利用了内存，并在保持准确性的同时减少了 30% 的成本。单独的 CrossNet 在两个数据集上的表现都优于 DNN 。
- 与 DNN 的比较：我们调优了 DNN 模型，并使用了更大的 layer size 。令我们惊讶的是，DNN 的表现与大多数 baseline 相差无几，甚至超越了某些模型。
  我们的假设是：那些来自 baseline 的显式特征交叉的模型并不是以一种富有表达能力、以及易于优化的方式建立的。前者使其性能容易被具有大容量的 DNN 所匹配，后者则容易导致可训练性问题从而使模型不稳定。因此，当与 DNN 组合时，整体性能被DNN 组件所支配。
  - 在表达能力方面，考虑二阶方法。PNN 的模型比 DeepFM 和 DLRM 更具有表达能力，这导致它在 MovieLen-1M 上的表现更出色。这也解释了 DCN 与 DCN-V2 相比性能较差的原因。
  - 在可训练性方面，某些模型可能天生就比较难训练，导致性能不尽如人意。
    在 Criteo 上，PNN 的平均性能与 DNN 相当。这是由 PNN 的不稳定性造成的。虽然它的最好成绩比DNN 好，但它在多次试验中的高标准差推高了平均损失。
- 模型效率：
  - 对于大多数模型，FLOPS 大约是参数数量的 2 倍。然而，对于 xDeepFM ，FLOPS 要高出参数数量一个量级，这使得它在工业规模的应用中难以部署。
  - 在所有的方法中，DCN-V2 提供了最好的性能，同时保持了相对的效率。
  - DCN-Mix 进一步降低了成本，在模型效率和质量之间取得了更好的 trade-off 。
超参数研究：
- Depth of Cross Layer：根据设计，cross network 捕获的最高阶特征交叉随着层深的增加而增加。如图 Figure 5 (a) 所示：
  - 随着cross network 的加深，质量有了稳定的提高，表明它能够捕捉到更多有意义的交叉。
  - 然而，当使用更多的层时，改善的速度放缓了。这表明高阶交叉的贡献比低阶交叉的贡献要小。
  我们还用一个同样大小的 DNN 作为参考。当有 ≤2 层时，DNN 的表现优于交叉网络；当有更多层时，cross network 开始缩小性能差距，甚至优于 DNN 的表现。
- 矩阵的秩：模型是 3 个交叉层，然后是 3 个 512-size ReLU 层。如图 Figure 5 (b) 所示：
  - $r$ 小于 4 时，性能与其他 baseline 持平。
  - $r$ 从 4增加到 64LogLoss $r$ 线性下降（即，模型的改进）。
  - $r$ 从 64 进一步增加到满时，LogLoss 的改善速度减慢了。
  我们把 64 称为 rank 阈值。从 64 开始的明显放缓表明：刻画特征交叉的重要信号可以在前 64 个奇异值中捕获。
- 专家数量：我们观察到：
  - 表现最好的setting（专家数量、gate 类型、激活函数类型）受到数据集和模型架构的影响。
  - 每种 setting 的最佳表现模型产生了相似的结果。更多的 lower-rank experts 并没有比单个 higher-rank expert 表现更好，这可能是朴素的 gating 函数、以及采取的 optimizations 所导致。我们相信更复杂的 gating 和 optimization 会在 mixture of experts 架构下产生更好的结果。
DCN-V2 $\mathbf W$ $i$ $\mathbf{\vec x}_i$ block-wise $W_{i,j}$ $\mathbf{\vec x}_i$ $\mathbf{\vec x}_j$ 之间交互的重要性：
$\begin{matrix} (92) & \begin{matrix} \vec{x} ⊙ (W \vec{x}) = [\begin{matrix} {\vec{x}}_{1} \\ {\vec{x}}_{2} \\ ⋮ \\ {\vec{x}}_{k} \end{matrix}] ⊙ [\begin{matrix} W_{1, 1} & W_{1, 2} & \dots & W_{1, k} \\ W_{2, 1} & W_{2, 2} & \dots & W_{2, k} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ W_{k, 1} & W_{k, 2} & \dots & W_{k, k} \end{matrix}] [\begin{matrix} {\vec{x}}_{1} \\ {\vec{x}}_{2} \\ ⋮ \\ {\vec{x}}_{k} \end{matrix}] \end{matrix} \end{matrix}$
$\mathbf W$ 。行/列代表特征。在图 (a) 中，由于版权的原因，特征名称被省略了；深色的像素代表较大的权重。在图 (b) 中，每个 block 代表它的 Frobenius 范数。
- 图 (a) 展示了整个矩阵，橙色方框突出了一些值得注意的特征交叉。非对角线的 block 对应于重要的交叉，这表明 DCN-V2 的有效性。对角线的 blockself-interaction $x^2$ ）。
- 图 (b) 表现学到的一些强交互，如 Gender × UserId 、MovieId × UserId 。
  图 (a) 包含的特征更多，因此方块更小；图 (b) 包含很少的特征，因此方块显得很大。
DCN-V2 在谷歌中的产品化：我们通过 DCN-V2 同时在离线模型的准确性、以及在线关键业务指标方面都取得了显著的收益。与公共数据集相比，收益也更加明显，这可能是由于生产数据集的数据量明显更大，数据分布更复杂。
- 生产数据和模型：生产数据是由数以千亿计的训练样本组成的抽样用户日志。稀疏特征的词表规模从 2 到数百万不等。baseline 模型是一个全连接的多层感知机，采用 ReLU 激活函数。
- 与生产模型的比较：与生产模型相比，DCN-V2 产生了 0.6% 的 AUCLoss （即，1.0 - AUC）改进。我们还观察到显著的在线关键业务指标收益。
  baseline 为多层感知机，所以 DCN-V2 表现好是符合预期的。为什么不和 DeepFM 进行比较？
我们分享一些我们通过产品化 DCN-V2 学到的实际经验：
- 最好在 DNN 的输入层和隐层之间插入交叉层。
- 我们看到，通过堆叠或拼接 1-2 个交叉层，准确性得到了一致的提高。超过 2 个交叉层，收益开始趋于平稳。
- 我们观察到，堆叠交叉层和拼接交叉层的效果都不错。堆叠层 stacking layers 可以学到高阶的特征交互，而拼接层concatenating layers （类似于多头机制）可以捕获到互补的交互。
- 我们观察到，使用 rank = (input size)/4 的 low-rank DCN 始终保持了 full-rank DCN-V2 的准确性。