2020_InterHAt

一、 InterHAt [2020]

《Interpretable Click-Through Rate Prediction through Hierarchical Attention》

点击率（click-through rate: CTR）预测是在线广告和营销领域的关键任务。针对这一问题，现有的浅层或深层架构方法存在三大主要缺陷。
- 首先，这些方法通常缺乏有说服力的理由来解释模型的输出结果。无法解释的预测和推荐可能难以验证，因此不可靠且不值得信任。在许多应用场景中，不恰当的建议甚至可能带来严重后果。
- 其次，现有方法在分析高阶特征交互（high-order feature interactions）方面效率低下。
- 第三，不同语义子空间（semantic subspaces）中 feature interactions 的多义性（polysemy）在很大程度上被忽视。
在本文中，我们提出了 InterHAt 模型，该模型采用 a Transformer with multi-head self-attention 进行 feature learning。在此基础上，利用 hierarchical attention layers 进行点击率预测，同时为预测结果提供可解释性的洞察。InterHAt 通过一种计算复杂度低的且高效的 attentional aggregation 策略来捕获 high-order feature interactions。在四个公开的真实数据集和一个合成数据集上进行的大量实验证明了 InterHAt 的有效性和效率。
点击率（click-through rate: CTR）定义为用户点击网页上特定 recommended item 或广告的概率。它在推荐系统（如在线广告）中起着重要作用，因为它直接影响广告代理商的收入。因此，CTR prediction 旨在根据描述 user-item 场景的信息准确估计点击率，对于实现精准推荐和增加企业良好收入至关重要。
深度学习的发展提供了一种新的机器学习范式，它利用更深的神经网络结构从 training data 中捕获更复杂的信息。因此，现有的 CTR prediction modelsprediction accuracy $k$ $k\in \mathbb N$ $k$ 次多项式所对应的一个 latent variable 。由于神经网络具有大量的层和单元，深度神经网络具备捕获丰富的高阶信息的强大能力。例如，DeepFM 和 xDeepFM 分别通过多层前馈神经网络（feed-forward neural networks: FNN）和多块（multi-block）压缩交互网络（compressed interaction networks: CIN）来学习高阶特征。
然而，不断增长的模型复杂度存在两个缺点：可解释性受损和效率低下。
- 在可解释性方面，由于神经网络层的 weights 和 activations 通常被认为是无法解释的，因此 prediction-making 过程难以得到合理说明。例如，Wide & Deep 的 wide 组件对 feature embeddings 应用叉积变换（cross-product transformations ），但无法量化和证明其对 CTR 的预测性能的有效性。
  模型预测缺乏有说服力的理由，使其可靠性和安全性受到质疑。在许多 applications 中，例如药物推荐和金融服务，不可信和不可靠的广告可能误导用户点击那些统计上热门但实际上无用的甚至有害的链接，从而导致经济损失或健康损失等严重后果。
- 现有方法的第二个缺陷是效率低下，因为深度神经网络生成高阶 interaction feature 涉及极其繁重的矩阵计算。例如：
  - xDeepFM 中的 compressed interaction network: CINouter product layer $(k+1)$ 阶的 feature matrix ，这导致其计算复杂度与 embedding size 呈三次方关系。
  - Wide & Deep 中的 deep 组件包含多个全连接层，每个全连接层都涉及平方数量级的乘法运算。
  在实际应用中，效率问题普遍存在且至关重要。广告代理商更倾向于快速提供 click recommendation，而不是缓慢或成本高昂的 click recommendation ，尤其是在面临大量 real-time recommendation queries 的压力下。例如，互联网广告公司Criteo 在 24 天内处理超过 4 billion 次点击。尽管数据量庞大，但新的特征（如新的 users 和新的 items）迅速涌现，推荐系统必须快速适应这些新特征以提供更好的用户体验。因此，使用现有方法学习大量现有特征或新兴特征的 representations ，这在计算上可能难以实现。
除了可解释性和效率问题外，我们还指出了另一个障碍，这个障碍可能降低 detecting important cross-feature interactions 的性能：不同的 cross-features 可能对 CTR 产生相互冲突的影响，必须对其进行综合分析。例如，一条电影推荐记录 "movie.genre = horror, user.age = young, time = 8am"存在相互冲突的因素：前两个特征的组合会促进点击，而后两个特征的组合会抑制点击，因为看电影通常发生在晚上。这种冲突问题是由不同语义子空间（semantic subspaces）中 feature interactions 的多义性（polysemy）引起的。在这个例子中，当用 "user.age=young" 时，与 "movie.genre" 和 "time" 这两个不同属性的组合时，"user.age" 的多义性交互（polysemic interactions）对 CTR 产生了相反的影响。然而，现有方法在很大程度上忽视了这个问题。
为了解决上述问题，在本文中，我们提出了一种基于 Hierarchical Attention 的可解释的 CTR 预测模型（Interpretable CTR prediction model with Hierarchical Attention: InterHAt），该模型以端到端的方式高效地学习不同阶次的显著特征（salient features of different orders ）作为解释性的洞察（interpretative insights），同时准确地预测 CTR。具体来说，InterHAt 通过一种新颖的 hierarchical attention 机制显式地量化任意阶次 feature interactions 的影响，为了提高效率而聚合重要的 feature interactions ，并根据学到的特征显著性（feature salience）来解释推荐决策（recommendation decision）。与 《Hierarchical attention networks for document classification》 研究语言层级（词和句子）的 hierarchical attention network 不同，InterHAt 在特征阶次（feature orders）上使用 hierarchical attention ，并且高阶特征基于低阶特征来生成。
为了适应不同语义子空间中 feature interactions 的多义性，InterHAt 利用 a Transformer with multi-head self-attention 来全面研究可能存在的各种 feature-wise interactions。Transformer 已被广泛应用于自然语言处理任务，如情感分析、自然语言推理、和机器翻译。多个 attention heads 能够从不同的潜在子空间（latent subspaces）中捕获词语之间的多种相互作用，而这种相互作用共同构成了文本的语义。我们利用 Transformer 的这一优良特性来检测 feature interactions 的复杂多义性，并学习一个多义性增强的特征列表（polysemy-augmented feature list），将其作为 hierarchical attention layers 的输入。值得注意的是，不但 Transformer 在 feature learning 方面具有强大的能力，根据 《Attention is all you need》 的研究，该模型也保持了较高的效率。
我们将本文的贡献总结如下：
- 我们提出了用于 CTR prediction 的 InterHAt 模型。具体来说，InterHAt 采用 hierarchical attention 来精准识别对 click-through 有重大贡献的 significant single features or different orders of interactive features 。然后，InterHAt 可以基于各种阶次的 feature interactions 为 CTR prediction 来生成相应的 attention-based 的解释。
- InterHAt 利用 a Transformer with multi-head self-attention 来全面分析不同潜在语义子空间中特征之间可能存在的交互关系。据我们所知，InterHAt 是第一个采用 Transformer with multi-head self-attention 来学习潜在特征的多义性（polysemy of latent features ）以进行 CTR prediction 的方法。
- InterHAt 在预测 CTR 时不使用计算成本高昂的深度多层感知器网络（deep multilayer perceptron networks ）。相反，它对特征进行聚合，从而节省了枚举指数级规模 feature interactions 的开销。因此，与现有算法相比，它在处理高阶特征时更高效。
- 我们在三个主要的 CTR benchmark datasets（Criteo, Avazu, and Frappe）、一个流行的推荐系统数据集（MovieLens-1M）和一个合成数据集上进行了大量实验，以评估 InterHAt 的可解释性、效率和有效性。结果表明，InterHAt 能够解释 decision-making 过程，在训练时间上有巨大改进，并且仍然取得了与 SOTA 模型相当的性能。
InterHAt 没有不合理的 deep MLP 模块，仅在 feature levels 上工作，因此它可解释性更好，训练速度和 inference 速度更快。

1.1 相关工作

在本节中，我们讨论现有的 CTR prediction 模型和 attention 机制。

1.1.1 CTR Prediction Models

由于 CTR prediction 对在线广告具有重大影响，它引起了学术界和工业界的广泛关注。CTR prediction 算法的发展本质上呈现出向更深的模型架构（deeper model architectures ）发展的趋势，因为更深的模型在 feature interaction learning 方面更具优势（《AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks》）。
浅层模型：
- 因子分解机（Factorization Machine: FM）（《Factorization machines》distinct feature $d$ 维可训练的连续值表征（continuous-valued representation），学习 representations of distinct features ，并通过 first- and second-order features 的线性聚合进行预测。
- 尽管 FM 可以推广到高阶情况，但它面临指数级复杂度的计算成本（《Higher-order factorization machines》）、以及浅层架构的低模型容量（model capability ）的问题。Field-aware Factorization Machine: FFM （《Field-aware factorization machines for CTR prediction》）假设特征在不同 fields 下可能具有不同的语义，并通过使 feature representation 具有 field-specific 来扩展 FM 的思想。
- 尽管 FFM 比 FM 取得了更好的 CTR prediction 结果，但参数规模和复杂度也有所增加，并且更容易发生过拟合。Attentional Factorization Machine: AFM （《Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks》）通过添加 "attention net 来扩展 FM，不仅提高了性能，还增强了可解释性。作者认为，attention network 所提供的特征显著性（feature salience）极大地提高了 FM 的透明度（transparency）。然而，由于 FM 固有的架构限制，AFM 最多只能学习 second-order attention-based salience 。
深层模型：
- Wide & Deep （《Wide & deep learning for recommender systems》）由一个 wide 组件和一个 deep 组件组成，它们本质上分别是一个广义线性模型和一个多层感知器（MLP）。CTR prediction 通过对两个组件的输出结果进行加权组合来实现。值得注意的是，deep 组件（即 MLP）破坏了对预测进行解释的可能性，因为 layer-wise transformations 是在 unit level 而不是 feature level 进行的，并且单个 unit level 的值无法承载 features 的 concrete and complete semantic information 。
- Deep & Cross Network: DCN （《Deep & Cross Network for Ad Click Predictions》）与 Wide & Deep 略有不同，DCN 用 a cross-product transformation 替代了线性模型，以将高阶信息（来自于 DCN 模块）与非线性 deep features 相结合。
- DeepFM （《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》）通过用 FM 组件替代多项式乘积（polynomial production ）来改进 Wide & Deep 和 DCN。deep MLP 组件捕获高阶 feature interaction ，而 FM 分析二阶 feature interaction 。
- xDeepFM （《xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems》）声称 MLP 参数实际上是在建模 "implicit" feature interactions。因此，作者引入了 compressed interaction network: CIN 来建模 "explicit" feature interactions，从而与隐式 feature interactions （即 MLP 模块）一起工作。
- 来自工业实践的最新工作包括 DIN （《Deep Interest Network for Click-Through Rate Prediction》）和 DIEN （《Deep Interest Evolution Network for Click-Through Rate Prediction》），它们分别对用户的静态和动态购物兴趣进行建模。这两项工作都严重依赖于通常无法解释的 deep feed-forward networks 。
上述所有 CTR prediction 模型都严重依赖深度神经网络，并取得了不断提升的性能。然而，正如一把双刃剑，深度学习算法在可靠性和安全性方面存在潜在风险。hidden layers 的 weights 和 activations 几乎无法解释，inputs and outputs 之间的因果关系（causal relationships）被隐藏且不确定。它们都未能提供任何 feature-level 的线索来解释为什么此类 deep feature learning 策略会提高或降低 CTR performance 。因此，由此产生的缺乏明确解释的预测被认为是不可信的。
相比之下，InterHAt 通过在 feature-level 上使用 attention-based 的解释来解决 CTR prediction 问题。也就是说，InterHAt 没有不合理的 deep MLP 模块，仅在 feature levels 上工作，这也提高了 InterHAt 的效率。

1.1.2 Attention Mechanism

attention 机制学习一个函数，该函数对中间特征（intermediate features）进行加权，并对机器学习算法的其他模块可见的信息进行操作。它最初是为神经机器翻译（neural machine translation: NMT）（《Neural Machine Translation by Jointly Learning to Align and Translate》）提出的。在 NMT 中，它为源语言（source language ）和目标语言（destination language）之间密切相关的单词分配更大的权重，以便在翻译过程中关注重要的单词。
由于attention 机制能够精准识别并放大对 predictions 有重大影响的显著特征（《Explaining explanations: An overview of interpretability of machine learning》），因此它被认为是解释许多任务（如推荐系统、医疗保健系统、计算机视觉、视觉问答等）中决策过程的合理且可靠的方法。例如：
- RETAIN （《Retain: An interpretable predictive model for healthcare using reverse time attention mechanism》）使用 a two-layer attention network 研究患者的电子健康记录（Electric Health Records: EHR），该网络识别并解释与就诊相关的有影响力的就诊记录和重要的临床诊断。
- 视觉问答（visual question answering: VQA ）中的协同注意力机制（《Multimodal explanations: Justifying decisions and pointing to the evidence》）在单词级别、短语级别和问题级别上提出了 question-guided visual attention 和 visual-guided question attention 。结合三个级别的信息来预测答案，在保持结果可解释性的同时提高了性能。
在自然语言领域，基于语言层次结构（linguistic hierarchy）的 language-specific and across-language attention networks 被提出用于文档分类任务。自然语言处理中另一种形式的注意力是 self-attention 。谷歌的研究人员基于 multi-head self-attention 设计了 Transformer （《Attention is all you need》），其中句子中的 tokens 关注同一句子中的其他 tokens ，以学习复合的句子语义（ compound sentence semantics）。利用 Transformer 强大的学习能力，BERT 通过堆叠多个双向 Transformer 层，在 11 个主要的自然语言处理任务上取得了 SOTA 的性能。BERT 的成功展示了 Transformer 出色的 feature interaction 能力。
总之，各种现有工作都证明了利用 attention 机制可以同时提高模型的准确性和透明度（transparency）。尽管 attention 模块并非为生成人类可读的预测理由（prediction rationales ）而训练，但当 feature representations 流经模型架构时，它们仍然可以揭示信息的显著性的分布（salience distribution），这可以作为一种解释形式。因此，我们在 InterHAt 中采用 attention 机制作为解释CTR prediction 的解决方案。

1.2 InterHAt 模型

在本节中，我们详细阐述 Figure 1 所示的 InterHAt 流程、以及根据 attentional weights 进行 CTR prediction interpretation 的方法。

1.2.1 Embedding Layer

embedding layer 是 CTR prediction 的先决条件，因为 click-through records 包含离散的 categorical terms ，这些 categorical terms 不能直接应用于数值计算。
一条 click-through recordfields $\mathcal F$ $y$ （作为 ground truthfield $f\in \mathcal F$ 要么是 categorical 的，要么是 numerical 的。distinct values 被定义为 different features 。
- 对于 categorical fields ，我们将 multi-field one-hot encoding 应用于 field-aware embedding layers ，以获得 low-dimensional real-valued feature representationsdistinct feature value $v$ $d$ 维连续向量作为其 representation 。如果某个特定 feature 出现在 click-through record 中，则该 feature 对应的 embedding 被视为 field representation。
- 对于 numerical fields，我们为每个 fieldembedding $v_f$ numerical field $f$ normalized value $\mathbf{\vec x}_{\text{num,0}}^{(f)}\in \mathbb R^d$ 作为与该 field 相关联的 trainable representationrepresentation $\mathbf{\vec x}_{\text{num}}^{(f)}\in \mathbb R^d$ $\mathbf{\vec x}_{\text{num}}^{(f)}= v_f\times \mathbf{\vec x}_{\text{num,0}}^{(f)}$ 推导得出。
  numerical field $f$ 进行离散化，然后通过 embedding layer 从而获取 embedding 。
initial input representation $\mathbf X_0\in \mathbb R^{d\times m}$ 为：
$X_{0} = ({\vec{x}}_{0}^{(1)}, {\vec{x}}_{0}^{(2)}, \dots, {\vec{x}}_{0}^{(m)})$
$m = |\mathcal F|$ 。

1.2.2 Multi-head Transformer

由于 Transformer 具有出色的能力，能够学习句子内或句子间 word pairs 的文本语义（text semantics）的共同影响，而不受单词顺序和距离的限制，因此它在自然语言处理中得到了广泛应用。在 CTR prediction 的背景下，我们将特征的 co-effects（即， feature interactions）对不同极性（polarity）的影响定义为“多义性”（"polysemy"）。因此，我们为 InterHAt 配备了 multi-head self-attention based Transformer ，以捕获丰富的 pair-wise feature interactions ，并学习不同语义子空间中 feature interactions 的多样化多义性（即在不同 click-through contexts 下对 CTR 的多样化影响）。
每个 head 代表一个语义子空间。
input matrix $\mathbf X_0$ ，它包含 a training CTR record 的特征的 learnable embeddingsTransformer head $i$ latent representation $\mathbf H_i$ 通过 scaled dot-product attention 来获得：
$\begin{matrix} H_{i} = {softmax}_{i} (\frac{Q K^{⊤}}{\sqrt{d_{K}}}) V \\ Q = W_{i}^{(Q)} X_{0}, K = W_{i}^{(K)} X_{0}, V = W_{i}^{(V)} X_{0} \end{matrix}$
其中：
- $\mathbf W_i^{(Q)}\in \mathbb R^{d_K\times d},\mathbf W_i^{(K)}\in \mathbb R^{d_K\times d},\mathbf W_i^{(V)}\in \mathbb R^{d_K\times d}$ head $i$ 的可学习 weight parameters 。
- $d_K$ $\mathbf K$ $\mathbf H_i\in \mathbb R^{d_K\times m}$ 。
hidden features $\mathbf H_i$ 的 combinationaugmented representation matrix $\mathbf X_1$ ，该矩阵保留了每个特征的固有信息（intrinsic information）和多义性信息（polysemic information）。在计算上，我们使用 concatenation 操作，随后是前馈层（feed-forward layer ）和 ReLU 激活函数来组合这些特征，从而学习 combined information 的非线性：
$X_{1} = ReLU (FeedForward (W_{m} [H_{1}; H_{2}; \dots; H_{h}]))$
$[\cdot;\cdot]$ $h$ attention heads $\mathbf W_m\in \mathbb R^{d\times (hd_k)}$ 为待学习的权重参数。
$\mathbf X_1\in \mathbb R^{d\times m}$ 是具有多义性增强特征（polysemy-augmented features）的矩阵，准备发送到 hierarchical attention layer 进行可解释的 CTR prediction 。
注意：这里没有 position embedding 。因为 input fields 的顺序是给定的，例如第一个位置是 age 、第二个位置是 launguage，...。这种固定的 input fields 在训练和 inference 的时候都是确定的。

1.2.3 Hierarchical Attention

augmented feature matrix $\mathbf X_1$ 作为 hierarchical attention layers 的输入。hierarchical attention layers 同时学习feature interaction 并生成解释。然而，通过枚举所有可能的组合来计算高阶 multi-feature interactions 的成本很高，因为会产生组合爆炸。
$(i+1)$ cross-features $\mathbf X_{i+1}$ $i$ hidden features $\mathbf{\vec u}_i$ $\mathbf X_i$ summarization $\mathbf X_i$ $\mathbf X_1$ interaction $\mathbf X_i$ attentional aggregation $\mathbf{\vec u}_i$ $\mathbf X_1$ $i$ feature matrix $\mathbf X_i = \left(\mathbf{\vec x}_i^{(1)},\cdots,\mathbf{\vec x}_i^{(m)}\right)$ attentional aggregation representation $\mathbf{\vec u}_i$ 为：
${\vec{u}}_{i} = AttentionalAgg (X_{i}) = \sum_{j = 1}^{m} α_{i}^{(j)} {\vec{x}}_{i}^{(j)}$
$\alpha_i^{(j)}\in \mathbb R$ $i$ attentional aggregation layer $j$ field $α_i^\text{(j)}$ 通过以下公式计算：
$α_{i}^{(j)} = \frac{\exp ({\vec{c}}_{i}^{⊤} ReLU (W_{i} {\vec{x}}_{i}^{(j)}))}{\sum_{j^{'} \in F} \exp ({\vec{c}}_{i}^{⊤} ReLU (W_{i} {\vec{x}}_{i}^{(j^{'})}))}$
其中：
- $\mathbf W_i\in \mathbb R^{s\times d}$ layer $i$ $s$ 为 attention space size 。
- $\mathbf{\vec c}_i\in \mathbb R^s$ layer $i$ 的待学习的 context vector 。
$s\gt d$ ，即选择了更大的 attention space size 。
值得注意的是，这里也可以采用其他 attention 机制，例如 gated attention 机制（《Attention-based Deep Multiple Instance Learning》）。
$\alpha_i^{(j)}$ $i$ $j$ 个 field 的重要性。
$\mathbf{\vec u}_i$ $\mathbf X_i$ cross-product $\mathbf X_{i+1}$ $\mathbf{\vec x}_{i+1}^{(j)}$ ：
${\vec{x}}_{i + 1}^{(j)} = {\vec{u}}_{i} ⊙ {\vec{x}}_{1}^{(j)} + {\vec{x}}_{i}^{(j)}, j \in {1, \dots, m}$
$\odot$ 表示两个向量的 Hadamard product （即，逐元素乘积）。
$+ \mathbf{\vec x}_i^{(j)}$ 。
attentional aggregation layer $k$ cross-feature $\mathbf{\vec u}_i$ $\mathbf X_i$ 。这些层构成了一个层次结构（hierarchy ），从低阶到高阶来抽取特征；并且低阶特征通过所提出的 attentional aggregation 和 cross-product 变换从而为构建高一阶的特征做出贡献。
attentional aggregations $\mathbf U=\left(\mathbf{\vec u}_1,\mathbf{\vec u}_2,\cdots,\mathbf{\vec u}_k\right)$ CTR $\mathbf U$ $k$ combinatorial feature semantics $k$ ，InterHAt 能够捕获任意阶次的 feature interactions，同时避免了高阶 feature combinations 的指数级的 cardinality。

1.2.4 Objective Function and Optimization

CTR prediction function $g(\mathbf U) = \hat y\in [0, 1]$ $\mathbf U$ CTR $g(\mathbf U)$ 的实现如下：
- $\mathbf U$ attentional aggregation $\mathbf{\vec u}_f\in \mathbb R^d$ attention $\vec{\pmb{\alpha}}_f\in \mathbb R^k$ ：
  $\begin{matrix} {\vec{u}}_{f} = AttentionalAgg (U) = \sum_{j = 1}^{k} α_{f}^{(j)} {\vec{u}}_{j} \\ α_{f}^{(j)} = \frac{\exp ({\vec{c}}_{f}^{⊤} ReLU (W_{f} {\vec{u}}_{j}))}{\sum_{j^{'} = 1}^{k} \exp ({\vec{c}}_{f}^{⊤} ReLU (W_{f} {\vec{u}}_{j^{'}}))} \end{matrix}$
  其中：
  - $\vec{\pmb{\alpha}}_f = \left(\alpha_f^{(1)},\cdots,\alpha_f^{(k)}\right) \in \mathbb R^k$ $k$ 个特征阶次（feature orders ）的重要性分布。
    即，哪些阶次的 feature interactions 重要、哪些阶次的不重要。
  - $\mathbf{\vec c}_f$ $\mathbf W_f$ 是可学习的参数。
- prediction $\hat y$ 通过以下公式计算：
  $\hat{y} = sigmoid (MLP ({\vec{u}}_{f}))$
  $\text{MLP}(\cdot)$ 表示一个浅层的多层感知器（Multi-layer Perceptron: MLPoutput dimension $d$ $1$ 。
InterHAt 的 objective function 是二分类的交叉熵损失：
$L (Θ) = \sum_{t \in D} [- y_{t} \log {\hat{y}}_{t} - (1 - y_{t}) \log (1 - {\hat{y}}_{t})] + λ ∥ Θ ∥_{2}$
$\mathcal D$ $\mathbf\Theta$ 包含所有可训练的参数，即 feature embedding 、 Transformer layershierarchical layers $\mathbf\Theta$ $\lambda$ $L_2$ 正则化以防止过拟合。
Adam $\mathcal L(\mathbf\Theta)$ 。

1.2.5 Interpretation

本节详细阐述如何将 hierarchy 中的 attentions 理解为触发 prediction of CTR 的重要因素。值得注意的是，attention 机制仅突出特征的显著性（salience），因此不期望生成完全人类可读的解释。这一假设与其他 attention-based interpretable models （《Explaining explanations: An overview of interpretability of machine learning》）一致。
salience distribution $\left\{\vec{\pmb{\alpha}}_1,\vec{\pmb{\alpha}}_2,\cdots,\vec{\pmb{\alpha}}_k,\vec{\pmb{\alpha}}_f\right\}$ 进行解释的步骤。
- $\vec{\pmb{\alpha}}_f$ $k$ 阶特征的重要性，并表明对 ultimate CTR predictionfeature orders $\vec{\pmb{\alpha}}_f\in \mathbb R^k$ dominant weights $i$ $\mathbf X_i$ $\vec{\pmb{\alpha}}_f$ ，我们了解到对鼓励用户点击 recommended ads 影响最大的阶数（即 interacting features 的数量）。
- $\vec{\pmb{\alpha}}_i$ 中的 attention weightscandidate individual features $i$ field $f_1$ $f_2$ attention weights $α_i^{(f_1)}$ $α_i^{(f_2)}$ $\vec{\pmb{\alpha}}_i$ field $f_1$ $f_2$ $i$ $i-1$ 阶 aggregation features 积极地交互。
最后，按照上述步骤，我们可以识别不同阶次的所有特征。然后，通过逐层地、逐阶地识别显著特征（salient features）来解释实际的点击行为。

1.3 实验

在本节中，我们展示 InterHAt 在效率、有效性、以及可解释性方面的实验结果。InterHAt 的原型由 Python 3.7 + TensorFlow 1.12.0 实现，并在 16GB Nvidia Tesla V100 GPU 上运行。

1.3.1 效率和有效性

数据集：我们在三个公开可用的数据集（即 Criteo、Avazu 和 Frappe）上评估 InterHAt 。
- Criteo 和 Avazu 包含来自两家在线广告公司（Criteo 和 Avazu）的按时间顺序排列的 click-through records。我们使用它们的 top 30% records 进行评估。
- Frappe 数据集包含 context-aware app usage log 。
Table 1 显示了数据集的统计信息。训练集、测试集和验证集的大小比例为 8:1:1 。
baseline 方法：将 InterHAt 的性能与以下专门为 CTR 任务设计的 SOTA 方法进行比较：
- FM：因子分解机，使用一阶特征和二阶特征的线性组合（feature vectors 的点积）来计算 CTR。
- Wide&Deep：一种集成方法（ensemble method ），结合了广义线性模型和无法解释的 deep MLP。
- DCN：一种集成方法，结合了用于 cross-product 变换（用于高阶特征）和 deep MLP。
- PNN：一种基于乘积的特征工程算法，使用由简单内积、外积、以及非线性激活函数组成的架构进行 CTR prediction。
- DeepFM：结合了 deep MLP 和 factorization machine: FM 来计算 CTR。
- xDeepFM：结合了 deep MLP 和新颖的 compress information network: CIN 模块以进行 CTR prediction。
我们认为所考虑的 baseline 模型足够强大，可以呈现 CTR prediction 的 SOTA，特别是在 Criteo 和 Avazu 数据集上。
评估指标：Logloss, AUC 。
配置：为了可重复性，Table 2 列出了每个数据集的默认设置。由于数据集大小不同，三个数据集的设置也有所不同。

a. 效率和有效性

我们通过将 InterHAt 与 baseline 模型和变体进行比较，展示其效率和有效性。
效率：Figure 2 展示了 InterHAt 与五个 SOTA 模型在 Criteo 和 Avazu 数据集上的 GPU 实现的运行时间比较。由于Frappe 数据集的规模相对较小，计算开销占运行时间的大部分，因此未将其用于效率测试。FM 也未被使用，因为只有基于CPU 的实现可用。y 轴表示五个 training epochs 后的平均每个 epoch 的运行时间，其中在 5 个 training epochs 之后所有模型开始明显收敛。硬件设置与实验设置部分中提到的相同。
从图中可以看出，InterHAt 表现出卓越的效率，在六个模型中每个 epoch 花费的时间最少。InterHAt 的两个特性实现了巨大加速：
- (1)attentional aggregation $k$ 阶中所有可能的 feature combinations 。
- (2)：与 baseline 模型中使用的 deep MLP 相比，InterHAt 仅涉及浅层 MLP layers 。由于深度神经网络的参数规模庞大，它们会大幅减慢计算速度。
有效性：在 CTR prediction 任务中，AUCLogloss $10^{-3}$ 量级的性能提升被认为是巨大的改进。从 Table 3 中可以看出：
- InterHAt 在 Frappe 和 Avazu 数据集的两个指标上都优于所有模型，并且在 Criteo 数据集上取得了相当的性能。因此，尽管 InterHAt 在结构上比其他模型更简单，但其有效性得到了证实。
- InterHAt-S 是 InterHAt 的变体，作为消融研究，它移除了 multi-head self-attention 模块。InterHAt-S 性能的下降证明了 multi-heads based Transformer 的贡献。
InterHAt 在 Criteo 数据集上与其他模型几乎持平的原因是：与 Avazu 和 Frappe 数据集相比，Criteo 数据集的特征在语义（semantics）上更复杂。baseline 模型使用无法解释的 deep 全连接（fully-connected: FC ）层来捕获复杂的隐式信息并提高性能。然而，InterHAt 没有使用损害模型可解释性的 deep FC layers 。此外，当前的 field-aware embedding 策略（其中 numerical fieldsembedding $\mathbf{\vec x}^{(f)}_\text{num, 0}$ ）削弱了 InterHAt 对 numerical-numerical feature interactions 和 categorical-numerical feature interactions 进行参数化的能力。我们将探索适当的 feature representation 和 parameterization 方案作为未来的工作。
我怎么感觉主要是 multi-head self-attention 模块带来的性能增益呢？如果没有 multi-head self-attention 模块，那么 InterHAt 模型性能感觉会差不少。

b. Transformer heads 的敏感性分析

本节作为消融研究，阐述了 Transformer head numbers 这个超参数的敏感性。Figure 3 给出了不同 heads 数量下 InterHAt 的 Logloss 和 AUC。我们将 heads 数量修改为 1 ~ 12 ，保持其他设置不变，并训练模型直到收敛。
- 对于 Criteo 和 Avazu 数据集， heads 数量的最佳选择分别为 8 和 4 。
- 对于 Frappe 数据集，最佳 heads 数量为 1，这与我们的观察一致：即， Frappe fields 的语义彼此独立，没有任何潜在的交互。
结果证明了复杂数据集的 click-through records 中存在语义的多个方面（即特征多义性 feature polysemy ），并证明了使用 multi-head Transformer 的合理性。随着 heads 数量的增加，由于过参数化（over-parameterization），性能会下降。

c. 最佳 feature order

feature order $k$ InterHAt $k$ 从 14 $k$ 阶的 cross-features。结果如 Figure 4 所示。
- 在大型数据集（ Criteo 和 Avazu ）上，当阶数增加时，AUC 和 Logloss 有微小波动。
- 然而，在 Frappe 数据集上，当阶数大于 3 时会出现过拟合现象。
总体而言，InterHAt 在 high-order learning 方面表现出稳定的性能。

1.3.2 可解释性

解释（Interpretation ）与预测（predictions）同时生成，这是 InterHAt 的主要贡献之一。在本节中，我们通过可视化所学到的显著低阶或高阶特征（salient low- or high-order features ）来展示 interpretations。然而，两个公开的真实世界基准数据集（ Criteo 和 Avazu ）中 click-through records 的实际内容为了隐私保护而被加密，这使得无法验证 InterHAt 构建的 interpretation。因此，为了全面测试 InterHAt 的解释生成能力，我们使用一个真实世界数据集和一个合成数据集来模拟真实的 click-through records 。在以下小节中，我们讨论基于这两个数据集的 data collection 和结果。

a. 在真实数据集上的评估

数据集：Criteo 和 Avazu 数据集中特征的真实语义被加密。其他同样属于推荐系统领域的数据集是合适的替代品。因此，我们选择 MovieLens-1M 数据集用于此任务。MovieLens-1M 具有明文属性，并且也被广泛用于评估推荐系统。它由 6040 名 MovieLens 用户给出的大约 1M 条匿名电影评分组成。每条记录包含 user profile 、电影类型（movie genres ）、以及 1-5 分的评分。
- user profile 包括年龄（Age）、性别（Gender ）和职业（Profession ）。
- 电影属性包括发行年份（Release year）和 18 种类型。
我们将 MovieLens-1M 中的“评分”行为视为 CTR prediction 中的点击，即 label = 1 的正样本。我们通过随机抽样 (user, movie) pair 来创建负样本，并将其标签设为 0 。其中，负样本数量与正样本数量相同。正样本和负样本数据集彼此不相交。
attention weights $\vec{\pmb{\alpha}}_i, i\in\{1,2,3\}$ $k=3$ $\vec{\pmb{\alpha}}_f$ $\vec{\pmb{\alpha}}_f$ $\alpha_f^{(k)}$ $1\le k\le 3$ 。
Figure 5 、Figure 6 和 Figure 7 中颜色越深的单元格表示 InterHAt 从 rating records 中学到的特征重要性越大。图中的电影类型已缩写为三个字母。在原始类型（Raw genre）行中，黑色单元格表示电影在原始数据（即训练数据）中具有相应的类型属性。
- Figure 5 显示了对电影《终结者 The Terminator 》（ 1984 年）的评分，该评分在一阶特征上具有最大的 aggregation attention weight 。在这条记录中，我们观察到电影 ID （M.ID ）和科幻类型（M.Sci. ）在 1st-order row 中明显优于其他单元格，这归因于电影本身的高声誉及其作为科幻电影（Science Fiction: Sci-Fi）的突出特点。InterHAt 还检测到另外两个类型标签（动作 Action 和惊悚 Thriller ）对 prediction 而言不够准确，因此没有被突出显示。没有观察到强烈的更高阶的交互，因为人们可能已经通过《终结者》作为科幻电影的良好声誉做出了观看决定。
- Figure 6 展示了一个以二阶交互为主的案例，即对《这个杀手不太冷 Léon: The Professional 》（1994年）的评分。我们观察到一个一阶特征和两个二阶特征具有更高的“热力”。
  - 对于两个二阶特征，由于电影讲述的感人爱情和犯罪故事，捕获到了犯罪（Crime）和浪漫（Romance ）类型的交互。这两个特征的组合影响增加了这部电影被观看和评分的概率。
  - 一阶特征 user ID（U.ID）被突出显示，因为 InterHAt 从训练数据中发现该特定用户经常对电影进行评分。因此，InterHAt 认为当他或她存在时，很可能会发生评分行为。这与 1.1.2 节中 attention-based model interpretation 的逻辑一致，即：它只能突出模型中信息流动的导向，而无法创建直观的关于 predictions 的人类可读的故事。
- Figure 7 给出了一个以三阶交互为主的示例，其中描绘了对《玩具总动员2 Toy story 2》（ 1999 年）评分的特征重要性。我们观察到一个三特征交互 "Release year, Animation, and Children"。我们好奇 Release year 如何与其他两个密切相关的特征进行交互。事实证明，1999 年对于动画电影来说是重要的一年，根据电影市场调查，这一年在 1995 年至 2000 年间的总票房达到了最大值。

b. 在合成数据集上的评估

数据集：考虑到 MovieLens-1M 实际上是评分数据而非点击数据，我们使用合成数据进行了一系列实验以展示可解释性。合成数据包含 100k 条合成的 click-through records10 fields $\mathcal F=[f_1,\cdots,f_{10}]$ ，模拟真实的 click-through recordsfield $[\beta_1,\cdots,\beta_{10}]$ 。合成实例的标签由 feature groups 决定，使用 Table 4 中的规则：对单独地或联合地影响 CTR prediction 的 feature groupsa feature group $G$ $y=1$ $y=0$ 表示未发生点击。
$\begin{matrix} Pr (y = 1 | F, G) = {\begin{cases} p_{1}, & if \forall f_{i} \in G, and value of f_{i} = β_{i} \\ p_{2}, & otherwise \end{cases} \end{matrix}$
例如，启用 Table 4 中的 Rule 2 意味着：
- $\text{value of } f_3=\beta_3$ $\text{value of } f_4=\beta_4$ $p_1$ 1 $1-p_1$ 的概率为 0。
- $p_2$ 1 $1-p_2$ 的概率设为 0。
$p_1$ 0.9 $p_2$ 设为 0.2 ，以表示高和低的点击概率。为了不失一般性，我们评估从一阶到三阶的特征。
salient features $i$ 阶的每个单元格表示所有满足条件的 recordsaggregation attention $\vec{\pmb{\alpha}}_i$ rule $\text{value of } f_i=\beta_i$ 。
- Figure 8 描绘了通过执行 Rule 1 得到的一阶热力图。
  - $f_1$ 在所有特征中获得了最大的 attention ，这与 Rule 1 一致。
  - 另一个观察结果是 attention 的方差很小，这意味着仅使用一阶进行学习和预测的稳定性较低。
- 我们在 Figure 9 中绘制了二阶热力图，以通过 Rule 2 可视化二阶特征交互。
  - $f_3$ $f_4$ 上学到的 attention 值明显大于其他单元格，因为与黑色单元格相比，它们的颜色更浅。
  - $f_3$ $f_4$ 的单元格颜色不同，但它们在数值上仍然接近。
  因此， Figure 9 中的结果也展示了 InterHAt 提取 salient features 和解释 click-through predictions 的能力。
- Rule 3 展示了高阶场景下的可解释性。我们在 Figure 10 中包含了从一阶到四阶的热力图。从前三行中，我们发现 InterHAt 从数据集中获取 feature interaction 知识的过程。
  - $f_6$ $f_5$ 的信息。
  - $f_6$ $f_5$ $f_7$ 。
  - 然后，三阶完成了所有交互信息的获取。
  - 最后，四阶特征显示出均匀的 attention 值，变化很小，这表明 high-order feature learning 在三阶终止，数据集中不存在更高阶的特征。
总之，我们使用真实世界数据集和合成数据集全面评估了 InterHAt 在预测 CTR 的同时具备生成理由的能力。两个数据集的热力图可视化都可以根据人类感知进行合理解释，这证明了 InterHAt 的可解释性。

1.4 结论

在本文中，我们提出了 InterHAt ，一种可解释、高效且有效的 CTR predictor 。InterHAt 利用 a multi-head Transformer 来学习 feature interactions 的多义性，并利用 hierarchical attention 结构来学习不同 orders of features 的重要性。explanation 是根据学到的 importance distribution 来推断出来的。此外，与其他模型相比，InterHAt 实现了相对较低的计算成本。大量实验表明，InterHAt 可以学习 feature interactions 的 interpretable importance ，运行速度比 SOTA 的模型更快（意味着 CTR prediction 的高效率），并取得了相当甚至更好的性能。
未来的工作方向包括：
- (1)：需要更好的 numerical features 的 embedding learning 范式来提高性能。
- (2)：需要可解释的深度神经网络（如 MLP 和 outer products-based 网络）来实现高准确性和可解释性。