2022_DIF-SR

一、DIF-SR [2022]

《Decoupled Side Information Fusion for Sequential Recommendation》

序列推荐（sequential recommendation: SR ）中的辅助信息（side information ）融合旨在有效利用各类辅助信息，提升 next-item prediction 的性能。大多数 SOTA 方法基于自注意力网络，专注于探索各种解决方案，这些解决方案在 attention layer 之前整合 item embedding 和 side information embeddings 。然而，我们的分析表明：
- 各类 embeddings 的早期整合（early integration ）会因 rank bottleneck 限制注意力矩阵的表达能力，并制约梯度的灵活性。
- 此外，它还涉及不同异构的信息资源之间的 mixed correlations，给 attention calculation 带来额外干扰。
受此启发，我们提出 Decoupled Side Information Fusion for Sequential Recommendation: DIF-SR 方法，将辅助信息从 input layer 转移到 attention layer ，并解耦各类 side information representation 与 item representation 的注意力计算。我们从理论和实证两方面证明，该解决方案能够生成 higher-rank 的注意力矩阵和更灵活的梯度，从而增强 side information fusion 的建模能力。此外，我们还提出了 auxiliary attribute predictors ，以进一步促进 side information 与 item representation learning 之间的有益交互。在四个真实世界数据集上进行的大量实验表明，我们提出的方法始终优于 SOTA 的序列推荐模型。进一步的研究表明，我们的方法可以很容易地融入当前 attention-based 的序列推荐模型中，显著提升其性能。我们的源代码可在 https://github.com/AIM-SE/DIF-SR 获取。
序列推荐（sequential recommendation: SR）旨在从用户的历史行为中建模其动态偏好，并进行 next item 推荐。随着在在线场景中的广泛实际应用，序列推荐已成为一个越来越有吸引力的研究课题。人们提出了多种基于深度学习的解决方案，基于自注意力机制的方法凭借其出色的性能成为主流解决方案。在近期对基于自注意力机制方法的改进中，一个重要的分支与辅助信息融合（side information fusion ）相关。与以往仅将 item IDs 作为 item 属性的方法不同，辅助信息（如其他 item attributes 和评分）也被纳入考虑。直观地说，highly-related information 有助于提升推荐效果。然而，如何有效地将辅助信息融入推荐过程仍是一个具有挑战性的开放问题。
许多研究致力于在推荐的不同阶段融合辅助信息。具体而言：
- 早期的尝试 FDSA 结合了两个独立的 self-attention blocks 分支分别用于 item 和 feature，并在最后阶段进行融合。
- S3-Rec 在预训练阶段使用 self-supervised attribute prediction 任务。
然而，FDSA 中 item representation 和 side information representation 的独立学习，以及 S3-Rec 中的预训练策略，都难以使辅助信息与 item self-attention 直接交互。
最近，一些研究设计了在 attention layer 之前将 side information embedding 整合到 item representation 中的解决方案，从而得到 side information aware attention 。
- ICAI-SR 在 attention layer 之前利用 attribute-to-item aggregation layer ，通过单独的 attribute sequential models 将辅助信息整合到 item representation 中，从而用于训练。
- NOVA 提出将 pure item id representation 和 side information integrated representation 都输入到 attention layer ，其中后者仅用于计算注意力的 key 和 query，而保持 value 不变。
尽管取得了显著进展，但当前基于 early-integration 的解决方案仍存在一些缺点。
- 首先，我们发现在 attention layer 之前整合 embedding 会受到 rank bottleneck of attention matrices 的影响，导致attention score 的表示能力较差。这是因为先前解决方案中注意力矩阵的秩（rankmulti-head query-key down-projection $d_h$ $d_h$ 通常小于矩阵所能达到的 rank 。我们将在本文的理论部分进一步从理论上解释这一现象。
- 其次，在复合嵌入空间（compound embedding space ）上进行的注意力计算可能会导致随机干扰，因为来自各种信息资源（information resources ）的 mixed embeddings 不可避免地会关注到不相关的信息。input layer 中 positional encoding 的类似缺点也有相关讨论（《Lighter and Better: Low-Rank Decomposed Self-Attention Networks for Next-Item Recommendation》、《Rethinking Positional Encoding in Language Pre-training》）。
- 第三，由于在整个 attention block 中，integrated embedding 是不可分割的，early-integrating 迫使模型开发复杂且繁重的 integration solutions 和训练方案，以便为各种辅助信息提供灵活的梯度。使用简单的 fusion solution （如广泛使用的 addition fusion ）时，所有 embeddings 在训练时共享相同的梯度，这限制了模型学习 side-information encodings 相对于 item embeddings 的相对重要性。
为了克服这些限制，我们提出了 Decoupled Side Information Fusion for Sequential Recommendation: DIF-SR 方法。受 decoupled positional embedding 成功的启发，我们深入探索和分析了 decoupled embedding 在序列推荐的 side information fusion 中的效果。具体而言，我们不再进行 early integration ，而是将 fusion 过程从 input layer 转移到 attention layer 。在 attention layer 中，我们通过为每个属性和 item 分别生成 key 和 query ，从而解耦各种 side information embedding 和 item embedding 。然后，我们使用 fusion function 来融合所有注意力矩阵。这种简单而有效的策略直接使我们的解决方案突破了 rank bottleneck，从而增强了注意力机制的建模能力。 Figure 1 展示了当前 early-integration basedembedding size $d$ head projection size $d_h$ 下的 rank 的比较。我们的方法避免了由 heterogeneous embeddings 的 mixed correlation 导致的不必要的 randomness of attention 。此外，它还能实现灵活的梯度，以在不同场景中自适应地学习各种辅助信息。我们进一步提出在多任务训练方案中使用轻量级的 Auxiliary Attribute Predictors: AAP ，以更好地激活辅助信息，使其对学习 final representation 产生有益影响。
实验结果表明：在四个广泛用于序列推荐的数据集（包括 Amazon Beauty, Sports, Toys 和 Yelp 数据集）上，我们提出的方法优于现有的 basic 序列推荐方法、以及具有竞争力的集成了辅助信息的序列推荐方法。此外，我们提出的解决方案可以轻松融入 self-attention based 的 basic 序列推荐模型中。对两个代表性模型的进一步研究表明，当 basic 序列推荐模型集成我们的模块时，性能得到了显著提升。注意力矩阵的可视化也解释了 decoupled attention calculation 和 attention matrices fusion 的合理性。
我们的贡献总结如下：
- 我们提出 DIF-SR 框架，该框架能够有效利用各种辅助信息进行序列推荐任务，具有更高的 attention 表示能力，以及灵活地学习辅助信息的相对重要性。
- 我们提出新颖的 DIF 注意力机制和 AAP-based 的训练方案，该方案可以轻松融入 attention-based 的推荐系统中，提升性能。
- 从理论和实证两方面分析了所提解决方案的有效性。我们在多个真实世界数据集上取得了 SOTA 的性能。全面的消融研究和深入分析证明了我们方法的稳健性和可解释性。

1.1 问题表述

$\mathcal I, \mathcal U$ item $u\in \mathcal U$ $\mathbb S_u=[v_1,v_2,\cdots,v_n]$ $v_i$ $i$ 次交互。辅助信息可以是用户属性、item 属性和 action 属性，为预测提供额外信息。
根据先前工作 《Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation》 中的定义，辅助信息包括 item-related information（如品牌、类别）和 behavior-related informationposition $p$ 种辅助信息。那么，对于集成了辅助信息的序列推荐，每次交互可以表示为：
$v_{i} = (I_{i}, f_{i}^{(1)}, \dots, f_{i}^{(p)})$
$f_i^{(j)}$ $i$ $j$ $I_i$ $i$ item ID $\mathbb S_u$ $u$ item $I_\text{pred}\in \mathcal I$ $I_\text{pred}=I^{(\hat k)}$ ，其中：
$\hat{k} = \arg max_{k} P (v_{n + 1} = (I^{(k)}, \cdot) ∣ S_{u})$
事实上，由于 item 还绑定了 item-level feature，因此 target item 除了 item id 还有 item feature 。

1.2 方法

在本节中，我们介绍 DIF-SR 方法，以有效且灵活地融合辅助信息，从而帮助进行 next-item prediction 。DIF-SR 的整体架构如Figure 2 所示，由三个主要模块组成：Embedding 模块、Decoupled Side Information Fusion模块、和 Prediction Module with AAP。
注意：side information embedding 会馈入每个 decoupled side information fusion module，这意味着 side information representation 跨层共享而不会更新，更新的是 item representation 。

1.2.1 Embedding Module

在 embedding moduleinput sequence $\mathbb S_u=[v_1,v_2,\cdots,v_n]$ 被馈入到 item embedding layer 和各种 attribute embedding layersitem embedding $\mathbf E^\text{ID}$ side information embeddings $\mathbf E^{f_1},\cdots,\mathbf E^{f_p}$ ：
$\begin{matrix} E^{ID} = E_{id} ([I_{1}, I_{2}, \dots, I_{n}]) \\ E^{f_{1}} = E_{f_{1}} ([f_{1}^{(1)}, f_{2}^{(1)}, \dots, f_{n}^{(1)}]) \\ \dots \\ E^{f_{p}} = E_{f_{p}} ([f_{1}^{(p)}, f_{2}^{(p)}, \dots, f_{n}^{(p)}]) \end{matrix}$
$\mathcal E(\cdot)$ 表示相应的 embedding layer，它将将 item 和不同的 item attributes 编码为向量。
look-up embedding matrices 可以表示为：
$M_{id} \in R^{| I | \times d}, M_{f_{1}} \in R^{| f_{1} | \times d_{f_{1}}}, \dots, M_{f_{p}} \in R^{| f_{p} | \times d_{f_{p}}}$
$|\cdot|$ item $d$ 为 itemembedding $d_{f_1},\cdots,d_{f_p}$ 为各种辅助信息的 embedding 维度。值得注意的是，在我们提出的 DIF 模块的操作支持下，不同类型属性的 embedding 维度是灵活的。在实验章节中进一步验证，我们可以为属性应用比 item 小得多的维度，从而在不损害性能的情况下显著提高网络的效率。
然后， embedding 模块得到 output embeddings ：
$E^{ID} \in R^{n \times d}, E^{f_{1}} \in R^{n \times d_{f_{1}}}, \dots, E^{f_{p}} \in R^{n \times d_{f_{p}}}$

1.2.2 Decoupled Side Information Fusion Module

我们首先指定该模块的整体 layer structure 。为了更好地说明我们提出的 DIF attention ，我们讨论先前解决方案的自注意力学习过程。随后，全面介绍我们提出的 DIF attention 。最后，从注意力矩阵的 rank 、以及梯度的灵活性方面，对 DIF 在增强模型表达能力上进行理论分析。
Layer Structure：如 Figure 2 所示，Decoupled Side Information Fusion Module 包含几个堆叠的 blocks，每个 block 由 DIF Attention Layer 和 Feed Forward Layer 串接而组成。该 block 结构与 SASRec 相同，只是我们用 multi-head DIF attention 机制取代了原来的多头自注意力机制。每个 DIF block 有两种输入，即当前的 item representation 和辅助的 side information embeddings，然后输出更新后的 item representation 。注意，辅助的 side information embeddings 每层不进行更新，以节省计算量并避免过拟合。
$\mathbf R_i^\text{(ID)}\in \mathbb R^{n\times d}$ $i$ 个 block 的 input item representation 。该过程可以表示为：
$\begin{matrix} R_{i + 1}^{(ID)} = LN (FFN (DIF (R_{i}^{(ID)}, E^{f_{1}}, \dots, E^{f_{p}}))) \\ R_{1}^{(ID)} = E^{ID} \end{matrix}$
其中：FFN 表示全连接前馈网络，LN 表示 layer normalization 。
先前的注意力解决方案：Figure 3 展示了关于将辅助信息融合到 updating process of item representation 的先前的解决方案的比较。这里我们关注自注意力计算，这是几种解决方案的主要区别。
- SASRec_F：如 Figure 3 (a) 所示，该解决方案直接将 side information embedding 融合到 item representation 中，并对 integrated embedding 执行普通的自注意力操作，这是对原始 SASRec 的扩展。
  $n$ hidden size $d$ multi-head query-key down-projection size $d_h$ $\mathbf R\in \mathbb R^{n\times d}$ integrated embedding $\mathbf W_Q^i, \mathbf W_K^i, \mathbf W_V^i\in \mathbb R^{d\times d_h}, i\in \{1,2,\cdots,h\}$ $h$ 个 headsquery, key, and value $d_h = d/h$ ），那么 attention score 的计算可以形式化为：
  ${SAS-att}^{i} = (R W_{Q}^{i}) {(R W_{K}^{i})}^{⊤}$
  然后每个 head 的输出可以表示为：
  ${SAS-head}^{i} = σ (\frac{{SAS-att}^{i}}{\sqrt{d}}) (R W_{V}^{i})$
  $\sigma(\cdot)$ 表示 Softmax 函数。
  尽管该解决方案允许辅助信息直接影响 item representation 学习过程，但有人观察到这种方法存在 item representation 被入侵的缺点（《Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation》）。
- NOVA ：为了解决上述问题，文献《Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation》 提出利用辅助信息的非入侵式融合。如 Figure 3 (b) 所示，NOVAintegrated embeddings $\mathbf R\in \mathbb R^{n\times d}$ $Q$ $K$ pure item ID embeddings $\mathbf R^\text{(ID)}\in \mathbb R^{n\times d}$ $\mathbf W_Q^i, \mathbf W_K^i, \mathbf W_V^i\in \mathbb R^{d\times d_h}, i\in \{1,2,\cdots,h\}$ $h$ 个 headsquery, key, and value $d_h = d/h$ ），那么 attention score 的计算可以形式化为：
  ${NOVA-att}^{i} = (R W_{Q}^{i}) {(R W_{K}^{i})}^{⊤}$
  然后每个 head 的输出可以表示为：
  ${NOVA-head}^{i} = σ (\frac{{NOVA-att}^{i}}{\sqrt{d}}) (R^{(ID)} W_{V}^{i})$
注意：作者将 position 作为 side information。也就是除了 item id 之外的信息都认为是 side information。
DIF Attention：我们认为，尽管 NOVA 解决了 value 的入侵的问题，但使用 integrated embedding 来计算 key and value 仍然存在复合注意力空间（compound attention space ）的问题，以及在 rank of attention matrix 和 training gradient flexibility 方面的表达能力下降问题。相关理论分析见后续章节。
因此，与先前将 attribute embedding 注入 item representation 以获得 mixed representation 的研究不同，我们提出采用 decoupled side information fusion 解决方案。如 Figure 3 (c) 所示，在我们提出的解决方案中，所有属性都对自身进行注意力计算，以生成 decoupled attention matrices ，然后将这些矩阵融合为 final attention matrices 。decoupled attention calculationhead projection size $d_h$ 限制的注意力矩阵的 rank bottleneck，提高了模型的表达能力。它还避免了不灵活的梯度，以及 different attributes 与 item 之间不确定的 cross relationships ，从而实现合理且稳定的自注意力计算。
$n$ item hidden size $d$ multi-head query-key down-projection size $d_h$ $\mathbf W_Q^i, \mathbf W_K^i, \mathbf W_V^i\in \mathbb R^{d\times d_h}, i\in \{1,2,\cdots,h\}$ $h$ 个 headsquery, key, and value $d_h = d/h$ item representation $\mathbf R^\text{(ID)}\in \mathbb R^{n\times d}$ 。然后，item representation 的 attention score 计算如下：
${att}_{ID}^{i} = (R^{(ID)} W_{Q}^{i}) {(R^{(ID)} W_{K}^{i})}^{⊤}$
attribute embeddings $\mathbf E^{f_1}\in \mathbb R^{n\times d_{f_1}},\cdots,\quad \mathbf E^{f_p}\in \mathbb R^{n\times d_{f_p}}$ multi-head attention matrices $d_{f_j}\le d, j\in \{1,2,\cdots, p\}$ $\mathbf W_Q^{f_j^i}, \mathbf W_K^{f_j^i}, \mathbf W_V^{f_j^i}\in \mathbb R^{d\times d_{h_j}}, i\in \{1,2,\cdots,h\}, j\in \{1,2,\cdots,p\}$ $h$ 个 headsquery, key, and value $d_{h_j} = d_{f_j}/h$ ）：
$\begin{matrix} {att}_{f_{1}}^{i} = (E^{f_{1}} W_{Q}^{f_{1}^{i}}) {(E^{f_{1}} W_{K}^{f_{1}^{i}})}^{⊤} \\ \dots \\ {att}_{f_{p}}^{i} = (E^{f_{p}} W_{Q}^{f_{p}^{i}}) {(E^{f_{p}} W_{K}^{f_{p}^{i}})}^{⊤} \end{matrix}$
然后，我们的 DIF 注意力机制使用先前工作 《Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation》 中探索的融合函数（包括加法融合、拼接融合、以及门控融合）来融合所有的注意力矩阵，并得到每个 head 的输出：
$\begin{matrix} {DIFatt}^{i} = F ({att}_{ID}^{i}, {att}_{f_{1}}^{i}, \dots, {att}_{f_{p}}^{i}) \\ {DIFhead}^{i} = σ (\frac{{DIFatt}^{i}}{\sqrt{d}}) (R^{(ID)} W_{V}^{i}) \end{matrix}$
最后，所有 attention heads 的输出被拼接起来并馈入到 feed-forward layer 。
根据实验结果，加法融合的效果已经相当好，而且容易实现。

1.2.3 理论分析

在本节中，我们扩展了文献 《A Simple and Effective Positional Encoding for Transformers》 中对 positional embedding 的分析，从理论上分析本文提出的 DIF 和先前模型 SASRec, NOVA 中的 early fusion 解决方案。证明过程见原始论文的附录 A 。
我们首先从注意力矩阵的 rank 的角度，讨论 DIF 和先前解决方案在模型表达能力方面的差异。
$\mathbf W_Q,\mathbf W_K\in \mathbb R^{d\times d_h}$ head projection size $d_h$ $\mathbf W_Q^{f_j}, \mathbf W_K^{f_j}$ $j$ head projection size $d_{h_j}$ $d_{h_j}\le d_h$ $n\ge d_h + \sum_{j=1}^p d_{h_j}$ 。
$\text{att} = (\mathbf R\mathbf W_Q)(\mathbf R\mathbf W_K)^\top$ integrated representation $\mathbf R\in \mathbb R^{n\times d}$ 的注意力矩阵。
$\text{DIF-att} = \left(\mathbf R^\text{(ID)}\mathbf W_Q\right)\left(\mathbf R^\text{(ID)}\mathbf W_K\right)^\top +\sum_{j=1}^p \left(\mathbf E^{f_j}\mathbf W_Q^{f_j}\right)\left(\mathbf E^{f_j}\mathbf W_K^{f_j}\right)^\top$ decoupled representation $\mathbf R^\text{(ID)}\in \mathbb R^{n\times d}, \mathbf E^{f_1}\in \mathbb R^{n\times d_{f_1}},\cdots,\quad \mathbf E^{f_p}\in \mathbb R^{n\times d_{f_p}}$ $\mathbf R, \mathbf W_Q,\mathbf W_K$ ，有：
$rank (att) \leq d_{h}$
存在一组参数选择，使得：
$rank (DIF-att) = d_{h} + \sum_{j = 1}^{p} d_{h_{j}} > d_{h}$
备注：该定理表明，辅助信息的 early fusionrank $d_h$ ，这通常小于多头自注意力中注意力矩阵所能达到的值。我们的解决方案通过融合 item 和 attributes 的 decoupled attention score ，打破了这种 rank bottleneck 。Figure 1 也给出了 rank comparison 的实验的结果。更高 rank 的注意力矩阵本质上增强了 DIF-SR 的模型表达能力。
然后，我们讨论基于 integrated embedding 的解决方案的训练灵活性。我们认为，使用简单的加法融合（addition fusion ）解决方案时，SASRec_FNOVA $\mathbf E^\text{ID}, \mathbf E^{f_1},\cdots,\quad \mathbf E^{f_p}\in \mathbb R^{n\times d}$ 表示输入的 item and attribute embeddings 。
- 对于 SASRec_Fembeddings $G$ label $y$ ，损失函数可以表示为：
  $L_{SASRec-F} = L ((E^{ID} + \sum_{i = 1}^{p} E^{f_{i}}), y)$
- 对于 NOVA ，attribute embeddingsitem representation $G$ label $y$ ，损失函数可以表示为：
  $L_{NOVA} = L ((E^{ID}, \sum_{i = 1}^{p} E^{f_{i}}), y)$
$\mathbf E^\text{ID}, \mathbf E^{f_1},\cdots,\quad \mathbf E^{f_p}\in \mathbb R^{n\times d}$ 表示输入的 item and attribute embeddings 。
- $L_\text{SASRec-F}$ $\mathcal L$ $G$ label $y$ $\mathbf E^\text{ID}, \mathbf E^{f_1},\cdots,\quad \mathbf E^{f_p}$ 的梯度都相同。
- $L_\text{NOVA}$ $\mathcal L$ $G$ label $y$ $\mathbf E^{f_1},\cdots,\quad \mathbf E^{f_p}$ 的梯度都相同。
备注：该定理表明，使用简单的加法融合时，SASRec 中输入的 item embeddings 和 attribute embeddings 的梯度相同，而 NOVA 中所有类型的 attribute embeddings 共享相同的梯度。这意味着，与我们的方法相比，基于 early-integration 的方法为了实现灵活的梯度，需要采用更复杂、更繁重的融合方案。

1.2.4 Prediction Module with AAP

final representation $\mathbf R_L^\text{(ID)}$ $\mathbf {\vec r}_L^{(ID)}$ $u$ 与item vocabulary 中每个 item 进行交互的概率。item prediction layer 可以表示为：
$\hat{y} = softmax (M_{id} {({\vec{r}}_{L}^{(I D)})}^{⊤})$
$\hat y$ $|\mathcal I|$ $\mathbf M_\text{id}\in \mathbb R^{|\mathcal I|\times d}$ 是 embedding layer 中的 item embedding table 。
在训练过程中，我们提出使用 Auxiliary Attribute Predictors: AAP 来处理属性（位置信息除外），以进一步激活 auxiliary side information 与 item representation 之间的交互。注意，与先前使用单独的 attribute embedding 进行预测（《ICAI-SR: Item Categorical Attribute Integrated Sequential Recommendation》）或仅将属性用于预训练（《S3-rec: Self-supervised learning for sequential recommendation with mutual information maximization》）的解决方案不同，我们建议直接在 final representation 上应用多个预测器，以迫使 item representation 包含有用的辅助信息。如实验章节所验证的，AAP 可以进一步提高性能，特别是与 DIF 结合使用时。我们将此归因于 AAP 旨在增强属性对 self-attentive item representation learning 的 informative 的影响，而基于 early-integration 的解决方案不支持这种影响。
$j$ 的预测可以表示为：
${\hat{y}}^{(f_{j})} = σ (W_{f_{j}} {({\vec{r}}_{L}^{(ID)})}^{⊤} + {\vec{b}}_{f_{j}})$
其中：
- $\hat y^{(f_j)}$ $|f_j|$ 维的概率。
- $\mathbf W_{f_j}\in \mathbb R^{|f_j|\times d_{f_j}}$ $\mathbf{\vec b}_{f_j}\in \mathbb R^{|f_j|\times 1}$ 为可学习的参数。
- $\sigma(\cdot)$ 为 sigmoid 函数。
注意：这里用 sigmoid 而不是 softmax，这是因为有些属性可以是多标签的（如商品标题）。
item loss $L_\text{id}$ ，以衡量预测值与真实值之间的差异：
$L_{id} = - \sum_{i = 1}^{| I |} y_{i} \log ({\hat{y}}_{i})$
《Attribute-aware Diversification for Sequential Recommendations》 $j$ 种辅助信息的损失，以支持多标签属性：
$L_{f_{j}} = - \sum_{i = 1}^{| f_{j} |} y_{i}^{(f_{j})} \log {\hat{y}}_{i}^{(f_{j})} + (1 - y_{i}^{(f_{j})}) \log (1 - {\hat{y}}_{i}^{(f_{j})})$
$\lambda$ 的组合损失函数可以表示为：
$L = L_{id} + λ \sum_{j = 1}^{p} L_{f_{j}}$

1.3 实验

我们在四个真实世界且广泛使用的数据集上进行了大量实验，以回答以下研究问题：
- RQ1：DIF-SR 是否优于当前 SOTA 的 basic 序列推荐方法、以及 side information integrated 的序列推荐方法？
- RQ2：本文提出的 DIF和 AAP 能否轻松融入 SOTA 的基于自注意力的模型中并提升性能？
- RQ3：DIF-SR 框架中不同组件和超参数的作用是什么？
- RQ4 ：DIF 的 attention matrices fusion 的可视化是否为其优越性能提供了证据？
数据集：实验在四个真实世界且广泛使用的数据集上进行。
- Amazon Beauty, Sports and Toys：这些数据集是从 Amazon 评论数据集构建而来。遵循基线方法 《ICAI-SR: Item Categorical Attribute Integrated Sequential Recommendation》，我们将商品的细粒度类别和位置信息作为所有这三个数据集的属性。
- Yelp：这是一个著名的商业推荐数据集。遵循文献 《S3-rec: Self-supervised learning for sequential recommendation with mutual information maximization》，在我们的实验中，我们仅保留 2019 年 1 月 1 日之后的交易记录，并将商家的类别和位置信息视为属性。
遵循文献 《Self-attentive sequential recommendation》 、《ICAI-SR: Item Categorical Attribute Integrated Sequential Recommendation》、《S3-rec: Self-supervised learning for sequential recommendation with mutual information maximization》 中使用的相同预处理步骤，我们删除了在这些数据集中出现次数少于 5 次的所有 items 和用户。所有交互都被视为隐式反馈。预处理后这四个数据集的统计信息总结在 Table 1 中。
评估指标：在实验中，我们遵循先前的工作，使用留一法（leave-one-out）进行评估。具体来说，对于每个 user-item interaction sequence ，最后两个 items 分别保留作为验证集和测试集数据，其余部分用于训练序列推荐模型。序列推荐模型的性能通过 top-K Recall (Recall@K)top-K Normalized Discounted Cumulative Gain (NDCG@K) $K$ 取值为 {10, 20} ，这是两个常用的指标。
如文献 《A Case Study on Sampling Strategies for Evaluating Neural Sequential Item Recommendation Models》、《On sampled metrics for item recommendation》所建议的，为了进行公平比较，我们以 full ranking 的方式评估模型性能。排序结果是在整个 item set 上获得的，而不是 sampled item set 。
基线模型：我们选择了两类 SOTA 的方法进行比较，包括强大的 basic 序列推荐方法、以及近期具有竞争力的 side information integrated 的序列推荐方法。基线模型介绍如下：
- GRU4Rec ：一种 session-based 的推荐系统，使用 RNN 捕获序列模式。
- GRU4Rec_F ：GRU4Rec 的增强版本，考虑了辅助信息以提高性能。
- Caser ：一种 CNN-based 的模型，使用水平卷积 filters 和垂直卷积 filters 来学习多层次模式和用户偏好。
- BERT4Rec：一种双向自注意力网络，使用完形填空任务对用户行为序列进行建模。
- SASRec：一种基于注意力的模型，使用自注意力网络进行序列推荐。
- SASRec_F ：SASRec 的扩展，首先通过拼接操作来融合 item representation 和 attribute representation ，然后再馈入模型。
  能否考虑 sum 操作而不是拼接操作？可以试试。根据 DIF-SR 的经验，sum 融合、拼接融合，二者的效果相差无几。
- S3-Rec ：一种基于自监督学习的模型，具有四个精心设计的优化目标，用于学习原始数据中的相关性。
- ICAI-SR ：一个通用框架，精心设计了 attention-based 的 Item-Attribute Aggregation model: IAA 、以及 Entity Sequential models: ES ，以利用 items 和属性之间的各种关系。为了进行公平比较，在我们的实验中，我们将 ICAI-SR 实例化为以 SASRec 作为 ES 模型。
- NOVA：一个框架，它采用非入侵式自注意力（non-invasive self-attention: NOVA ）机制以更好地学习注意力分布。与 ICAI-SR 类似，为了公平比较，我们在 SASRec 上实现 NOVA 机制。
实现细节：
- 所有基线模型和我们的模型都基于流行的推荐框架 RecBole 实现，并在相同的设置下进行评估。
- 对于所有基线模型和我们提出的方法，我们使用 Adam 优化器训练 200 epochs ，batch size = 2048 ，学习率为 1e-4 。我们的 DIF-SR 和其他基于注意力的基线模型的 hidden size 均设置为 256 。
  对于其他超参数，我们应用网格搜索为我们的模型和涉及以下超参数的基线模型找到最佳配置。搜索空间为：
  - attribute_embedding_size：{16, 32, 64, 128, 256}；num_heads：{2, 4, 8}；num_layers：{2, 3, 4} 。
  - $\lambda$ ：{5, 10, 15, 20, 25} 。
  - NOVA $\mathcal F$ 从加法融合、拼接融合和门控融合中选择。

1.3.1 整体性能（RQ1）

不同方法在所有数据集上的整体性能总结在 Table 2 中。基于这些结果，我们可以观察到：
- 对于四个 basic 序列推荐基线模型，可以看出 SASRec 在大多数情况下大幅优于其他方法，而 BERT4Rec 在大多数情况下优于或接近 GRU4Rec 和 Caser ，这证明了 attention-based 的方法在序列数据上的优越性。
  值得注意的是，尽管 BERT4Rec 被提出作为 SASRec 的高级版本，但在 full ranking evaluation setting 下，其性能不如 SASRec ，这在先前的工作 《Lightweight Self-Attentive Sequential Recommendation》 、《S3-rec: Self-supervised learning for sequential recommendation with mutual information maximization》中也有发现。我们将这种现象归因于masked item prediction 与序列推荐的固有自回归性质之间的不匹配。BERT4Rec 在原始论文中基于流行度的采样策略下表现更优，可能是因为其使用的带有完形填空任务的双向编码器可以为评估中的 popular items 学习更好的 representations 。
- 基于上述发现，为了在 full ranking setting 下进行公平比较，我们基于 SASRec 的相同注意力结构实现了所有基于注意力的side information aware 基线模型。重新实现的细节在 "实现细节" 中讨论。对于 side information aware 基线模型，可以发现： GRU4Rec_F 和 SASRec_F 的简单 early fusion 解决方案与不使用辅助信息的版本相比，并不总是能提高性能。这与我们的分析一致，即 early-integrated representation 迫使模型设计复杂的 merging 解决方案，否则甚至会损害预测性能
  此外，最近提出的 side information aware 序列推荐模型，即 S3-Rec, NOVA, ICAL，取得了更好且具有可比性的性能，这表明通过精心设计的 fusion 策略，辅助信息可以提高预测性能。
- 最后，可以明显看出，在所有四个数据集上，我们提出的 DIF-SR 在所有评估指标上始终优于 SOTA 的序列推荐模型和 side information integrated 序列推荐模型。与基线模型不同，我们解耦了辅助信息的注意力计算过程，并提出在学到的 item representation 上添加 attribute predictors 。DIF 本质上通过 higher-rank 的注意力矩阵、避免 mixed correlation 、以及灵活的训练梯度，从而增强了自注意力的表达能力；而 AAP 在训练期间进一步加强了辅助信息与 item 信息之间的相互作用。
  这些结果证明了我们提出的解决方案通过利用辅助信息来提高 attention-based 序列推荐性能的有效性。
注意：BERT4Rec 要比 SASRec 更差、SASRec_F 在很多时候也比 SASRec 。详细解释参考论文的上述内容。

1.3.2 Enhancement 的研究（RQ2）

凭借简单有效的设计，我们认为 DIF 和 AAP 可以轻松融入任何 self-attention based 的序列推荐模型中并提升性能。为了验证这一点，我们在两个代表性模型上进行了实验：SASRec 和 BERT4Rec ，它们分别代表单向模型和双向模型。
如 Table 3 所示，通过我们的设计，增强后的模型显著优于原始模型。具体来说，在三个数据集上：
- DIF-BERT4Rec 在 Recall@10 和 NDCG@10 指标上平均相对提升了 18.46% 和 36.16% 。
- DIF-SASRec 在 Recall@10 和 NDCG@10 指标上平均相对提升了 12.42% 和 22.64% 。
这表明所提出的解决方案可以有效地融合辅助信息，帮助各种 attention- based 的序列推荐模型进行 next-item predictions 。这意味着它作为一个插件模块，在 SOTA 的序列推荐模型中具有潜在的更大影响力。

1.3.3 消融实验和超参数研究（RQ3）

不同组件的有效性：为了弄清楚我们提出的 DIF-SR 中不同组件的贡献，我们在 Sports 和 Yelp 数据集上对每个提出的组件进行了消融实验，结果如 Table 4 所示：
- (DIF-SR w/o DIF & AAP): 不带 DIF 和 AAP 的 DIF-SR ，与 SASRec_F 相同。
- (DIF-SR w/o DIF)：不带 DIF 的 DIF-SR ，采用与 SASRec_F 相同的 early fusion ，并保持包括 AAP 在内的其他设置与原始模型相同。
- (DIF-SR w/o AAP)：不带 AAP 的 DIF-SR ，仅使用 item predictor 进行训练。
然后我们得到以下观察结果：
- 首先，DIF 是 DIF-SR 框架中最有效的组件。这可以通过以下事实来证明： DIF-SR w/o AAP 远远优于 DIF-SR w/o DIF & AAP 。这一观察结果验证了 decoupled side information 显著提高了注意力矩阵的表示能力。
- 其次，仅在先前的 integrated embedding based 的方法上使用 AAP 并不能总是提高性能，这与我们的设计一致：AAP 被提出来是为了激活 attributes 对自注意力层中的 item-to-item attention 的影响，而先前的解决方案并没有实现这种影响。
- 第三，AAP-based 的训练范式与 DIF 结合可以进一步提高模型性能，验证了 APP 激活有益的交互、以及提高性能的能力。
为了弄清楚我们提出的 DIF-SR 中不同类型辅助信息的贡献，我们对各种属性进行了研究。position 信息是一种特殊且基本的辅助信息，用于实现 order-aware 的自注意力，Yelp 数据集中与 item 相关的其他辅助信息包括城市和类别。如 Table 5 所示：
- 与 item 相关的属性都能在很大程度上有助于预测，这证明了 side information fusion 的有效性。
- 此外，两种属性的组合可以进一步略微提升性能，这表明我们提出的解决方案可以联合利用来自各种资源的有用信息。

1.3.4 超参数和融合函数的影响

$\lambda$ embedding size $d_f$ $\mathcal F$ 的效果进行了实验。
- Figure 4 $\lambda$ 值下 DIF-SR 的 Recall@20 和 NDCG@20 得分。
  - $\lambda$ 为 5 或 10 时，模型性能最佳。
  - 对于 BeautyYelp $\lambda$ 设置为 10 是更好的选择。
- Figure 5 展示了 attribute embedding size 对 DIF-SRattribute embedding size $d_f$ $d_f$ 设置为较小的值（通常小于 item embedding 的维度），大幅降低 DIF-SR 的模型复杂度。
- Figure 6 表明我们的方法对于不同的融合函数也具有稳健性，这表明简单的融合解决方案（如加法融合）不会损害我们模型的能力。

1.3.5 注意力分布的可视化（RQ4）

为了探讨 DIF-SR 的可解释性，我们对 Yelp 数据集中测试样本的注意力矩阵进行了可视化。由于篇幅限制，我们在 Figure 7 中展示了一个示例。这两行表示一个样本在不同层中同一 head 的注意力矩阵。前三列是 item and the attributes 的解耦的注意力矩阵，最后一列是融合后的注意力矩阵，用于计算每一层的 output item representation 。
从结果中我们得出以下观察结论：
- 1)：不同属性的 coupled attention matrices 在捕获数据模式方面表现出不同的偏好。
- 2)：fused attention matrix 可以通过 decoupled attention matrices 自适应地调整每种辅助信息的贡献，并从中合成关键模式。