2023_MoRec

一、MoRec [2023]

《Where to Go Next for Recommender Systems? ID- vs. Modality-based Recommender Models Revisited》

利用 unique identities（简称 ID）来表示 distinct users and items 的推荐模型，在过去十多年中一直是推荐系统（recommender systems: RS）领域的主流且 SOTA 的技术。与此同时，pre-trained modality encoders（如 BERT 《Bert: Pre-training of deep bidirectional transformers for language understanding》 和 Vision Transformer 《An image is worth 16x16 words: Transformers for image recognition at scale》）在建模 item 的原始模态特征（如文本特征和图像特征）方面变得越来越强大。基于此，一个自然的问题出现了：通过用 SOTA modality encoder 替换 itemID embedding，纯基于模态的推荐模型（MoRec）能否优于或匹敌纯基于ID 的模型（IDRec）？事实上，这个问题在十年前就有答案，当时 IDRec 在推荐准确性和效率两方面都大幅领先 MoRec。
我们旨在重新审视这个“老”问题，并从多个方面系统研究 MoRec。具体来说，我们研究以下几个子问题：
- (i)：MoRec 和 IDRec 这两种推荐范式在实际场景中哪种表现更好，特别是在 IDRec 具有强优势的 general setting 和 popular item 场景下？这种情况对于 items with different modality features 是否成立？
- (ii)：来自其他社区（即自然语言处理和计算机视觉）的最新技术进展能否转化为 MoRec 的准确性提升？
- (iii)：如何有效利用 item modality representation ——是直接使用还是需要用新数据进行调整？
- (iv)：MoRec 在实际应用中需要解决哪些关键挑战？
为了回答这些问题，我们对具有两种流行模态（即文本和视觉）的 item recommendations 进行了严格的实验。我们提供了第一个经验证据，表明通过昂贵的端到端训练方法，MoRec 已经能够与 IDRec 相媲美，即使在 warm item recommendation 中也是如此。我们的结果可能意味着 IDRec 在 recommender systems 领域的主导地位在未来可能会受到巨大挑战。我们已在 https://github.com/westlake-repl/IDvs.MoRec 发布了代码和其他材料。
推荐系统（recommender system: RS）模型学习 users and items 的 historical interactions，并推荐用户未来可能交互的 items。RS 在搜索引擎、广告系统、电子商务网站、视频和音乐流媒体服务以及各种其他互联网平台中发挥着关键作用。现代推荐模型通常使用 unique identities（ID）来表示 users and items，随后将其转换为可学习的 embedding 向量。这些基于 ID 的推荐模型（IDRec）已经确立并主导 RS 领域超过十年，直至现在。
尽管如此，IDRec 有着不可忽视的关键弱点。
- 首先，IDRec 高度依赖 ID 交互，当 users and items 的交互很少时无法提供推荐（《Parameter-efficient transfer from sequential behaviors for user modeling and recommendation》、《One person, one model, one world: Learning continual user representation without forgetting》），即 cold-start setting。
- 其次，pre-trained IDRec 无法跨平台迁移，因为 userIDs 和 itemIDs 在实际中通常不可共享。这个问题严重限制了深度学习社区中新兴范式——大型通用 recommender system 模型的发展。
- 第三，纯 IDRec 无法从其他社区（如 NLP 和 CV 领域开发的 foundation models: FM 《On the opportunities and risks of foundation models》）的技术进步中受益。
- 此外，在工业应用中，为 users and items 维护大型且频繁更新的 ID embedding matrix 仍然是一个关键挑战（《A generic network compression framework for sequential recommender systems》）。
- 最后但同样重要的是，利用 ID 特征的推荐模型在可解释性、可视化和评估方面存在明显缺陷。
解决这些问题的一种方法是用 item modality encoder（ME）替换 IDRec 的 ID embedding，尤其是在 item modality features（如图像特征和文本特征）可用的情况下。我们将此类推荐模型称为 MoRec。事实上，这种 MoRec 多年前就出现在文献中，但主要用于解决 cold-start recommendation 或 cross-domain recommendation 问题（《Fully content-based movie recommender system with feature extraction using neural network》、《Deeply fusing reviews and contents for cold start users in cross-domain recommendation systems》、《Deep content-based music recommendation》）。换句话说，MoRec 很少在推荐 non-cold items 或 popular items 时被采用，除非与其他有效特征（如 itemID features ）结合，例如在 《VBPR: visual bayesian personalized ranking from implicit feedback》、《Convolutional matrix factorization for document context-aware recommendation》、《Collaborative topic modeling for recommending scientific articles》中。一个关键原因可能是过去几年开发的 item modality encoder（例如 word embedding 《Distributed representations of words and phrases and their compositionality》 和一些浅层神经网络 《Deep content-based music recommendation》）不如典型的 itemID embeddings 具有表达力。然而，鉴于 foundation models 最近取得的巨大成功，我们认为现在是时候重新审视现代 MoRec 和IDRec 之间的关键比较，特别是对于常规（或 non cold-item）推荐。例如，BERT（《Bert: Pre-training of deep bidirectional transformers for language understanding》）、GPT-3（《Language models are few-shot learners》）和各种 Vision Transforme: ViT（《An image is worth 16x16 words: Transformers for image recognition at scale》、《Swin transformer: Hierarchical vision transformer using shifted windows》）在表示文本特征和视觉特征方面彻底改变了 NLP 领域和 CV 领域。由它们学到的 item representations 是否比 ID features 更适合常规推荐任务仍然未知。
在本文中，我们打算重新思考 MoRec 的潜力，并研究一个关键问题：对于未来的推荐系统，我们是否应该继续坚持 IDRec 范式？我们专注于基于文本和视觉模态的 item 推荐——这是文献中最常见的两种模态。为简洁起见，我们试图解决以下子问题：
- Q(i)：配备强大的 modality encoders: ME 后，MoRec 在常规推荐特别是 warm-start item 推荐场景中能否与 IDRec 相媲美甚至超越？为了回答这个问题，我们进行了实证研究，考虑了两种最具代表性的推荐架构，即基于双塔的 DSSM （《Learning deep structured semantic models for web search using clickthrough data》、《Neural collaborative filtering vs. matrix factorization revisited》）和基于 session 的 SASRec （《Self-attentive sequential recommendation》），配备了四种强大的 modality encoders，并在三个大规模推荐数据集上使用两种模态（文本和视觉）进行评估。
  新颖性说明：尽管许多先前文献研究了 MoRec 并与许多基线进行了比较，但不幸的是，没有任何一项工作在常规推荐甚至 warm item 推荐场景下对其提出的 MoRec 与相应的 IDRec 对应物进行了公平或严格的比较。这里的公平比较意味着 MoRec 和 IDRec 至少应该在相同的 backbone 网络和实验设置（如 samplers 和 loss 函数）下进行比较。没有公平的比较，社区就无法真正评估 MoRec 的进展和 modality encoders 对推荐的表达能力。
- Q(ii)：如果 Q(i) 是肯定的，那么 NLP 和 CV 领域的最新技术进展能否转化为使用文本特征和视觉特征的 MoRec 的准确性提升？我们通过三个实验来解决这个问题。
  - 首先，我们通过比较较小的 modality encoders 与较大的 modality encoders 来评估 MoRec，因为更大模型尺寸的 pre-trained modality encoders 在各种下游任务中往往比较小的 modality encoders 表现更好。
  - 其次，我们通过比较较弱的 modality encoders 与较强的 modality encoders 来评估 MoRec，其中强弱由 NLP 任务和CV 任务来决定。
  - 第三，我们比较了在相应的 NLP 数据集和 CV 数据集上进行 pre-training 与未进行任何 pre-training 的 modality encoders。
- Q(iii)：这些 foundation models 学到的 representations 是否像声称的那样通用？我们如何有效使用来自 NLP encoder network 或 CV encoder network 的 item modality representations ？ foundation models 研究的一个理想目标是开发能够生成 universal representations 的模型，这些 representations 可以直接用于各种下游任务（《Could Giant Pretrained Image Models Extract Universal Representations?》）。我们首先从著名的 modality encoders 中提取 frozen modality features，然后将其作为 common features 添加到推荐模型中，这通常被称为两阶段（two-stage: TS）范式。由于训练效率考虑，这是大规模工业推荐系统的常见做法（《Deep neural networks for youtube recommendations》、《Image-based recommendations on styles and substitutes》）。然后我们将 two-stage 与联合或端到端（end-to-end: E2E）训练进行比较，其中后者同时训练 recommendation architecture 和 modality encoders。
  新颖性说明：尽管最近有几篇文献探索了用于推荐的 end-to-end learning，但很少有人明确讨论 two-stage 和 end-to-end 范式之间巨大的准确性和效率差距（超过 100 倍）。更重要的是，大多数文献只讨论了 DSSM 架构（或其他双塔变体），而没有考虑更强大且计算上更昂贵的序列到序列（sequence-to-sequence: seq2seq）训练方法（例如 SASRec 和NextItNet 《A simple convolutional generative network for next item recommendation》 中使用的）。此外，所有这些工作都仅针对文本推荐，到目前为止，还没有近五年内经过同行评审的文献考虑用于图像推荐的 end-to-end 学习范式。
除了上述关键问题之外，我们还发现了在使用 end-to-end 学习范式时 MoRec 尚未探索的几个挑战。

1.1 相关工作

ID-based recommender systems (IDRec)：在现有的推荐文献中，有无数完全建立在 user/item ID 之上的模型，从早期的 item-to-item collaborative filtering（《Amazon. com recommendations: Item-to-item collaborative filtering》）、浅层 factorization models（《Matrix factorization techniques for recommender systems》、《Factorization machines》），到深度神经模型（《Neural collaborative filtering》、《Session-based recommendations with recurrent neural networks》）。它们大致可以分为两类：非序列模型（non-sequential models: NSM）和序列神经模型（sequential neural models: SRM）。
- NSM 进一步包括：
  - 各种召回模型，例如 DSSM 和 YouTube DNN 《Deep neural networks for youtube recommendations》）。
  - 以及 CTR 模型，例如 DeepFM（《DeepFM: a factorization-machine based neural network for CTR prediction》）、wide & deep（《Wide & deep learning for recommender systems》）和 Deep Crossing （《Deep crossing: Web-scale modeling without manually crafted combinatorial features》）。
  这些模型通常以 user-item pair 以及一些附加特征作为输入，并预测 users and items 之间的匹配分数。
- 相比之下，典型的 SRM 以 a sequence of user-item interactions 作为输入，并生成 next interaction 的概率。最具代表性的 SRM 包括以 RNN、CNN、GNN、Transformer 和 BERT 为骨干网络的 GRU4Rec（《Session-based recommendations with recurrent neural networks》）、NextItNet （《A simple convolutional generative network for next item recommendation》、《One person, one model, one world: Learning continual user representation without forgetting》）、SR-GNN（《Session-based recommendation with graph neural networks》）、SASRec（《Self-attentive sequential recommendation》）和 BERT4Rec（《BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer》），其中 SASRec 通常在文献中表现最佳（《Comparison of Transformer-Based Sequential Product Recommendation Models for the Coveo Data Challenge》、《Tenrec: A Large-scale Multipurpose Benchmark Dataset for Recommender Systems》、《Dynamic graph neural networks for sequential recommendation》）。
Modality-based recommender systems (MoRec)：MoRec 专注于对 items 的 modality content features 进行建模，例如文本、图像、视频、音频以及 text-image multimodal pairs。
先前的工作倾向于采用两阶段（two-stage: TS）机制：首先从 modality encoder 中预先提取 item modality features，然后将这些 fixed features 纳入推荐模型。更重要的是，这些工作大多将模态作为辅助特征，以 ID 为主要特征。
E2E-based MoRec 直到最近才流行起来，原因如下：
- (1)：two-stage 机制在架构上对工业 applications 非常灵活，并且需要低得多的计算和训练成本。
- (2)：很少有高质量的具有原始 item modalities 的公共数据集。
- (3)：过去文献中开发的 modality encoder（例如 word embedding ）即使通过 End2End训练也不够具有表达能力。
在过去两年中，一些工作开始探索 E2E-based MoRec，然而，其中大多数专注于文本推荐。最近的一篇预印本 《End-to-End Image-Based Fashion Recommendation》引入了 ResNet 作为 fashion-based recommendation 的 modality encoder，但不得不依赖 ID 特征来获得有竞争力的准确性。据我们所知，这些现有的经过同行评审的文献中，没有一项在公平的实验设置下（例如确保使用相同的骨干网络进行比较）提供了 MoRec 与其相应 IDRec 对应物的明确且全面的比较研究，尤其是在 non cold-start settings 甚至 warm-start settings中。

1.2 IDRec & MoRec

推荐模型的一个核心功能是表达 itemsusers $\mathcal{I}$ $|\mathcal{I}|$ $\mathcal{U}$ $|\mathcal{U}|$ ）分别为 items 集合和 usersitem $i\in \mathcal{I}$ unique ID $i$ $u\in \mathcal{U}$ unique ID $u$ 或用户画像来表示该用户，其中用户画像可以是人口统计信息或 a sequence of interacted items。
在 IDRecID embedding matrix $\mathbf{X}^{\mathcal I}\in \mathbb{R}^{|\mathcal{I}|\times d}$ $d$ embedding $\mathbf{X}^{\mathcal I}$ item $i$ 的潜在空间，可以看作一个简单的 item encoderIDRec $\mathbf{X}^{\mathcal I}$ $\mathbf{\vec x}_i^{\mathcal I}\in \mathbb{R}^{d}$ item $i$ 的 embedding，然后将其馈送到 recommendation network 中。
在 MoRec 中，假设 itemsitem $i$ ，MoRecmodality encoder $i$ 的原始模态特征来生成 representation ，并用这个 representation 来替换 IDRec 中的 ID embedding vector。例如，在新闻推荐场景中，我们可以使用 pre-trained BERT or RoBERTa（《Roberta: A robustly optimized bert pretraining approach》）作为 text modality encoder，并通过新闻标题的 textual representation 来表示一条新闻。类似地，当 items 包含视觉特征时，我们可以简单地使用 pre-trained ResNet or ViT 作为 vision modality encoder。
在本文中，我们对两种最常采用的推荐范式进行了严格的实证研究：DSSM（《Learning deep structured semantic models for web search using clickthrough data》）和 SASRec（《Self-attentive sequential recommendation》）。
- 原始的 DSSM 模型是一种基于双塔的架构，其中 users/items 通过各自的 encoder networks 来编码，而且 user iD/item ID 作为各自的 encoder network 的输入。
- SASRec 是一种基于多头自注意力（multi-head self-attention: MHSA）（《Attention is all you need》）的著名序列推荐模型，它通过用户交互过的 item ID sequence 来描述用户。
如前所述，通过用 item modality encoder 来替换 ID embeddings，我们获得了 DSSM 和 SASRec 的 MoRec 版本。我们在 Figure 1 中展示了 IDRec 和 MoRec。
$\mathcal{R}$ interactions $< u,i > \in \mathcal{R}$ training epoch $\mathcal{R}$ $< u,j >\notin \mathcal R$ ，遵循 《Neural collaborative filtering》、《BPR: Bayesian personalized ranking from implicit feedback》。positive interactionssampled negative interactions interactions $\mathcal{R}^\text{train}$ 。遵循 《Neural collaborative filtering》、《Self-attentive sequential recommendation》，我们采用广泛使用的二元交叉熵（binary cross entropy: BCE）损失作为 DSSM 和 SASRec 及其 MoRec 版本的目标函数，以实现公平比较：
${\begin{cases} min - {\sum_{u \in U} \sum_{i \in [2, \dots, L} [\log σ ({\hat{y}}_{u, i}) + \log (1 - σ ({\hat{y}}_{u, j}))]} & for SASRec \\ min - {\sum_{< u, i, j >\in R} [\log σ ({\hat{y}}_{u, i}) + \log (1 - σ ({\hat{y}}_{u, j}))]} & for DSSM \end{cases}$
其中：
- $\sigma (x) = 1 / (1 + e^{- x})$ 是 sigmoid 函数。
- $L$ $u$ 的 interaction sequence 长度。
- $i$ $j$ $u$ 的 positive item 和 negative item。
- $\hat{y}_{ui}$ 是 user encoder 和 item encoder 的 hidden vectors 之间的匹配分（matching score）。
注意，SASRec 的 user encoder（通过 seq2seq 训练）在 interaction sequence 的每个位置产生不同的 hidden vector。除非特别说明，在以下实验中，整个推荐模型的所有参数都在训练期间进行优化。

1.3 实验设置

数据集：我们在三个真实世界数据集上评估 IDRec 和 MoRec，即：
- 来自微软新闻推荐平台的 MIND 新闻点击数据集（《Mind: A large-scale dataset for news recommendation》）。
- 来自 H&M 平台的 HM 服装购买数据集。
- 以及来自在线视频推荐平台的 Bili 评论数据集。
purchase 和 comment 可以被视为隐式的 click 信号，因为可以合理地假设用户在购买或发表评论之前已经点击了 item。然而，我们不能假设反过来也成立，这是大多数推荐数据集中的一个常见属性，即 unobserved items 对用户来说可能是正例也可能是负例。
为了确保 IDRec 和 MoRec 之间的公平比较，所使用的数据集应保证 user 对 item 的 clicking decisions 完全基于 item 的模态内容特征。直观上，图像或视频的封面、以及新闻文章的标题，在为用户提供对 item 的第一印象方面起着至关重要的作用。这种印象显著影响他们对 item 的 click 的决定。因此：
- 在 MIND 中，我们使用新闻文章标题来表示 item。
- 而在 HM 和 Bili 中，我们使用相应的封面图像来表示 item。
尽管如此，这些数据集仍可能无法完美满足要求。特别是在 HM 数据集的电子商务背景下，item 的封面图像、价格和销量等因素可能共同影响用户点击 item 的决定（参见 Figure 2）。这意味着在 HM 数据集中仅依靠封面图像可能不足以让 MoRec 有效地捕获这些 non-visual features，因为封面图像是 item encoder 的唯一 input。相比之下，众所周知 IDRec 能够从 latent embedding space 中隐式地学习这些特征（《Matrix factorization techniques for recommender systems》）。也就是说，如果考虑更理想的数据集或更有用的内容特征，MoRec 的性能仍有提升空间。
为了构建实验数据集，我们分别从 Bili、HM 和 MIND 中随机选择了大约 400K、500K 和 600K 用户。然后，我们进行基本的预处理：
- 将所有图像的大小设置为 224x224。
- 将所有新闻文章的标题设置为最多 30 tokens（覆盖 99% 的 descriptions ）。
- 对于MIND，我们为每个用户选择 latest 23 items 来构建 interaction sequence。对于 HM 和 Bili，我们选择最近的 13 次 interactions，因为 encoding images 需要更大的 GPU 内存（尤其是在 SASRec 架构下）。
- 遵循 《BPR: Bayesian personalized ranking from implicit feedback》，我们删除了 interactions 少于 5 次的 users，这仅仅是因为本文不考虑 cold user settings。
超参数：
- 对于所有方法，我们采用 AdamW 作为默认 optimizer，并发现 dropout rate = 0.1（即删除 10% 的 parameters)）在验证集上提供了最优结果。关于其他超参数，我们遵循常见做法并进行了广泛的搜索。
- IDRec $\{1e - 3,5e - 4,1e - 4,5e - 5\}$ $\gamma$ $\{64,128,256,512,1024,2048,4096\}$ embedding/hidden size $d$ 。我们将 DSSMbatch size $b$ 设为 1024 ，SASRecbatch size $b$ 设为 128。
- 对于 MoRec，我们将 DSSMSASRec $d$ 都设为 512 ；由于 GPU 内存限制，DSSM 和 SASRecbatch size $b$ 分别设为 512 和 64。
  鉴于 modality encoder（例如 BERT 和 ResNet ）已经具有良好预训练好的参数，我们为 modality encoderrecommender model $\gamma$ $\{1e - 4,5e - 5,1e - 5\}$ pre-trained modality encoder network $\gamma$ randomly initialized parameters $\gamma$ $1e - 4$ 。
- $\{0.1,0.01,0\}$ 中调优 IDRec 和 MoRecweight decay $\beta$ 。
- 对于 DSSMmultilayer perceptron: MLP $d$ $\{0,1,3,5\}$ $l$ $l = 0$ （即 no hidden layers ）总是产生最佳结果。
- 对于 SASRecTransformer block $l$ 设为 2，multi-head attention 的 head 数设为 2 以获得最优结果。
- 除非另有说明，所有其他超参数在 IDRec 和 MoRec 中保持相同。
Comparison Settings：
- 为了公平比较，我们确保 IDRec 和 MoRec 除了 item encoder 外具有完全相同的网络架构。对于 text encoders 和 vision encoders，我们将其 output item representations 传递到一个 DT-layer（见 Figure 1，dimension transformation layer）进行维度变换。
- IDRec $\gamma$ embedding $d$ $l$ dropout rate $\rho$ 方面得到充分调优。而对于 MoRec，我们尝试首先使用与 IDRec 相同的超参数集，然后在 best choices 附近进行一些基本搜索。因此，除非特别说明，我们不保证 MoRec 报告的结果是最好的，因为为 MoRec 搜索所有可能的超参数非常昂贵且耗时，有时比 IDRec 多花费 100 倍以上的计算和训练时间（尤其是对于 vision，见 Table 6 ）。因此，如何有效找到 MoRec 的最优超参数是一个重要但尚未探索的研究课题。
  考虑到 MoRec 的 FLOPs 要大得多，因此其 online inference 会是一个瓶颈。
评估：
- 我们采用标准的留一法（leave-one-out）策略将数据集划分为训练集、验证集和测试集。具体来说，每个用户的 latest interaction 用于评估，倒数第二次 interaction 用作验证以搜索超参数，所有其他 interactions 用于训练。
- 我们使用两个流行的 top-N ranking metrics 评估所有模型：HR@N（命中率 Hit Ratio）和 NDCG@NNormalized Discounted Cumulative Gain $N$ 设为 10。
- 我们通过将 ground-truth target item 与 item pool 中所有剩余 items 进行比较来对 ground-truth target item 进行排序。
- 最后，我们在测试集上报告结果，但通过验证集找到最佳超参数。

1.4 实验结果

1.4.1 Comparative Studies (Q(I))

根据现有文献，MoRec 在 new item recommendation settings 或 cold-start item recommendation settings 中可以轻松击败 IDRec（《Content-aware neural hashing for cold-start recommendation》、《Visually-aware personalized recommendation using interpretable image representations》、《Adversarial training towards robust multimedia recommender system》）。我们在附录 A.1 中报告了这些结果。本文我们专注于在更具挑战性的 setting 中评估它们：常规推荐场景（mixture of warm and cold items）和 warm-start item recommendation 场景，在这些场景中 IDRec 通常非常强大。据我们所知，现有文献中尚未明确讨论过此类比较。
如前所述，我们使用两种最重要的推荐架构（即 DSSM 和 SASRec）来评估 IDRec 和 MoRec。
- 当物品具有文本特征时，我们使用 pre-trained BERT and RoBERTa 作为 modality encoders 。
- 当物品具有视觉特征时，我们使用 pre-trained ResNet and Swin Transformer 作为 modality encoders 。
注意对于 BERT 和 RoBERTa ，我们在 [CLS] token 的 final representation 上添加了 DT-layer（见 Figure 1）。我们在 Table 2 中报告了 regular setting（即原始分布）下测试集的结果，在 Table 3 中报告了 warm-start setting（删除 cold items 后）的结果。
MoRec vs IDRec (Regular Setting)：如 Table 2 所示：
- 我们观察到无论使用何种 item encoding 策略，DSSM 始终大幅逊于SASRec 。
  - 例如，基于 SASRec-based IDRec 在新闻推荐的 HR@10 上比基于 DSSM-based IDRec 好约 4.9 倍，尽管它们的训练集、验证集和测试集完全相同。
  - 图像推荐的性能差距相对较小，在 HM 和 Bili 上分别约为 1.4 倍和 2.7 倍。
  这与许多先前文献 《Session-based recommendations with recurrent neural networks》、《Self-attentive sequential recommendation》一致，即用 interacted item sequence 来 representing and modeling users ，通常比将它们作为单个 userID 处理更强大。
- 其次，我们注意到：
  - 在 DSSM 架构下，即使使用 SOTA 的 modality encoder，MoRec 在所有三个数据集上的表现都远差于 IDRec，尤其是在视觉推荐场景中。
  - 相比之下，在 SASRec 架构下，MoRec 在 MIND 上使用三种文本编码器（即 BERT_small、BERT_base 和 RoBERTa_base）中的任意一种都持续取得优于 IDRec 的结果。例如，使用 RoBERTa_base 文本编码器时，MoRec 在两个评估指标上比 IDRec 高出超过 5%。同时，当使用 Swin Transformer 作为 modality encoder 时，MoRec 表现与 IDRec 相当；但在使用 ResNet50 时表现相对较差。
  MoRec 在 DSSM 和 SASRec 之间的性能差异可能暗示，需要一个强大的 recommendation backbone（SASRec vs DSSM）和训练方法（seq2seq vs <u,i> pair）来充分发挥 modality-based item encoder 的优势。鉴于 MoRec 在 DSSM 上的糟糕结果，我们后续主要关注 SASRec 架构。
MoRec vs IDRec (Warm Item Settings)：为了验证 MoRec 和 IDRec 在 warm item recommendation 中的性能，我们构建了具有不同 item popularity 的新数据集。我们在 Figure 3 中展示了原始数据集的 item popularity 分布。对于每个数据集，我们从原始数据集中删除 interactions 次数少于 20、50、200 次的 items 。我们在 Table 3 中报告了所有三个数据集的推荐准确性。可以看出：
- 从 warm-20、warm-50 到 warm-200，IDRec 变得越来越强。在 warm-20 数据集中，MoRec 略优于 IDRec，而在 warm-200 中，对于文本推荐，MoRec 略差于 IDRec。根据现有文献（《Autodebias: Learning to debias for recommendation》、《Sampling-bias-corrected neural modeling for large corpus item recommendations》、《Lambdafm: learning optimal ranking with factorization machines using lambda surrogates》），这是合理的，因为众所周知 IDRec 擅长对 popular items 进行建模。
- 但即使在这些 warm-start setting 中，MoRec 仍然与 IDRec 相当。这一特性很有吸引力，因为众所周知 MoRec 在 cold-start setting 中可以轻松击败 IDRec（见附录），并且在 tranfer learning 或 cross-domain recommendation 方面具有天然优势。
  更进一步，最近的工作表明，大型 MoRec 模型有潜力成为 foundation recommendation models（《One4all user representation for recommender systems in e-commerce》、《Scaling law for recommendation models: Towards generalpurpose user representations》），能够实现 "one model for all" 的雄心勃勃的目标（《One4all user representation for recommender systems in e-commerce》、《TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback》）。
上述结果揭示了以下见解：
- (1)：MoRec 的推荐架构（ seq2seq SASRec 或 two-tower DSSM）对其性能影响非常大。
- (2)：其 item modality encoder 也影响 MoRec 的性能。
- (3) （问题 Q(i) 的答案）：配备最强大的 modality encoder，在使用 sequential neural network recommendation architecture 时，MoRec 在文本推荐（包括 cold item settings 和 warm item settings ）中基本上可以击败其对应的 IDRec，并在视觉推荐中与 IDRec 相当。然而，在 regular setting 或 warm-start setting 中，MoRec 似乎不太可能通过典型的 DSSM 训练方法取代 IDRec 。
- (4)：尽管 MoRec 在 very popular item recommendation 中不能击败 IDRec，但它们仍然表现出非常有竞争力的结果。据我们所知，这是第一篇明确声称 pure MoRec 可以与 pure IDRec 相媲美的论文（当它们在相同的 sequential recommendation architecture 下进行比较时），即使在极具挑战性的 warm item recommendation 中也是如此。

1.4.2 Inherit Advances In NLP & CV? (Q(II))

直观上，MoRec 有潜力将来自其他社区（如 NLP 和 CV ）的强大的 representation learning 技术引入推荐任务。然而，这尚未得到正式研究。在此，我们问：NLP 和 CV 的最新进展能否转化为推荐任务准确性的提升？我们试图从以下角度回答这个问题。
首先，我们研究更大的 pre-trained modality encoder 是否能带来更好的推荐准确性，因为在 NLP 和 CV 中，更大的 pre-trained models 在相应的下游任务中通常提供更高的性能。如 Figure 4 所示，更大的 vision item encoder 总是能实现更好的图像推荐准确性，即：
```
ResNet18-based MoRec < ResNet34-based MoRec < ResNet50-based MoRec
Swin-T based MoRec < Swin-B based MoRec
```
类似地，我们发现：
```
xxxxxxxxxx
BERTtiny-based MoRec < BERTbase-based MoRec < BERTsmall-based MoRec
```
一个不同之处是，BERTbase-based MoRec并未优于基于 BERTsmall-based MoRec，尽管后者是更小的 BERT 变体。我们得出结论，一般来说，来自 NLP 和 CV 的更大、更强大的 modality encoder 往往会提高推荐准确性，但这可能并不严格适用于所有情况。
其次，我们研究更强的 encoder network 是否能带来更好的推荐。例如，公认的是 RoBERTa 优于 BERT（《Roberta: A robustly optimized bert pretraining approach》），而 BERT 优于单向 GPT（《Improving language understanding by generative pre-training》）（如 OPT （《Open pre-trained transformer language models》）），用于大多数 NLP 理解任务（而非 NLP 生成任务），在相似的模型大小下；并且 Swin Transformer 通常在许多 CV 任务中优于 ResNet（《Swin transformer: Hierarchical vision transformer using shifted windows》）。此外，这些现代 pre-trained NLP foundation models 轻松优于 TextCNN（《Convolutional Neural Networks for Sentence Classification》）和 GloVe（《Glove: Global vectors for word representation》），这两个约十年前开发的著名浅层模型。如 Figure 4 所示，MoRec 的性能与 NLP 和 CV 中的发现保持一致，即：
```
xxxxxxxxxx
RoBERTabase-based MoRec > BERTbase-based MoRec > OPT125M-based MoRec > TextCNN-based MoRec > GloVe-based
MoRec
Swin-T based MoRec > ResNet50-based MoRec
```
（Swin-T 与 ResNet50 具有相似的模型大小，RoBERTa_base、BERT_base 和 OPT125M 也是如此）。
第三，我们研究 pre-trained modality encoder 是否比其从头训练（training-from-scratch: TFS）版本（即随机初始化）产生更高的推荐准确性。毫无疑问，pre-trained BERT, ResNet, and Swin 相对于它们的 TFS 版本大幅提升了相应的 NLP 和 CV 任务。我们在 Table 4 中报告了测试集上的推荐结果。
- 可以清楚地看到，pre-trained MoRec 获得了更好的最终结果。特别是，在 HM 和 Bili 上，使用 pre-trained modality encoder （ResNet 和 Swin ）的 MoRec 实现了约 10% 的提升，这也与 NLP 和 CV 领域的发现一致。
- 我们还通过从 MIND、HM 和Bili 中随机抽 50K users 构建了较小版本的数据集。可以看出， pre-trained modality encoder 相对于 TFS 的优势在小数据集上更为明显。然而，我们发现 pre-trained BERTbase 在 MIND-50K 上甚至比其 TFS 版本更差。
根据上述实验，我们得出结论（问题 Q(ii) 的答案）：MoRec 为 recommendation system 和其他多媒体社区建立了联系，并且通常可以继承来自 NLP 和 CV 领域的最新进展。这是一个非常好的特性，意味着一旦未来相应研究领域出现新的突破，MoRec 将有更多的机会和更大的改进空间。

1.4.3 Are Modality Rpresentations Universal For RS? (Q(III))

NLP 和 CV 中的 foundation models 被期望生成 generic representation，然后可以直接用于 zero-shot setting 下的下游任务。然而，它们大多数仅在部分传统任务（《Grounded language-image pre-training》、《Learning transferable visual models from natural language supervision》）（如图像和文本分类）上进行了评估。我们认为预测 user preference 比这些客观任务更具挑战性。
为了清楚地看到这个问题，我们评估了两种训练方法。
- 第一种方法是预先通过 modality encoder 提取 modality features，然后将它们添加到推荐模型中（《Ups and downs: Modeling the visual evolution of fashion trends with one-class collaborative filtering》、《VBPR: visual bayesian personalized ranking from implicit feedback》），称为两阶段（two-stage: TS）流水线。由于训练效率高，TS 在真实世界的工业 applications 中特别流行，这些 applications 通常有数亿个训练样本。
- 第二种方法是上述所有实验中使用的，以端到端方式同时优化 user and item encoders。
如 Table 5 所示，我们发现 TS-based MoRec 显示出惊人的差的结果，相比 IDRec 和 E2E-based MoRec 。特别是，使用 ResNet 时，在 HM 和 Bili 上它仅达到 E2E MoRec 性能的约 60% 和 25%。为了更好地适配，我们还在这些 fixed modality features 之上添加了许多 dense layers。如 Table 5 所示，这确实可以提高 TS 的性能；然而，它仍然远差于 IDRec 和 E2E-based MoRec，尤其是对于视觉推荐。
结果表明，通过这些 NLP 和 CV 任务学到的 modality features 对于推荐问题来说不够通用，因此与新数据上的重新训练（即 End2End 范式）相比，推荐结果更差。好消息是，通过适当的适配（即 TS-DNN），基于 TS-based MoRec 在未来有潜力与 E2E MoRec 在文本推荐上竞争（16.66 vs 18.23）。
因此，我们想明确提醒 Recommendation System 研究人员和从业者（问题 Q(iii) 的答案）：
- 首先，流行的两阶段推荐机制会导致显著的性能下降（尤其是对于图像推荐），这在实践中不应被忽视。
- 其次，对于 NLP 和 CV 研究人员，我们想向他们展示，尽管 Foundation Model 取得了革命性的成功，但到目前为止，它们的representation features 还不够通用，至少对于 item recommendation 而言。
注意：这里的 E2E 采用了 pre-trained encoder，而不是从头开始训练。

1.4.4 Key Challenges (Q(IV))

E2E-based MoRec 以前研究较少，尤其是对于视觉推荐。在此，我们提出几个关键挑战和一些社区可能没有意识到的意外发现。
Training cost。如 Figure 4 所示，具有更大 modality encoder 的 MoRec 往往比较小 modality encoder 表现更好，然而，训练计算量、时间和 GPU 内存消耗也会增加，特别是对于具有很长交互序列的 seq2seq 架构。
我们在 Table 6 中报告了 HM（接近 Bili ）和 MIND上的训练成本细节。事实上，不难想象 MoRec 会比 IDRec 消耗更多的计算资源和时间。然而，很难想象最佳的 MoRec（以 SASRec 为 user encoder，Swin-B 为 modality encoder ）比 IDRec 多花费超过 100 倍的计算和训练时间。这在文献中尚未被明确揭示。这也可能是为什么没有正式的出版物将 seq2seq user encoder 和E2E-learned item modality encoder 结合用于 MoRec，特别是对于图像推荐。注意，在实践中，不一定需要优化 modality encoder 的所有参数，对于某些数据集，微调 modality encoder 的少数 top layers 可以达到相当的结果。
另一方面，尽管 E2E-based MoRec 在训练时非常昂贵（类似于 NLP 和 CV 中的 Foundation Model），但它已被证明能够实现 foundation recommendation models，从而释放更多用于训练特定模型的劳动力（《One4all user representation for recommender systems in e-commerce》、《Scaling law for recommendation models: Towards generalpurpose user representations》）。
Extra pre-training：使用下游数据集对 modality encoder 进行第二轮 pre-training 在许多机器学习文献中通常效果良好（《Don’t stop pretraining: adapt language models to domains and tasks》、《How to fine-tune bert for text classification?》）。在此，我们探索这是否能为 MoRec 带来改进的结果。遵循 BERT 的 pre-training，我们采用 masked language model: MLM 目标在 MIND上训练 MoRec 的文本编码器（记为 BERTbase-MLM）并在 Table 8 中报告结果。如结果所示，BERTbase-MLM 在 TS 模型和 E2E 模型上都获得了比 BERTbase 更高的准确性。
类似地，我们探索这在视觉编码器上是否成立。注意，之前实验中使用的 ResNet 和 Swin Transformer 是以监督方式预训练的，但 HM 和 Bili 都不包含 supervised image labels。为此，我们转而使用 MAE（《Masked autoencoders are scalable vision learners》），这是一种以无监督方式预训练的 SOTA 的图像编码器，类似于 MLM 。我们发现：
- MAEbase-MLM 在 HM 上使用 TS 模型时明显优于标准 MAEbase，但在 E2E 模型上获得微小增益。
- 相比之下，在 Bili 上没有观察到准确性提升。
通过检查 Figure 2 中的图像案例，我们发现 Bili 中的图片主题非常多样，比HM（仅包含非常简单的时尚元素）更具挑战性。
我们的结论是，第二轮预训练的有效性取决于具体数据集；更重要的是，对于 E2E MoRec 似乎很难获得较大的准确性提升。
Combing ID & modality features：鉴于 IDRec 和 E2E-based MoRec 都表现良好，一个自然的想法是将这两种特征（即 ID 和 modality）结合在一个模型中。我们对此进行了评估，如 Table 7 所示。我们考虑了两种特征组合方式：加法和拼接。令人惊讶的是，我们发现基于 TS-based MoRec 和 E2E-based MoRec 相比 IDRec 和 MoRec 之间的最佳结果都没有提升。通过添加 ID 特征，E2E-based MoRec 甚至比 pure IDRec 和 pure MoRec 表现更差。我们的结果与之前的文献有些矛盾，后者通常声称通过为IDRec 添加 modality features 或 multimedia features 可以获得更好的结果（《Ups and downs: Modeling the visual evolution of fashion trends with one-class collaborative filtering》、《VBPR: visual bayesian personalized ranking from implicit feedback》、《Metadata embeddings for user and item cold-start recommendations》）。
- 一个原因可能是，在 regular (vs cold-start) setting 中，E2E-based MoRec 和 IDRec 都从 user-item interaction data 中学习 user preference，因此它们无法互补；而对于 TS-based MoRec，由于 ID embeddings 远好于 frozen modality features，它们的结合也没有提升结果。
- 第二个原因可能是，结合 ID 和 modality features 需要更先进的技术。事实上，从另一个角度看，MoRec with ID features 将失去 MoRec 的许多优势（见引言章节）。例如，MoRec with ID features 不适合构建 foundation recommendation models，因为 ID 由于隐私问题和 overlapping 问题从而不易迁移。
Model collapseIDRec $\gamma$ ）的情况下训练MoRec 很容易导致模型坍塌（model collapse）。如 Figure 5 所示：
- $\gamma^{M}$ $\gamma^{R}$ 都等于 0.0001 时，MoRec 在 MIND 上的性能从 16% 急剧下降到 0。
- $\gamma^{M} = 0.0001$ $\gamma^{R} = 0.001$ 时，MoRec 从一开始就坍塌了。
- 类似地，MoRec 在 HM 上进行图像推荐时也存在这个问题。
MoRec $\gamma$ 良好训练。值得注意的是，有时需要为 item modality encoder 和其他模块设置不同的学习率。这可能是因为 item modality encoder 已经在 NLP 和 CVlearning stride $\gamma$ ，IDRec 也不会坍塌。据我们所知，我们的这些发现尚未在文献中报道。

1.5 结论与未来工作

在本文中，我们研究了一个雄心勃勃但未被充分探索的问题：MoRec 是否有机会结束 IDRec 的主导地位。显然，这个问题无法在一篇论文中完全回答，需要来自 Recommendation System 甚至 NLP 和 CV 社区的更多研究和努力。然而，这里的一个主要发现是，使用 SOTA 的 E2E-trained modality encoder，即使在 non cold-start item recommendation setting 中，现代 MoRec 在典型的推荐架构（即 Transformer 骨干网络）下已经可以表现得与 IDRec 相当或更好。此外，MoRec 可以很大程度上受益于 NLP 和 CV 领域的技术进步，这意味着它在未来有更大的准确性改进空间。鉴于此，我们相信我们的研究是有意义的，并可能激发更多关于 E2E-based MoRec 的研究，例如开发更强大的推荐架构（特别是对于 CTR 预测任务）、更具表现力和泛化能力的 item encoders、更好的 item & user fusion 策略，以及更有效的优化以减少 compute & memory costs and the longer training time。我们还设想，从长远来看，当 item raw modality features 可用时，Recommendation System 的主流范式有可能从 IDRec 转向 MoRec。
如上所述，本研究仅是对 MoRec 的初步探索，存在几个局限性：
- (1)：我们只考虑了仅包含文本和视觉的 Recommendation System 场景，而 MoRec 在其它模态（如语音和视频）上的行为仍然未知。
- (2)：我们只考虑了 single-modal item encoders，而 multimodal MoRec 的行为未知。
- (3)：我们只考虑了一种非常基本的将 modality encoder 融合到推荐模型中的方法，因此 MoRec 可能未达到最优性能。
- (4)：我们的观察是在三个中等规模的数据集上进行的，如果像真实工业系统中那样将训练数据扩展到 100 倍或 1000 倍，关键发现是否仍然成立尚不可知。

二、附录

2.1 MoRec vs IDRec on cold-start settings

MoRec 天然适合 cold item recommendation，因为它们的 modality encoder 是专门为建模 item 的 raw modality features 而开发的，无论 item 是否冷门。为了验证这一点，我们在两种场景下评估 IDRec 和 MoRec：COLD item setting 和NEW item setting。
具体来说，我们统计了训练集中所有 items 的 interactions 次数，将出现少于 10 次的视为 cold items 。我们发现原始测试集中的 cold items 数量非常少。因此，我们再次进行了一个月的数据爬取，然后选择了包含这些 cold items （作为 cold item setting）和未出现在训练集中的 items（作为 new item setting）的用户序列。我们在 Table 9 中报告了结果。
正如预期，MoRec 在所有三个数据集的文本和视觉模态下，在 cold item setting 和 new item setting 中始终且大幅优于IDRec。MoRec 的优越性来自于 modality encoder 的强大 representations，这些 modality encoder 事先在大型文本和图像数据集上进行了预训练。