一、MoRec [2023]

《Where to Go Next for Recommender Systems? ID- vs. Modality-based Recommender Models Revisited》

  1. 利用 unique identities(简称 ID)来表示 distinct users and items 的推荐模型,在过去十多年中一直是推荐系统(recommender systems: RS)领域的主流且 SOTA 的技术。与此同时,pre-trained modality encoders(如 BERT 《Bert: Pre-training of deep bidirectional transformers for language understanding》Vision Transformer 《An image is worth 16x16 words: Transformers for image recognition at scale》)在建模 item 的原始模态特征(如文本特征和图像特征)方面变得越来越强大。基于此,一个自然的问题出现了:通过用 SOTA modality encoder 替换 itemID embedding,纯基于模态的推荐模型(MoRec)能否优于或匹敌纯基于ID 的模型(IDRec)?事实上,这个问题在十年前就有答案,当时 IDRec 在推荐准确性和效率两方面都大幅领先 MoRec

    我们旨在重新审视这个“老”问题,并从多个方面系统研究 MoRec。具体来说,我们研究以下几个子问题:

    • (i)MoRecIDRec 这两种推荐范式在实际场景中哪种表现更好,特别是在 IDRec 具有强优势的 general settingpopular item 场景下?这种情况对于 items with different modality features 是否成立?

    • (ii):来自其他社区(即自然语言处理和计算机视觉)的最新技术进展能否转化为 MoRec 的准确性提升?

    • (iii):如何有效利用 item modality representation ——是直接使用还是需要用新数据进行调整?

    • (iv)MoRec 在实际应用中需要解决哪些关键挑战?

    为了回答这些问题,我们对具有两种流行模态(即文本和视觉)的 item recommendations 进行了严格的实验。我们提供了第一个经验证据,表明通过昂贵的端到端训练方法,MoRec 已经能够与 IDRec 相媲美,即使在 warm item recommendation 中也是如此。我们的结果可能意味着 IDRecrecommender systems 领域的主导地位在未来可能会受到巨大挑战。我们已在 https://github.com/westlake-repl/IDvs.MoRec 发布了代码和其他材料。

  2. 推荐系统(recommender system: RS)模型学习 users and itemshistorical interactions,并推荐用户未来可能交互的 itemsRS 在搜索引擎、广告系统、电子商务网站、视频和音乐流媒体服务以及各种其他互联网平台中发挥着关键作用。现代推荐模型通常使用 unique identitiesID)来表示 users and items,随后将其转换为可学习的 embedding 向量。这些基于 ID 的推荐模型(IDRec)已经确立并主导 RS 领域超过十年,直至现在。

    尽管如此,IDRec 有着不可忽视的关键弱点。

    • 首先,IDRec 高度依赖 ID 交互,当 users and items 的交互很少时无法提供推荐(《Parameter-efficient transfer from sequential behaviors for user modeling and recommendation》《One person, one model, one world: Learning continual user representation without forgetting》),即 cold-start setting

    • 其次,pre-trained IDRec 无法跨平台迁移,因为 userIDsitemIDs 在实际中通常不可共享。这个问题严重限制了深度学习社区中新兴范式——大型通用 recommender system 模型的发展。

    • 第三,纯 IDRec 无法从其他社区(如 NLPCV 领域开发的 foundation models: FM 《On the opportunities and risks of foundation models》)的技术进步中受益。

    • 此外,在工业应用中,为 users and items 维护大型且频繁更新的 ID embedding matrix 仍然是一个关键挑战(《A generic network compression framework for sequential recommender systems》)。

    • 最后但同样重要的是,利用 ID 特征的推荐模型在可解释性、可视化和评估方面存在明显缺陷。

    解决这些问题的一种方法是用 item modality encoderME)替换 IDRecID embedding,尤其是在 item modality features(如图像特征和文本特征)可用的情况下。我们将此类推荐模型称为 MoRec。事实上,这种 MoRec 多年前就出现在文献中,但主要用于解决 cold-start recommendationcross-domain recommendation 问题(《Fully content-based movie recommender system with feature extraction using neural network》《Deeply fusing reviews and contents for cold start users in cross-domain recommendation systems》《Deep content-based music recommendation》)。换句话说,MoRec 很少在推荐 non-cold itemspopular items 时被采用,除非与其他有效特征(如 itemID features )结合,例如在 《VBPR: visual bayesian personalized ranking from implicit feedback》《Convolutional matrix factorization for document context-aware recommendation》《Collaborative topic modeling for recommending scientific articles》中。一个关键原因可能是过去几年开发的 item modality encoder(例如 word embedding 《Distributed representations of words and phrases and their compositionality》 和一些浅层神经网络 《Deep content-based music recommendation》)不如典型的 itemID embeddings 具有表达力。然而,鉴于 foundation models 最近取得的巨大成功,我们认为现在是时候重新审视现代 MoRecIDRec 之间的关键比较,特别是对于常规(或 non cold-item)推荐。例如,BERT《Bert: Pre-training of deep bidirectional transformers for language understanding》)、GPT-3《Language models are few-shot learners》)和各种 Vision Transforme: ViT《An image is worth 16x16 words: Transformers for image recognition at scale》《Swin transformer: Hierarchical vision transformer using shifted windows》)在表示文本特征和视觉特征方面彻底改变了 NLP 领域和 CV 领域。由它们学到的 item representations 是否比 ID features 更适合常规推荐任务仍然未知。

    在本文中,我们打算重新思考 MoRec 的潜力,并研究一个关键问题:对于未来的推荐系统,我们是否应该继续坚持 IDRec 范式?我们专注于基于文本和视觉模态的 item 推荐——这是文献中最常见的两种模态。为简洁起见,我们试图解决以下子问题:

    • Q(i):配备强大的 modality encoders: ME 后,MoRec 在常规推荐特别是 warm-start item 推荐场景中能否与 IDRec 相媲美甚至超越?为了回答这个问题,我们进行了实证研究,考虑了两种最具代表性的推荐架构,即基于双塔的 DSSM《Learning deep structured semantic models for web search using clickthrough data》《Neural collaborative filtering vs. matrix factorization revisited》)和基于 sessionSASRec《Self-attentive sequential recommendation》),配备了四种强大的 modality encoders,并在三个大规模推荐数据集上使用两种模态(文本和视觉)进行评估。

      新颖性说明:尽管许多先前文献研究了 MoRec 并与许多基线进行了比较,但不幸的是,没有任何一项工作在常规推荐甚至 warm item 推荐场景下对其提出的 MoRec 与相应的 IDRec 对应物进行了公平或严格的比较。这里的公平比较意味着 MoRecIDRec 至少应该在相同的 backbone 网络和实验设置(如 samplersloss 函数)下进行比较。没有公平的比较,社区就无法真正评估 MoRec 的进展和 modality encoders 对推荐的表达能力。

    • Q(ii):如果 Q(i) 是肯定的,那么 NLPCV 领域的最新技术进展能否转化为使用文本特征和视觉特征的 MoRec 的准确性提升?我们通过三个实验来解决这个问题。

      • 首先,我们通过比较较小的 modality encoders 与较大的 modality encoders 来评估 MoRec,因为更大模型尺寸的 pre-trained modality encoders 在各种下游任务中往往比较小的 modality encoders 表现更好。

      • 其次,我们通过比较较弱的 modality encoders 与较强的 modality encoders 来评估 MoRec,其中强弱由 NLP 任务和CV 任务来决定。

      • 第三,我们比较了在相应的 NLP 数据集和 CV 数据集上进行 pre-training 与未进行任何 pre-trainingmodality encoders

    • Q(iii):这些 foundation models 学到的 representations 是否像声称的那样通用?我们如何有效使用来自 NLP encoder networkCV encoder networkitem modality representationsfoundation models 研究的一个理想目标是开发能够生成 universal representations 的模型,这些 representations 可以直接用于各种下游任务(《Could Giant Pretrained Image Models Extract Universal Representations?》)。我们首先从著名的 modality encoders 中提取 frozen modality features,然后将其作为 common features 添加到推荐模型中,这通常被称为两阶段(two-stage: TS)范式。由于训练效率考虑,这是大规模工业推荐系统的常见做法(《Deep neural networks for youtube recommendations》《Image-based recommendations on styles and substitutes》)。然后我们将 two-stage 与联合或端到端(end-to-end: E2E)训练进行比较,其中后者同时训练 recommendation architecturemodality encoders

      新颖性说明:尽管最近有几篇文献探索了用于推荐的 end-to-end learning,但很少有人明确讨论 two-stageend-to-end 范式之间巨大的准确性和效率差距(超过 100 倍)。更重要的是,大多数文献只讨论了 DSSM 架构(或其他双塔变体),而没有考虑更强大且计算上更昂贵的序列到序列(sequence-to-sequence: seq2seq)训练方法(例如 SASRecNextItNet 《A simple convolutional generative network for next item recommendation》 中使用的)。此外,所有这些工作都仅针对文本推荐,到目前为止,还没有近五年内经过同行评审的文献考虑用于图像推荐的 end-to-end 学习范式。

    除了上述关键问题之外,我们还发现了在使用 end-to-end 学习范式时 MoRec 尚未探索的几个挑战。

1.1 相关工作

  1. ID-based recommender systems (IDRec):在现有的推荐文献中,有无数完全建立在 user/item ID 之上的模型,从早期的 item-to-item collaborative filtering《Amazon. com recommendations: Item-to-item collaborative filtering》)、浅层 factorization models《Matrix factorization techniques for recommender systems》《Factorization machines》),到深度神经模型(《Neural collaborative filtering》《Session-based recommendations with recurrent neural networks》)。它们大致可以分为两类:非序列模型(non-sequential models: NSM)和序列神经模型(sequential neural models: SRM)。

    • NSM 进一步包括:

      • 各种召回模型,例如 DSSMYouTube DNN 《Deep neural networks for youtube recommendations》)。

      • 以及 CTR 模型,例如 DeepFM《DeepFM: a factorization-machine based neural network for CTR prediction》)、wide & deep《Wide & deep learning for recommender systems》)和 Deep Crossing《Deep crossing: Web-scale modeling without manually crafted combinatorial features》)。

      这些模型通常以 user-item pair 以及一些附加特征作为输入,并预测 users and items 之间的匹配分数。

    • 相比之下,典型的 SRMa sequence of user-item interactions 作为输入,并生成 next interaction 的概率。最具代表性的 SRM 包括以 RNNCNNGNNTransformerBERT 为骨干网络的 GRU4Rec《Session-based recommendations with recurrent neural networks》)、NextItNet《A simple convolutional generative network for next item recommendation》《One person, one model, one world: Learning continual user representation without forgetting》)、SR-GNN《Session-based recommendation with graph neural networks》)、SASRec《Self-attentive sequential recommendation》)和 BERT4Rec《BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer》),其中 SASRec 通常在文献中表现最佳(《Comparison of Transformer-Based Sequential Product Recommendation Models for the Coveo Data Challenge》《Tenrec: A Large-scale Multipurpose Benchmark Dataset for Recommender Systems》《Dynamic graph neural networks for sequential recommendation》)。

  2. Modality-based recommender systems (MoRec)MoRec 专注于对 itemsmodality content features 进行建模,例如文本、图像、视频、音频以及 text-image multimodal pairs

    先前的工作倾向于采用两阶段(two-stage: TS)机制:首先从 modality encoder 中预先提取 item modality features,然后将这些 fixed features 纳入推荐模型。更重要的是,这些工作大多将模态作为辅助特征,以 ID 为主要特征。

    E2E-based MoRec 直到最近才流行起来,原因如下:

    • (1)two-stage 机制在架构上对工业 applications 非常灵活,并且需要低得多的计算和训练成本。

    • (2):很少有高质量的具有原始 item modalities 的公共数据集。

    • (3):过去文献中开发的 modality encoder(例如 word embedding )即使通过 End2End训练也不够具有表达能力。

    在过去两年中,一些工作开始探索 E2E-based MoRec,然而,其中大多数专注于文本推荐。最近的一篇预印本 《End-to-End Image-Based Fashion Recommendation》引入了 ResNet 作为 fashion-based recommendationmodality encoder,但不得不依赖 ID 特征来获得有竞争力的准确性。据我们所知,这些现有的经过同行评审的文献中,没有一项在公平的实验设置下(例如确保使用相同的骨干网络进行比较)提供了 MoRec 与其相应 IDRec 对应物的明确且全面的比较研究,尤其是在 non cold-start settings 甚至 warm-start settings中。

1.2 IDRec & MoRec

  1. 推荐模型的一个核心功能是表达 itemsusers 并计算它们的匹配分数。记 I(大小为 |I| )和 U (大小为 |U| )分别为 items 集合和 users 集合。对于 item iI ,我们可以通过其 unique ID i 或其模态内容(如文本特征和视觉特征)来表示它。同样地,对于用户 uU ,我们可以通过 unique ID u 或用户画像来表示该用户,其中用户画像可以是人口统计信息或 a sequence of interacted items

    IDRec 中,我们初始化一个 ID embedding matrix XIR|I|×d ,其中 dembedding 维度。 XI 中的每个向量表示 item i 的潜在空间,可以看作一个简单的 item encoder。在训练和推理期间,IDRecXI 中检索 xiIRd 作为 item iembedding,然后将其馈送到 recommendation network 中。

    MoRec 中,假设 items 包含模态信息。对于 item iMoRec 使用 modality encoderi 的原始模态特征来生成 representation ,并用这个 representation 来替换 IDRec 中的 ID embedding vector。例如,在新闻推荐场景中,我们可以使用 pre-trained BERT or RoBERTa《Roberta: A robustly optimized bert pretraining approach》)作为 text modality encoder,并通过新闻标题的 textual representation 来表示一条新闻。类似地,当 items 包含视觉特征时,我们可以简单地使用 pre-trained ResNet or ViT 作为 vision modality encoder

  2. 在本文中,我们对两种最常采用的推荐范式进行了严格的实证研究:DSSM《Learning deep structured semantic models for web search using clickthrough data》)和 SASRec《Self-attentive sequential recommendation》)。

    • 原始的 DSSM 模型是一种基于双塔的架构,其中 users/items 通过各自的 encoder networks 来编码,而且 user iD/item ID 作为各自的 encoder network 的输入。

    • SASRec 是一种基于多头自注意力(multi-head self-attention: MHSA)(《Attention is all you need》)的著名序列推荐模型,它通过用户交互过的 item ID sequence 来描述用户。

    如前所述,通过用 item modality encoder 来替换 ID embeddings,我们获得了 DSSMSASRecMoRec 版本。我们在 Figure 1 中展示了 IDRecMoRec

  3. 训练细节:记 R 为训练集中所有观察到的 interactions。对于每个正样本 <u,i>∈R ,我们在每个 training epoch 随机采样一个不在 R 中的负样本 <u,j>∉R ,遵循 《Neural collaborative filtering》《BPR: Bayesian personalized ranking from implicit feedback》positive interactionssampled negative interactions interactions 可以形成训练集 Rtrain 。遵循 《Neural collaborative filtering》《Self-attentive sequential recommendation》,我们采用广泛使用的二元交叉熵(binary cross entropy: BCE)损失作为 DSSMSASRec 及其 MoRec 版本的目标函数,以实现公平比较:

    {min{uUi[2,,L[logσ(y^u,i)+log(1σ(y^u,j))]}for SASRecmin{<u,i,j>∈R[logσ(y^u,i)+log(1σ(y^u,j))]}for DSSM

    其中:

    • σ(x)=1/(1+ex)sigmoid 函数。

    • L 是用户 uinteraction sequence 长度。

    • ij 分别表示用户 upositive itemnegative item

    • y^uiuser encoderitem encoderhidden vectors 之间的匹配分(matching score)。

    注意,SASRecuser encoder(通过 seq2seq 训练)在 interaction sequence 的每个位置产生不同的 hidden vector。除非特别说明,在以下实验中,整个推荐模型的所有参数都在训练期间进行优化。

1.3 实验设置

  1. 数据集:我们在三个真实世界数据集上评估 IDRecMoRec,即:

    • 来自微软新闻推荐平台的 MIND 新闻点击数据集(《Mind: A large-scale dataset for news recommendation》)。

    • 来自 H&M 平台的 HM 服装购买数据集。

    • 以及来自在线视频推荐平台的 Bili 评论数据集。

    purchasecomment 可以被视为隐式的 click 信号,因为可以合理地假设用户在购买或发表评论之前已经点击了 item。然而,我们不能假设反过来也成立,这是大多数推荐数据集中的一个常见属性,即 unobserved items 对用户来说可能是正例也可能是负例。

    为了确保 IDRecMoRec 之间的公平比较,所使用的数据集应保证 useritemclicking decisions 完全基于 item 的模态内容特征。直观上,图像或视频的封面、以及新闻文章的标题,在为用户提供对 item 的第一印象方面起着至关重要的作用。这种印象显著影响他们对 itemclick 的决定。因此:

    • MIND 中,我们使用新闻文章标题来表示 item

    • 而在 HMBili 中,我们使用相应的封面图像来表示 item

    尽管如此,这些数据集仍可能无法完美满足要求。特别是在 HM 数据集的电子商务背景下,item 的封面图像、价格和销量等因素可能共同影响用户点击 item 的决定(参见 Figure 2)。这意味着在 HM 数据集中仅依靠封面图像可能不足以让 MoRec 有效地捕获这些 non-visual features,因为封面图像是 item encoder 的唯一 input。相比之下,众所周知 IDRec 能够从 latent embedding space 中隐式地学习这些特征(《Matrix factorization techniques for recommender systems》)。也就是说,如果考虑更理想的数据集或更有用的内容特征,MoRec 的性能仍有提升空间。

    为了构建实验数据集,我们分别从 BiliHMMIND 中随机选择了大约 400K500K600K 用户。然后,我们进行基本的预处理:

    • 将所有图像的大小设置为 224x224

    • 将所有新闻文章的标题设置为最多 30 tokens(覆盖 99%descriptions )。

    • 对于MIND,我们为每个用户选择 latest 23 items 来构建 interaction sequence。对于 HMBili,我们选择最近的 13interactions,因为 encoding images 需要更大的 GPU 内存(尤其是在 SASRec 架构下)。

    • 遵循 《BPR: Bayesian personalized ranking from implicit feedback》,我们删除了 interactions 少于 5 次的 users,这仅仅是因为本文不考虑 cold user settings

  2. 超参数:

    • 对于所有方法,我们采用 AdamW 作为默认 optimizer,并发现 dropout rate = 0.1(即删除 10%parameters))在验证集上提供了最优结果。关于其他超参数,我们遵循常见做法并进行了广泛的搜索。

    • 对于 IDRec,我们从 {1e3,5e4,1e4,5e5} 中调优学习率 γ ,从 {64,128,256,512,1024,2048,4096} 中调优 embedding/hidden size d 。我们将 DSSMbatch size b 设为 1024SASRecbatch size b 设为 128

    • 对于 MoRec,我们将 DSSMSASRecd 都设为 512 ;由于 GPU 内存限制,DSSMSASRecbatch size b 分别设为 51264

      鉴于 modality encoder(例如 BERTResNet )已经具有良好预训练好的参数,我们为 modality encoder 使用比 recommender model 其他部分相对更小的 γ 。也就是说,我们从 {1e4,5e5,1e5} 中为 pre-trained modality encoder network 搜索 γ ,并为其他 randomly initialized parameters 的部分将 γ 设为 1e4

    • 最后,我们从 {0.1,0.01,0} 中调优 IDRecMoRecweight decay β

    • 对于 DSSM 中使用的多层感知机(multilayer perceptron: MLP),我们最初将其中间层大小也设为 d ,并从 {0,1,3,5} 中搜索层数 l ,但发现 l=0 (即 no hidden layers )总是产生最佳结果。

    • 对于 SASRec 中使用的 Transformer block ,我们将 l 设为 2multi-head attentionhead 数设为 2 以获得最优结果。

    • 除非另有说明,所有其他超参数在 IDRecMoRec 中保持相同。

  3. Comparison Settings

    • 为了公平比较,我们确保 IDRecMoRec 除了 item encoder 外具有完全相同的网络架构。对于 text encodersvision encoders,我们将其 output item representations 传递到一个 DT-layer(见 Figure 1dimension transformation layer)进行维度变换。

    • 关于超参数设置,我们的原则是确保 IDRec 在学习率 γembedding 维度 d 、层数 ldropout rate ρ 方面得到充分调优。而对于 MoRec,我们尝试首先使用与 IDRec 相同的超参数集,然后在 best choices 附近进行一些基本搜索。因此,除非特别说明,我们不保证 MoRec 报告的结果是最好的,因为为 MoRec 搜索所有可能的超参数非常昂贵且耗时,有时比 IDRec 多花费 100 倍以上的计算和训练时间(尤其是对于 vision,见 Table 6 )。因此,如何有效找到 MoRec 的最优超参数是一个重要但尚未探索的研究课题。

      考虑到 MoRecFLOPs 要大得多,因此其 online inference 会是一个瓶颈。

  4. 评估:

    • 我们采用标准的留一法(leave-one-out)策略将数据集划分为训练集、验证集和测试集。具体来说,每个用户的 latest interaction 用于评估,倒数第二次 interaction 用作验证以搜索超参数,所有其他 interactions 用于训练。

    • 我们使用两个流行的 top-N ranking metrics 评估所有模型:HR@N(命中率 Hit Ratio)和 NDCG@N(归一化折损累积增益 Normalized Discounted Cumulative Gain),其中 N 设为 10

    • 我们通过将 ground-truth target itemitem pool 中所有剩余 items 进行比较来对 ground-truth target item 进行排序。

    • 最后,我们在测试集上报告结果,但通过验证集找到最佳超参数。

1.4 实验结果

1.4.1 Comparative Studies (Q(I))

  1. 根据现有文献,MoRecnew item recommendation settingscold-start item recommendation settings 中可以轻松击败 IDRec《Content-aware neural hashing for cold-start recommendation》《Visually-aware personalized recommendation using interpretable image representations》《Adversarial training towards robust multimedia recommender system》)。我们在附录 A.1 中报告了这些结果。本文我们专注于在更具挑战性的 setting 中评估它们:常规推荐场景(mixture of warm and cold items)和 warm-start item recommendation 场景,在这些场景中 IDRec 通常非常强大。据我们所知,现有文献中尚未明确讨论过此类比较。

    如前所述,我们使用两种最重要的推荐架构(即 DSSMSASRec)来评估 IDRecMoRec

    • 当物品具有文本特征时,我们使用 pre-trained BERT and RoBERTa 作为 modality encoders

    • 当物品具有视觉特征时,我们使用 pre-trained ResNet and Swin Transformer 作为 modality encoders

    注意对于 BERTRoBERTa ,我们在 [CLS] tokenfinal representation 上添加了 DT-layer(见 Figure 1)。我们在 Table 2 中报告了 regular setting(即原始分布)下测试集的结果,在 Table 3 中报告了 warm-start setting(删除 cold items 后)的结果。

  2. MoRec vs IDRec (Regular Setting):如 Table 2 所示:

    • 我们观察到无论使用何种 item encoding 策略,DSSM 始终大幅逊于SASRec

      • 例如,基于 SASRec-based IDRec 在新闻推荐的 HR@10 上比基于 DSSM-based IDRec 好约 4.9 倍,尽管它们的训练集、验证集和测试集完全相同。

      • 图像推荐的性能差距相对较小,在 HMBili 上分别约为 1.4 倍和 2.7 倍。

      这与许多先前文献 《Session-based recommendations with recurrent neural networks》《Self-attentive sequential recommendation》一致,即用 interacted item sequencerepresenting and modeling users ,通常比将它们作为单个 userID 处理更强大。

    • 其次,我们注意到:

      • DSSM 架构下,即使使用 SOTAmodality encoderMoRec 在所有三个数据集上的表现都远差于 IDRec,尤其是在视觉推荐场景中。

      • 相比之下,在 SASRec 架构下,MoRecMIND 上使用三种文本编码器(即 BERT_smallBERT_baseRoBERTa_base)中的任意一种都持续取得优于 IDRec 的结果。例如,使用 RoBERTa_base 文本编码器时,MoRec 在两个评估指标上比 IDRec 高出超过 5%。同时,当使用 Swin Transformer 作为 modality encoder 时,MoRec 表现与 IDRec 相当;但在使用 ResNet50 时表现相对较差。

      MoRecDSSMSASRec 之间的性能差异可能暗示,需要一个强大的 recommendation backboneSASRec vs DSSM)和训练方法(seq2seq vs <u,i> pair)来充分发挥 modality-based item encoder 的优势。鉴于 MoRecDSSM 上的糟糕结果,我们后续主要关注 SASRec 架构。

  3. MoRec vs IDRec (Warm Item Settings):为了验证 MoRecIDRecwarm item recommendation 中的性能,我们构建了具有不同 item popularity 的新数据集。我们在 Figure 3 中展示了原始数据集的 item popularity 分布。对于每个数据集,我们从原始数据集中删除 interactions 次数少于 2050200 次的 items 。我们在 Table 3 中报告了所有三个数据集的推荐准确性。可以看出:

    • warm-20warm-50warm-200IDRec 变得越来越强。在 warm-20 数据集中,MoRec 略优于 IDRec,而在 warm-200 中,对于文本推荐,MoRec 略差于 IDRec。根据现有文献(《Autodebias: Learning to debias for recommendation》《Sampling-bias-corrected neural modeling for large corpus item recommendations》《Lambdafm: learning optimal ranking with factorization machines using lambda surrogates》),这是合理的,因为众所周知 IDRec 擅长对 popular items 进行建模。

    • 但即使在这些 warm-start setting 中,MoRec 仍然与 IDRec 相当。这一特性很有吸引力,因为众所周知 MoReccold-start setting 中可以轻松击败 IDRec(见附录),并且在 tranfer learningcross-domain recommendation 方面具有天然优势。

      更进一步,最近的工作表明,大型 MoRec 模型有潜力成为 foundation recommendation models《One4all user representation for recommender systems in e-commerce》《Scaling law for recommendation models: Towards generalpurpose user representations》),能够实现 "one model for all" 的雄心勃勃的目标(《One4all user representation for recommender systems in e-commerce》《TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback》)。

  4. 上述结果揭示了以下见解:

    • (1)MoRec 的推荐架构( seq2seq SASRectwo-tower DSSM)对其性能影响非常大。

    • (2):其 item modality encoder 也影响 MoRec 的性能。

    • (3) (问题 Q(i) 的答案):配备最强大的 modality encoder,在使用 sequential neural network recommendation architecture 时,MoRec 在文本推荐(包括 cold item settingswarm item settings )中基本上可以击败其对应的 IDRec,并在视觉推荐中与 IDRec 相当。然而,在 regular settingwarm-start setting 中,MoRec 似乎不太可能通过典型的 DSSM 训练方法取代 IDRec

    • (4):尽管 MoRecvery popular item recommendation 中不能击败 IDRec,但它们仍然表现出非常有竞争力的结果。据我们所知,这是第一篇明确声称 pure MoRec 可以与 pure IDRec 相媲美的论文(当它们在相同的 sequential recommendation architecture 下进行比较时),即使在极具挑战性的 warm item recommendation 中也是如此。

1.4.2 Inherit Advances In NLP & CV? (Q(II))

  1. 直观上,MoRec 有潜力将来自其他社区(如 NLPCV )的强大的 representation learning 技术引入推荐任务。然而,这尚未得到正式研究。在此,我们问:NLPCV 的最新进展能否转化为推荐任务准确性的提升?我们试图从以下角度回答这个问题。

  2. 首先,我们研究更大的 pre-trained modality encoder 是否能带来更好的推荐准确性,因为在 NLPCV 中,更大的 pre-trained models 在相应的下游任务中通常提供更高的性能。如 Figure 4 所示,更大的 vision item encoder 总是能实现更好的图像推荐准确性,即:

    类似地,我们发现:

    一个不同之处是,BERTbase-based MoRec并未优于基于 BERTsmall-based MoRec,尽管后者是更小的 BERT 变体。我们得出结论,一般来说,来自 NLPCV 的更大、更强大的 modality encoder 往往会提高推荐准确性,但这可能并不严格适用于所有情况。

  3. 其次,我们研究更强的 encoder network 是否能带来更好的推荐。例如,公认的是 RoBERTa 优于 BERT《Roberta: A robustly optimized bert pretraining approach》),而 BERT 优于单向 GPT《Improving language understanding by generative pre-training》)(如 OPT《Open pre-trained transformer language models》)),用于大多数 NLP 理解任务(而非 NLP 生成任务),在相似的模型大小下;并且 Swin Transformer 通常在许多 CV 任务中优于 ResNet《Swin transformer: Hierarchical vision transformer using shifted windows》)。此外,这些现代 pre-trained NLP foundation models 轻松优于 TextCNN《Convolutional Neural Networks for Sentence Classification》)和 GloVe《Glove: Global vectors for word representation》),这两个约十年前开发的著名浅层模型。如 Figure 4 所示,MoRec 的性能与 NLPCV 中的发现保持一致,即:

    Swin-TResNet50 具有相似的模型大小,RoBERTa_baseBERT_baseOPT125M 也是如此)。

  4. 第三,我们研究 pre-trained modality encoder 是否比其从头训练(training-from-scratch: TFS)版本(即随机初始化)产生更高的推荐准确性。毫无疑问,pre-trained BERT, ResNet, and Swin 相对于它们的 TFS 版本大幅提升了相应的 NLPCV 任务。我们在 Table 4 中报告了测试集上的推荐结果。

    • 可以清楚地看到,pre-trained MoRec 获得了更好的最终结果。特别是,在 HMBili 上,使用 pre-trained modality encoderResNetSwin )的 MoRec 实现了约 10% 的提升,这也与 NLPCV 领域的发现一致。

    • 我们还通过从 MINDHMBili 中随机抽 50K users 构建了较小版本的数据集。可以看出, pre-trained modality encoder 相对于 TFS 的优势在小数据集上更为明显。然而,我们发现 pre-trained BERTbaseMIND-50K 上甚至比其 TFS 版本更差。

  5. 根据上述实验,我们得出结论(问题 Q(ii) 的答案):MoRecrecommendation system 和其他多媒体社区建立了联系,并且通常可以继承来自 NLPCV 领域的最新进展。这是一个非常好的特性,意味着一旦未来相应研究领域出现新的突破,MoRec 将有更多的机会和更大的改进空间。

1.4.3 Are Modality Rpresentations Universal For RS? (Q(III))

  1. NLPCV 中的 foundation models 被期望生成 generic representation,然后可以直接用于 zero-shot setting 下的下游任务。然而,它们大多数仅在部分传统任务(《Grounded language-image pre-training》《Learning transferable visual models from natural language supervision》)(如图像和文本分类)上进行了评估。我们认为预测 user preference 比这些客观任务更具挑战性。

    为了清楚地看到这个问题,我们评估了两种训练方法。

    • 第一种方法是预先通过 modality encoder 提取 modality features,然后将它们添加到推荐模型中(《Ups and downs: Modeling the visual evolution of fashion trends with one-class collaborative filtering》《VBPR: visual bayesian personalized ranking from implicit feedback》),称为两阶段(two-stage: TS)流水线。由于训练效率高,TS 在真实世界的工业 applications 中特别流行,这些 applications 通常有数亿个训练样本。

    • 第二种方法是上述所有实验中使用的,以端到端方式同时优化 user and item encoders

    Table 5 所示,我们发现 TS-based MoRec 显示出惊人的差的结果,相比 IDRecE2E-based MoRec 。特别是,使用 ResNet 时,在 HMBili 上它仅达到 E2E MoRec 性能的约 60%25%。为了更好地适配,我们还在这些 fixed modality features 之上添加了许多 dense layers。如 Table 5 所示,这确实可以提高 TS 的性能;然而,它仍然远差于 IDRecE2E-based MoRec,尤其是对于视觉推荐。

    结果表明,通过这些 NLPCV 任务学到的 modality features 对于推荐问题来说不够通用,因此与新数据上的重新训练(即 End2End 范式)相比,推荐结果更差。好消息是,通过适当的适配(即 TS-DNN),基于 TS-based MoRec 在未来有潜力与 E2E MoRec 在文本推荐上竞争(16.66 vs 18.23)。

    因此,我们想明确提醒 Recommendation System 研究人员和从业者(问题 Q(iii) 的答案):

    • 首先,流行的两阶段推荐机制会导致显著的性能下降(尤其是对于图像推荐),这在实践中不应被忽视。

    • 其次,对于 NLPCV 研究人员,我们想向他们展示,尽管 Foundation Model 取得了革命性的成功,但到目前为止,它们的representation features 还不够通用,至少对于 item recommendation 而言。

    注意:这里的 E2E 采用了 pre-trained encoder,而不是从头开始训练。

1.4.4 Key Challenges (Q(IV))

  1. E2E-based MoRec 以前研究较少,尤其是对于视觉推荐。在此,我们提出几个关键挑战和一些社区可能没有意识到的意外发现。

  2. Training cost。如 Figure 4 所示,具有更大 modality encoderMoRec 往往比较小 modality encoder 表现更好,然而,训练计算量、时间和 GPU 内存消耗也会增加,特别是对于具有很长交互序列的 seq2seq 架构。

    我们在 Table 6 中报告了 HM(接近 Bili )和 MIND上的训练成本细节。事实上,不难想象 MoRec 会比 IDRec 消耗更多的计算资源和时间。然而,很难想象最佳的 MoRec(以 SASRecuser encoderSwin-Bmodality encoder )比 IDRec 多花费超过 100 倍的计算和训练时间。这在文献中尚未被明确揭示。这也可能是为什么没有正式的出版物将 seq2seq user encoderE2E-learned item modality encoder 结合用于 MoRec,特别是对于图像推荐。注意,在实践中,不一定需要优化 modality encoder 的所有参数,对于某些数据集,微调 modality encoder 的少数 top layers 可以达到相当的结果。

    另一方面,尽管 E2E-based MoRec 在训练时非常昂贵(类似于 NLPCV 中的 Foundation Model),但它已被证明能够实现 foundation recommendation models,从而释放更多用于训练特定模型的劳动力(《One4all user representation for recommender systems in e-commerce》《Scaling law for recommendation models: Towards generalpurpose user representations》)。

  3. Extra pre-training:使用下游数据集对 modality encoder 进行第二轮 pre-training 在许多机器学习文献中通常效果良好(《Don’t stop pretraining: adapt language models to domains and tasks》《How to fine-tune bert for text classification?》)。在此,我们探索这是否能为 MoRec 带来改进的结果。遵循 BERTpre-training,我们采用 masked language model: MLM 目标在 MIND上训练 MoRec 的文本编码器(记为 BERTbase-MLM)并在 Table 8 中报告结果。如结果所示,BERTbase-MLMTS 模型和 E2E 模型上都获得了比 BERTbase 更高的准确性。

    类似地,我们探索这在视觉编码器上是否成立。注意,之前实验中使用的 ResNetSwin Transformer 是以监督方式预训练的,但 HMBili 都不包含 supervised image labels。为此,我们转而使用 MAE《Masked autoencoders are scalable vision learners》),这是一种以无监督方式预训练的 SOTA 的图像编码器,类似于 MLM 。我们发现:

    • MAEbase-MLMHM 上使用 TS 模型时明显优于标准 MAEbase,但在 E2E 模型上获得微小增益。

    • 相比之下,在 Bili 上没有观察到准确性提升。

    通过检查 Figure 2 中的图像案例,我们发现 Bili 中的图片主题非常多样,比HM(仅包含非常简单的时尚元素)更具挑战性。

    我们的结论是,第二轮预训练的有效性取决于具体数据集;更重要的是,对于 E2E MoRec 似乎很难获得较大的准确性提升。

  4. Combing ID & modality features:鉴于 IDRecE2E-based MoRec 都表现良好,一个自然的想法是将这两种特征(即 IDmodality)结合在一个模型中。我们对此进行了评估,如 Table 7 所示。我们考虑了两种特征组合方式:加法和拼接。令人惊讶的是,我们发现基于 TS-based MoRecE2E-based MoRec 相比 IDRecMoRec 之间的最佳结果都没有提升。通过添加 ID 特征,E2E-based MoRec 甚至比 pure IDRecpure MoRec 表现更差。我们的结果与之前的文献有些矛盾,后者通常声称通过为IDRec 添加 modality featuresmultimedia features 可以获得更好的结果(《Ups and downs: Modeling the visual evolution of fashion trends with one-class collaborative filtering》《VBPR: visual bayesian personalized ranking from implicit feedback》《Metadata embeddings for user and item cold-start recommendations》)。

    • 一个原因可能是,在 regular (vs cold-start) setting 中,E2E-based MoRecIDRec 都从 user-item interaction data 中学习 user preference,因此它们无法互补;而对于 TS-based MoRec,由于 ID embeddings 远好于 frozen modality features,它们的结合也没有提升结果。

    • 第二个原因可能是,结合 IDmodality features 需要更先进的技术。事实上,从另一个角度看,MoRec with ID features 将失去 MoRec 的许多优势(见引言章节)。例如,MoRec with ID features 不适合构建 foundation recommendation models,因为 ID 由于隐私问题和 overlapping 问题从而不易迁移。

  5. Model collapse:与 IDRec 不同,我们发现一个非常令人惊讶的现象:在没有适当超参数(主要是学习率 γ )的情况下训练MoRec 很容易导致模型坍塌(model collapse)。如 Figure 5 所示:

    • γMγR 都等于 0.0001 时,MoRecMIND 上的性能从 16% 急剧下降到 0

    • 更糟糕的是,当 γM=0.0001γR=0.001 时,MoRec 从一开始就坍塌了。

    • 类似地,MoRecHM 上进行图像推荐时也存在这个问题。

    然而,通过仔细搜索超参数,我们发现 MoRec 通常可以通过适当的学习率 γ 良好训练。值得注意的是,有时需要为 item modality encoder 和其他模块设置不同的学习率。这可能是因为 item modality encoder 已经在 NLPCV 数据集上进行了预训练,其 learning stride 可能与从头训练的其他模块不同。相比之下,即使使用许多不同的 γIDRec 也不会坍塌。据我们所知,我们的这些发现尚未在文献中报道。

1.5 结论与未来工作

  1. 在本文中,我们研究了一个雄心勃勃但未被充分探索的问题:MoRec 是否有机会结束 IDRec 的主导地位。显然,这个问题无法在一篇论文中完全回答,需要来自 Recommendation System 甚至 NLPCV 社区的更多研究和努力。然而,这里的一个主要发现是,使用 SOTAE2E-trained modality encoder,即使在 non cold-start item recommendation setting 中,现代 MoRec 在典型的推荐架构(即 Transformer 骨干网络)下已经可以表现得与 IDRec 相当或更好。此外,MoRec 可以很大程度上受益于 NLPCV 领域的技术进步,这意味着它在未来有更大的准确性改进空间。鉴于此,我们相信我们的研究是有意义的,并可能激发更多关于 E2E-based MoRec 的研究,例如开发更强大的推荐架构(特别是对于 CTR 预测任务)、更具表现力和泛化能力的 item encoders、更好的 item & user fusion 策略,以及更有效的优化以减少 compute & memory costs and the longer training time。我们还设想,从长远来看,当 item raw modality features 可用时,Recommendation System 的主流范式有可能从 IDRec 转向 MoRec

  2. 如上所述,本研究仅是对 MoRec 的初步探索,存在几个局限性:

    • (1):我们只考虑了仅包含文本和视觉的 Recommendation System 场景,而 MoRec 在其它模态(如语音和视频)上的行为仍然未知。

    • (2):我们只考虑了 single-modal item encoders,而 multimodal MoRec 的行为未知。

    • (3):我们只考虑了一种非常基本的将 modality encoder 融合到推荐模型中的方法,因此 MoRec 可能未达到最优性能。

    • (4):我们的观察是在三个中等规模的数据集上进行的,如果像真实工业系统中那样将训练数据扩展到 100 倍或 1000 倍,关键发现是否仍然成立尚不可知。

二、附录

2.1 MoRec vs IDRec on cold-start settings

  1. MoRec 天然适合 cold item recommendation,因为它们的 modality encoder 是专门为建模 itemraw modality features 而开发的,无论 item 是否冷门。为了验证这一点,我们在两种场景下评估 IDRecMoRecCOLD item settingNEW item setting

    具体来说,我们统计了训练集中所有 itemsinteractions 次数,将出现少于 10 次的视为 cold items 。我们发现原始测试集中的 cold items 数量非常少。因此,我们再次进行了一个月的数据爬取,然后选择了包含这些 cold items (作为 cold item setting)和未出现在训练集中的 items(作为 new item setting)的用户序列。我们在 Table 9 中报告了结果。

    正如预期,MoRec 在所有三个数据集的文本和视觉模态下,在 cold item settingnew item setting 中始终且大幅优于IDRecMoRec 的优越性来自于 modality encoder 的强大 representations,这些 modality encoder 事先在大型文本和图像数据集上进行了预训练。