2025_QARM

一、 QARM [2025]

《QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou》

近年来，随着多模态大模型的快速发展，推荐系统研究者逐渐意识到多模态信息（multi-modal information）在用户兴趣建模（user interest modeling）中的潜力。在工业界，下述级联式（cascading paradigm）建模架构被广泛应用：
- (1)：先预训练一个多模态模型，为下游服务提供通用表征（omnipotent representations）。
- (2)：下游推荐模型将该多模态表征（multi-modal representation）作为额外输入，从而拟合 real user-item behaviours 。
尽管该范式取得了显著效果，但仍存在两个限制模型性能的核心问题：
- (1) 表征失配（Representation Unmatching）：pre-trained multi-modal model 通常以经典的 NLP/CV tasks 为监督目标，而推荐模型以 real user-item interaction 为监督信号。两类任务的目标是本质不同的，导致 representations 缺乏一致的目标（ consistent objective ）。
- (2) 表征固化（Representation Unlearning）：generated 的 multi-modal representations 被存储在缓存中，作为推荐模型的fixed input，无法通过推荐模型的梯度进行更新，不利于下游任务的训练。
本研究受下游任务应用中的这两大挑战的启发，提出一种量化多模态框架（quantitative multi-modal framework ），即 QARM ，为不同下游模型定制专用的且可训练的多模态信息。具体而言，我们通过两项关键改进来增强框架性能：
- (1) Item Alignment：将原始 multi-modal representations 转换为与 real user-item behaviours distribution 匹配的形式；
- (2) Quantitative Code：将 aligned multi-modal representations 转换为 trainable code ID，从而用于下游任务训练。
我们通过详细的离线实验、消融分析验证了 QARM 的有效性，该方法已在 Kuaishou 的多个业务线部署，日均服务 400M 用户。
Kuaishou 是中国最大的短视频和直播平台之一。作为新型信息分享媒介， Kuaishou 吸引了海量用户观看/创作短视频，部分用户还会在观看电商带货短视频（或直播后）完成商品购买。为从数十亿短视频库中筛选出用户最感兴趣的内容、提升用户体验，强大的推荐系统（recommender system: RecSys）是支撑 Kuaishou 业务发展的核心基石。通常，构建高性能推荐模型的核心思路是：基于海量的 real-time user-item interaction data，结合大量人工设计的 input features 进行模型训练。过去几年，推荐领域研究者提出了诸多里程碑式工作，对 ID-based features 进行精细化设计以支撑 model input ，例如 cross ID features （如 FM、DCN）、list-wise ID features （如 DIN、TWIN）等。近年来，随着多模态大模型（如 GPTs）的快速演进，推荐领域研究者逐渐意识到多模态信息在推荐系统中的潜力——通过理解 item 的语义信号（semantic signal），实现更智能的推荐。尤其在 Kuaishou 平台，短视频和直播是高度集成的多模态媒体，仅通过 ID embedding 难以充分理解其语义。
然而，尽管多模态大模型（multi-modal large language models: MLLMs）能力强大，但其训练和推理的计算成本极高。考虑到工业级推荐服务需处理海量在线请求（online requests），直接将大型多模态 module 添加到推荐模型并不现实（《Advertising with Multimodal Representations: Challenges, Approaches and Insights》）。为缓解计算压力，据我们所知，许多企业采用 two-step 部署方案将多模态语义信息融入推荐模型（如 Figure 1 所示）：
- (1)：预训练一个多模态大模型（MLLM），将 item 的文本、视觉、以及音频信息压缩为通用表征（omnipotent representation），存储在缓存中，为下游模型提供语义知识（semantic knowledge）。
- (2)：下游模型根据训练样本信息，提取对应的 multi-modal representation 作为 input features 的一部分，提升预测能力。
Kuaishou 的推荐模型同样采用了该部署方案，并在电商、广告短视频、以及直播推荐等多个业务中取得了显著的 online A/B 增益。然而，这种非端到端框架存在两个明显问题，限制了模型性能上限：
- (1) 表征失配（Representation Unmatching）：常见的多模态特征通过自监督任务（如 image-text matching）来获取，而 ID-based features 以 user interaction history 为监督信号。这种差异导致多模态信息与推荐知识难以在下游训练中统一，进而影响模型效果。由此引发一个关键问题：如何增强 multi-modal representation 与下游任务的一致性？
- (2) 表征固化（Representation Unlearning）：实际应用中，新增的多模态特征不会随推荐系统的训练而更新。相比之下，离散的 ID-based features（如 user ID, item ID）可通过推荐模型分配对应的 embedding spaces，利用 real-time user-item interaction data 进行端到端的优化。因此，静态的 multi-modal representations 限制了模型的拟合能力，阻碍了训练的收敛。这引出了第二个关键问题：如何端到端地优化 multi-modal representations ？
受下游任务应用中的这两大挑战的启发，本文提出一种高效的多模态信息增强（multi-modal information enhancement）方案——量化对齐多模态推荐算法（Quantitative Alignment Multi-Modal Recommendation: QARM）。具体而言，QARM 通过两大核心流程解决上述问题：item 对齐机制（Item Alignment）增强 representation consistency ，量化编码机制（Quantitative Code）生成 learnable code ID 用于下游任务。
- Item Alignment 机制：为解决 representation unmatching 问题并增强 representation consistency，我们为 pre-trained multi-modal model 设计了定制化的 fine-tuning 方案。原因在于，不同业务具有独特属性，下游任务所需的 multi-modal representation 应反映对应的业务特性（business characteristics）。例如：
  - 电商短视频推荐中， different categories of goods 之间的因果关系更为重要。
  - 而通用短视频推荐中，same category 内物品的关联更关键。
  因此，fine-tuning 范式需针对不同下游业务来定制。为了实现这一点，我们插入了一个 pre-order item alignment 机制，以使用相应的 business data 来微调多模态模型，以确保 MLLM representation 能够准确反映在每个场景中观察到的 actual user-item interaction patterns 。
- Quantitative Code 机制：为解决 representation unlearning 问题从而实现多模态信息的充分适配，受 code hashing 和 straight-through estimator 思想的启发，我们考虑为下游任务生成 Semantic IDs。具体而言，在获得 fine-tuned multi-modal representation 后，我们提出两种简单有效的启发式方法构建 quantization codebooks。codebooks 被训练完成后固定不变，用于度量 fine-tuned multi-modal representation 并计算对应的 Semantic IDs。最终，在下游推荐模型训练中，为 Semantic IDs 分配对应的 embedding space，结合 real user-item interaction data 进行端到端的训练。
综上，本文的主要贡献如下：
- 提出 QARM 算法，有效解决工业界多模态信息 applications 的两大核心限制。item alignment 机制为下游业务生成一致性的 multi-modal representations ，quantitative code 机制进一步将其压缩为 learnable semantic IDs 从而用于端到端训练。
- 进行了全面的离线实验和消融分析，验证了 QARM 各组件的有效性；线上实验显示，QARM 使广告业务收入提升 9.704%，电商业务商品交易总额（GMV）提升 2.296%。
- QARM 自 2024 年 3 月起已在 Kuaishou 多个业务线广泛部署，支撑 400 million 日均活跃用户。

1.1 相关工作

基于 multi-modal information fusion 的 contrastive learning：早期方法将 “现成” 的 multimodal representations 作为 fixed features 或 conjunction with structural relationships 融入推荐框架。例如：
- VBPR （《VBPR: visual Bayesian Personalized Ranking from implicit feedback》）通过线性变换核（linear transform kernel ）将视觉特征（visual features ）融入矩阵分解（Matrix Factorization），再与 ID embedding 进行拼接。
- LATTICE （《Mining Latent Structures for Multimedia Recommendation》）利用视觉 embedding 和文本 embedding 构建亲和图（affinity graphs），为协同过滤模型（collaborative filtering model）提供多模态 item-item relationships 。
- BM3 （《Bootstrap Latent Representations for Multi-modal Recommendation》）通过自监督学习在协同过滤任务（collaborative filtering task）中对齐模态间和模态内的 representations。
为进一步提升 modality-driven recommendations 的性能，multi-modal pre-training 至关重要。
- DVBPR （《Visually-Aware Fashion Recommendation and Design with Generative Image Models》）扩展 VBPR，将 CNN visual encoder 与 Matrix Factorization 任务联合训练；
- AlignRec （《AlignRec: Aligning and Training in Multimodal Recommendations》）以 BEiT3 （《Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks》）为 backbone,，通过 mask-then-predict 策略预训练 visual-text alignment 任务，再基于fixed multimodal representations 与 ID representation 进行对齐。
- 《Enhancing Taobao Display Advertising with Multimodal Representations: Challenges, Approaches and Insights》在预训练阶段采用 semantic-aware contrastive learning，利用 user’s search query and subsequent purchase item 构建 positive sample pairs，基于 fixed multimodal representations 通过 SimTier 和 MAKE 来提取特征。
与现有方法不同，本文通过 pre-training 阶段将 multimodal representation 与下游业务特定的 item-item relationships 进行对齐，并利用 quantitative code mechanisms 实现推荐模型的端到端训练。
推荐系统中的 quantitative multi-modal representation：discrete quantization representations 通过将向量分解为多个 discrete code representations 来精确逼近原始向量，已在多个领域被广泛应用。
- 乘积量化（Product Quantization: PQ）将高维向量划分为子向量并独立地量化每个子向量（《Vector quantization》）。
- 残差量化（Residual Quantization: RQ）是 PQ的扩展，专注于量化前一次量化后的残差（《Regularized Residual Quantization: a multi-layer sparse dictionary learning approach》、《Stacked quantizers for compositional vector compression》），以提升 quantized representation 的准确性。
在推荐系统中，content discrete representations（又被称为 semantic IDs）被广泛应用。semantic IDs 能促进语义相关 items 的碰撞（collisions），提升推荐模型的泛化能力。
- TIGER （《Recommender systems with generative retrieval》）采用 RQ-VAE （《Autoregressive image generation using residual quantization》）对 item 的 content embedding presentations 进行离散化，再通过自回归模型来预测用户感兴趣的 next item 的 semantic ID 。
- 《Better generalization with semantic ids: A case study in ranking for recommendations》 证明，hierarchical Semantic IDs 可替代 ranking 模型中的 item IDs，实现更优的泛化效果。

1.2 方法

本节详细介绍 QARM 的核心组件，包括 item alignment 机制和 quantitative code 机制。

1.2.1 Item Alignment of QARM

Multi-modal representations 能显著增强推荐模型中的 user-side features、item-side features 和 target-aware historical item lists。然而，由于表征失配（Representation Unmatching）问题的持续存在，多模态信息的效用受到限制。现有方法通常通过额外的对比学习模块将 item IDS 与其 multi-modal representations 对齐。然而，这类 contrastive loss 的 ground-truth 不够 diverse（例如，一个 item 的 MLLM representation 仅与自身 item ID embedding 作为正样本 pair），导致能力较弱且易过拟合。
不同于 contrastive learning objective，为确保多模态特征与特定业务的用户行为决策（user behavior decisions）相关，我们考虑在 representation 馈入下游模型前，利用下游业务的真实 interaction data 对 multi-modal representation 进一步微调。具体实现上，我们构建了一个 pure multi-modal representation input only alignment模型，并利用现有 retrieval model 的知识监督其学习，以反映真实的业务特性（business characteristics）。具体步骤如下：
- item2item pairs dataset $\mathcal D$ ：
  - 基于 User2Item retrieval model，对于每个 user positive clicked target item，从该用户最近点击的 50 个 positive clicked items 中，选择 ID representation space 中相似度最高的 item 作为 trigger item。
    User2Item retrieval model 可以导出 item embedding table。对于每个 user positive clicked target item，然后在 historical positive clicked items 中，根据 item embedding 选择相似度最高的一个 item 作为对比学习的 positive pair 。
    问题：为什么必须从用户最近点击的 50 个 items 中选择，而不是在全局 item embedding space 中选择？
    回答这个问题需要从业务逻辑和模型目标出发。以下是可能的原因：
    1. 保证正样本对的相关性：用户最近点击的 50 个 items 代表了该用户的短期兴趣，从这些 items 中选择与 target item 最相似的 item 作为 trigger，可以确保 trigger 和 target 在用户兴趣层面是相关的。如果在全局空间中选择最相似的 item，可能虽然 item 在内容上相似，但与用户当前的兴趣无关，这样的 positive pair 可能无法很好地反映用户的行为模式。
    2. 避免引入全局热门物品：全局 item embedding space 中最相似的 item 可能是全局热门的 item，这些 item 可能与许多 item 都相似，导致 positive pair 缺乏区分度。而从用户最近点击的 items 中选择，可以保证trigger item 是用户实际感兴趣的，避免热门 item 的干扰。
    3. 模拟真实用户行为序列：推荐系统中的用户行为往往具有序列性，用户当前的点击往往受到最近行为的影响。从最近点击的 items 中选择 trigger，可以更好地建模用户兴趣的演变，使对齐后的多模态表征能够捕捉到这种序列依赖关系。
    4. 增强个性化：不同用户对相似 item 的偏好可能不同。从用户自身的历史中选择，可以保证 trigger item 是个性化的，与用户的兴趣偏好一致。全局选择可能会忽略用户的个性化偏好。
    5. 减少噪声：全局 item embedding space 可能包含大量用户从未接触过的 items，这些 items 可能与 target item 在内容上相似，但用户可能对它们不感兴趣，甚至可能是无关的。从用户历史中选择，可以保证 trigger item 是用户已经认可的 item，减少噪声。
    6. 与下游任务一致：下游推荐模型通常利用用户历史行为来预测下一个点击（target item）。因此，在构建对齐模型时，使用用户历史行为作为 trigger 的来源，可以使多模态表征更适应下游任务。
    总结：从用户最近点击的 50 个 items 中选择 trigger item，是为了保证 positive pair 具有用户兴趣相关性和个性化，同时减少全局热门 item 和噪声的影响，更好地模拟真实用户行为，从而使学习到的多模态表征更适合下游推荐任务。
  - 基于 Item2Item retrieval model，利用现有模型学到的稳定的高相似度的 item pairs 作为 data sources，例如从Swing retrieval model 中导出数据。
    Swing 算法是一种基于图的协同过滤算法，主要用于计算 item 之间的相似度。其核心思想是：如果两个 item 被很多用户同时交互过，且这些用户之间的兴趣相似度较低（即用户之间的重叠行为较少），那么这两个 item 的相似度应该更高。
    这样的设计能更好地捕获 item 之间的非流行性关联，避免因为热门 item 而被过度推荐。
    数学公式：
    $sim (i, j) = \sum_{u \in U_{i, j}} \sum_{v \in U_{i, j}} \frac{1}{α + | I_{u, v} |}$
    其中：
    - $\mathcal U_{i,j}$ item $i$ $j$ 的用户集合。
    - $\mathcal I_{u,v}$ $u$ $v$ item $|\mathcal I_{u,v}|$ 刻画了 user-level overlap 。
    - $\alpha$ 是一个平滑参数，用于控制 user-level overlap 的影响。
- item2item pairs dataset $\mathcal D$ ，我们训练 a item2item style alignment models with pure multi-modal representationa random batch data $\mathcal B \in \mathcal D$ ，训练过程如：
  $\begin{matrix} M_{trigger} = MLLM (T_{trigger}^{text}, T_{trigger}^{audio}, T_{trigger}^{image}) \\ M_{target} = MLLM (T_{target}^{text}, T_{target}^{audio}, T_{target}^{image}) \\ L_{align} = Batch-Contrastive (M_{trigger}, M_{target}, B) \end{matrix}$
  其中：
  - $\mathbf M_\text{trigger},\mathbf M_\text{target} \in \mathbb{R}^{|\mathcal B| \times F}$ 表示 batch 中的 generatedtrigger/target item MLLM representation $F$ representation dimension $|\mathcal B|$ 为 batch size 。
  - $\left\{\mathbf T_\text{trigger}^\text{text},\mathbf T_\text{trigger}^\text{audio},\mathbf T_\text{trigger}^\text{image}\right\}, \left\{\mathbf T_\text{target}^\text{text},\mathbf T_\text{target}^\text{audio}, \mathbf T_\text{target}^\text{image}\right\}$ 分别为 trigger/target item 的用于 MLLM 的 raw input text, audio and image tokens。
  - $\mathcal{L}_\text{align}$ 为 QARM 的 alignment training loss。
  值得注意的是，我们的 contrastive learning objective 更具泛化性，每个 item 拥有多个 diverse 的 contrastive learning 正样本。通过优化 item alignment loss ，MLLM representations 被引导从而与下游业务知识对齐，最大化表征一致性（representation consistency）。
  论文没有提及如何构建负样本。根据经验，Batch-Contrastive 中，每个样本的负样本来自于 batch 内，其它样本的 positive 样本集合。

1.2.2 Quantitative Code of QARM

当获得 alignment multi-modal representation 后，下一步需利用 MLLM 的 world knowledge 提升下游模型的 prediction accuracy。然而，与直接将 pre-trained representation 作为 model input 相比，推荐模型更适合使用 ID style features 进行端到端的训练。受 code hashing 和 straight-through estimator 思想在计算机视觉（CV）（《Taming transformers for high-resolution image synthesis》）和数据挖掘（DM）（《Recommender systems with generative retrieval》）领域的成功应用启发，我们考虑生成 a series of quantitative code IDs 来替代 MLLM representation。具体而言，我们设计了两种简单有效的量化机制——Vector-Quantized: VQ （《Neural discrete representation learning》）和 Residual-Quantized: RQ （《Autoregressive image generation using residual quantization》learned item alignment MLLM representation $\mathbf M \in \mathbb{R}^{|\mathcal I| \times F}$ quantitative code $\mathcal I$ item $|\mathcal I|$ 表示 item 总数。
论文同时采用 VQ code 和 RQ code，因为这两种 code 捕获了不同的特性。
- VQ code 通过 TopK similar item neighbors 来表征 target item information。
- 然而， RQ code 通过 a hierarchical residual path 来编码整个 MLLM representation 。
VQ code：作为应用最广泛的量化技术（quantitative technique），VQ 首先训练一个大型的 codebook matrix，然后通过 top-k nearest neighbor search 对 representation 进行哈希编码。在 QARM 中，由于 pre-trained MLLM representations 已能反映复杂的 items’ correlation；为简化流程，我们不训练 a new codebook matrix，而是直接将所有items 的 alignment representations 作为 codebook ：
$V = M$
$\mathbf V\in \mathbb R^{|\mathcal I|\times F}$ 为 QARM 的 VQ codebook 。
基于该 codebookMLLM representation $\mathbf{\vec m} \in \mathbf M$ $K$ 的 VQ code list：
$v_{1}, v_{2}, \dots, v_{K} = TopKCode (V, \vec{m}, K)$
其中：
- TopKCode()codebook $\mathbf V$ representation $\mathbf{\vec m}$ $K$ 个 representations 的索引（即 code）。
- $K$ 为控制 VQ quantitative codes 数量的超参数。
- code $0 < v_i \leqslant |I|$ 。
这就是基于 representation similaritytarget representation $K$ 个 source item 。这种做法使得相似的 item 具有相似的 code。例如：
- 假设 item1 的 top-3 相似 items 为：item 4/6/8，那么 item1 的 code 为 (4, 6, 8) 。
- 假设 item2 的 top-3 相似 items 为：item 4/5/8，那么 item2 的 code 为 (4, 5, 8) 。
考虑到 item1 和 item2 都与 item 4/8 非常相似，所以 item1 与 item2 之间也存在一定的相似性。所以，item1 与 item2 也是相似的，它们的 code 也是相似的。
RQ code：与 VQ 使用 a larger codebook size 进行哈希编码不同，RQ 采用固定 size 的 codebook，以粗到细的方式递归地量化一个 representation。具体而言，RQ 训练具有级联关系（cascading relationships）的 L levels codebooks，然后为每一层的 residual representation 搜索 nearest neighbor index。在 QARM 中，我们利用启发式的 Kmeans 算法为每一层生成 size = N 的 codebook：
$\begin{matrix} R^{1} = Kmeans (M, N), M^{1} = M - NearestRep (M, R^{1}) \\ R^{2} = Kmeans (M^{1}, N), M^{2} = M^{1} - NearestRep (M^{1}, R^{2}) \\ \dots \\ R^{L} = Kmeans (M^{L - 1}, N) \end{matrix}$
其中：
- $\text{Kmeans}(\mathbf M^i, N)$ $\mathbf M^i\in \mathbb R^{|\mathcal I|\times F}$ $N$ cluster $\mathbf R^{i+1}\in \mathbb R^{N\times F}$ 。
- $\text{NearestRep}\left(\mathbf M^{i-1}, \mathbf R^i\right)$ codebook $\mathbf R^i$ $\mathbf M^{i-1}$ 中的每个 representationnearest representation search $\mathbf M^i$ 。
- $\left[\mathbf R^1, \mathbf R^2, \cdots, \mathbf R^L\right]$ 表示 RQ 的 trained codebook listcodebook $\mathbf R^i\in \mathbb R^{N\times F}$ 。
基于该 codebook list ，任意 itemMLLM representation $\mathbf{\vec m} \in \mathbf M$ 可被量化为：
$\begin{matrix} r_{1} = NearestCode (R^{1}, \vec{m}, 1), {\vec{m}}^{1} = \vec{m} - R_{r_{1}}^{1} \\ r_{2} = NearestCode (R^{2}, {\vec{m}}^{1}, 1), {\vec{m}}^{2} = {\vec{m}}^{1} - R_{r_{2}}^{2} \\ \dots \\ r_{L} = NearestCode (R^{L}, {\vec{m}}^{L - 1}, 1) \end{matrix}$
其中：
- $\text{NearestCode}\left(\mathbf R^i, \mathbf{\vec m}^{i-1}, 1\right)$ $\mathbf R^i$ $\mathbf{\vec m}^{i-1}$ 最近邻的 code，返回该 code 的索引。
- $\mathbf R^i_{r}$ codebook $\mathbf R^i$ $r$ 个 code vector 。
- $\mathbf{\vec m}^i$ $i$ 层的残差向量。
- $[r_1,r_2,\cdots,r_L]$ representation $\mathbf{\vec m}$ 的 RQ codescode $0\lt r_i\le N$ 。
VQ and RQ codebook generation 的伪代码如 Algorithm 1 所示。通过该算法，任意 alignment MLLM representations 可转换为两类编码：
- VQ code $[v_1, v_2, ..., v_K]$ 。
- RQ code $[r_1, r_2, ..., r_L]$ 。
随后将这些 codes 存储在缓存中，用于推荐模型的端到端的 representation learning。

1.2.3 Usage of QARM

基于 quantitative codes，我们设计了多种简单有效的特征构建方式，支撑下游推荐模型的端到端的 MLLM information training。具体包括 retrieval and ranking model 的 item-side feature, user-side feature，以及 ranking model 的target item-aware feature ：
- Item-side feature：直接将 VQ code 和 RQ code 作为 item ID feature，并为这些 codes 分配对应的 embedding spaces，通过 lookup 来获取 end-to-end learnable embeddings。
  对于 VQ code （或者 RQ codeitem $K$ $L$ 个） codes，从而 lookup 得到多个 embedding。那么如何使用它们？拼接还是池化？作者并未说明。
  此外，《Better generalization with semantic ids : A case study in ranking for recommendations》 提出使用 SPM-based 或者 N-gram-based 来构建 embedding 。
- User-side feature：为描述用户兴趣，将用户最近交互的 sequence of positive interacted items 的 quantitative codes 作为模型输入的一部分。
  $T$ 个 positive interacted itemsitem $L$ RQ code $T\times L$ 个 codes 中获得 sequence representation ？
- Target item-aware feature：除直接学习 code representation 外，还利用 target item quantitative code 来搜索若干个 item sequences，从而构建 target item-aware cross features。例如，基于 RQ code，可生成 latest first one-code matching item sequence 、latest two-code matching item sequence 等。
  latest first one-code matching item sequence 可以类比于：与 target item 相同一级类目的 item sequence 作为输入的 sequence featuere 。
上述特征建模方式与工业界常见方案一致，整体学习流程如下（流程如 Figure 2 所示）：
$\begin{matrix} C_{i} = IDLookUp ([v_{1}^{i}, \dots, v_{K}^{i}] \oplus [r_{1}^{i}, \dots, r_{L}^{i}]) \\ ItemCodeRep = ItemNet (C_{Target}) \\ UserCodeRep = UserNet ([C_{1}, \dots, C_{n}]) \\ CrossCodeRep = CrossNet (ItemCodeRep, [C_{1}^{search}, \dots, C_{n}^{search}]) \\ {\hat{y}}^{ctr}, {\hat{y}}^{lvtr}, \dots = MoE ([UserCodeRep, ItemCodeRep, CrossCodeRep, OtherFeaRep]) \\ L_{rec} = - \sum_{xtr \in {ctr, lvtr, ...}} [y^{xtr} \log {\hat{y}}^{xtr} + (1 - y^{xtr}) \log (1 - {\hat{y}}^{xtr})] \end{matrix}$
其中：
- $\mathbf C_i\in \mathbb R^{(K+L)\times d}$ item $i$ selected embedding $\oplus$ 表示拼接操作；IDLookUPembedding lookup $d$ 为 embedding size 。
  每个 item 映射为一个 token sequence 。
- ItemCodeRep 为 item-side code feature ，它通过 ItemNet 网络编码而来。
- UserCodeRep 为 user-side code feature，它通过 UserNet 网络编码而来。
- CrossCodeRep 为 target item-aware multi-modal feature，它通过 CrossNet 网络编码而来。
- OtherFeaRep 为其他的 user/item features’ representations 。
- $\text{MoE}(\cdot)$ 为 multi-task prediction 模块。
- $\mathcal{L}_\text{rec}$ 为 ranking 模型的 training objective 。
ItemNet/UserNet/CrossNet 的网络结构是什么？作者没有讲。

1.3 实验

本节在 Kuaishou 电商和广告业务中进行了详细的离线/在线实验及消融分析，验证 QARM 的有效性。
评估指标：
- AUC：反映一个positive user-item pair 的得分高于 negative user-item pair 得分的整体概率。
- UAUC：所有用户的 AUC 的平均值。
- GAUC：UAUC 的加权版本，结合不同用户的 interaction 样本占比，提供更精准的评估。
$UAUC = \sum_{u}^{| U |} \frac{1}{| U |} {AUC}_{u}, GAUC = \sum_{u}^{| U |} \frac{{sample}_{u}}{all sample} {AUC}_{u},$
$\text{sample}_u$ $u$ user-item pair $|\mathcal{U}|$ 为用户总数；all_sample 为总样本数。
baseline 方法：两个 strong baseline models ，它们已经采用了 cached MLLM representation，如 Figure 1 所示。
没有数据集的描述？没有模型配置？

1.3.1 离线性能

Table 1VQ code length $K=25$ RQ code length $L=6$ embedding size $d=64$ ）。从结果中可观察到：
- 与 baseline 模型相比，直接融入 item alignment MLLM representation （+ IA Rep）能进一步提升广告业务的模型预测准确性，表明缓解表征失配（representation unmatching）问题从而使 MLLM representation 与 real bussiness interaction distribution knowledge 对齐具有积极作用。
- 与 "+ IA Rep" 变体相比，使用 VQ code 或 RQ code 替代 items’ MLLM representation 能带来更显著的性能提升，表明解决表征固化（representation unlearning ）问题，并分配 learnable embedding 从而进行端到端训练，对推荐模型收敛至关重要。
- 同时融入 VQ code 和 RQ code（+ VQ & RQ Code）的性能优于单独的 +VQ Code 和 +RQ Code，原因在于两种 codes 侧重不同的 MLLM knowledge ：
  - VQ code 通过 TopK similar item neighbors 来表征 target item information。
  - 然而， RQ code 通过 a hierarchical residual path 来编码整个 MLLM representation 。
这里缺少同时添加 + IA Rep + VQ & RQ Code 的变体（即，最终的模型）。

1.3.2 Online A/B Test

为衡量 QARM 对线上业务的实际贡献，我们将 '+ VQ & RQ Code' 变体部署到 online A/B test 系统，处理真实用户的电商和广告请求。不同业务的核心指标不同：广告业务关注收入（Revenue），电商业务关注商品交易总额（GMV ）。Table 2 和 Table 3 分别报告了广告和电商业务的线上结果（ "#1" 和 "#2" 表示对应业务的不同应用场景，如短视频场景或商城场景）。
结果显示：
- 广告业务中，Cold-start item group 和 Others group 的收入分别提升 9.704%/3.147% 和 9.555%/1.950%。
- 电商业务中，GMV 提升 2.296%/1.568%。
这表明，通过 QARM 理解 multi-modal item semantic signal ，能显著改善我们的系统。

1.3.3 Case Study of QARM

本节探究多模态信息对系统内容分发的影响。直观来看，多模态信息对长尾 items 更友好——因为多模态信息不受 item popularity 的影响。因此，长尾 items 性能的提升可在一定程度上证明 QARM 引入多模态信息的合理性。为验证 QARM 对长尾 items 的有效性，我们根据 item 的购买频率将其分为 6 组（L1 至 L6）：L1 为购买频率最低的长尾 items ，后续 groups 的购买频率依次递增。
首先我们进行离线评估。Table 4 显示了不同 groups 的离线 CTR-AUC 指标。结果表明：
- 长尾 items（L1）的预测性能提升最高。
- 而且，随着 items 的购买频率增加，性能提升幅度逐渐下降。
然后，我们执行在线评估。Figure 3 展示了不同 groups 的日均曝光量提升趋势。Table 5 给出了汇总的统计结果。与 baseline 模型相比：
- L1, and L2 items 的曝光次数得到显著提升。
- 而更热门的 L4, L5, and L6 的曝光次数有所减少。
这两种现象表明，我们的 QARM是一种值得信赖的方式，可以为 RecSys 注入多模态信息，不仅为用户带来更好的体验，而且为 new-uploaded items 构建了一个公平的环境。
接下来，我们进一步通过实验来可视化 item alignment MLLM representations 的影响。Figure 4 展示了电商商城场景下三种不同 representations 的 t-SNE 可视化结果：
- (1)：原始 image-only representation 的 t-SNE。
- (2)：原始 image-text representation 的 t-SNE。
- (3)：item alignment representation 的 t-SNE。
同时，随机选取了四个 items（两件背心 vests、一件儿童 T-shirt 、以及一双鞋子shoes）展示 item alignment 效果。
结果显示：
- 三种方法均能较好地区分鞋子和衣物。
- 原始 MLLM representations 无法准确区分两件背心，且蓝色儿童 T-shirt 因图像风格与绿色背心相似从而在 t-SNE 中它们两更接近。
- item alignment representation 将两件不同背心映射到最接近的位置，表明 QARM 的 item alignment 机制能成功捕获业务特性，最大化表征一致性（representation consistency）。

1.3.4 Parameter Analysis of Quantitative Code

VQ code length $K=25$ RQ code length $L=6$ embedding size $d=64$ 。为探究 quantitative codes 的超参数对 QARMVQ code length $K$ embedding size $d$ 进行了实验。
VQ code length $K$ 4 $K$ 值，结果如 Table 6 所示。根据实验结果，我们可以观察到，VQ code length 的增加能够为我们的 QARM 模型带来相对稳定的性能提升。
对于 code embeddingembedding size $d$ ，我们在广告场景下实现了两种变体，并将结果展示在 Table 7 中。结果表明，增加code embedding size 也是提升模型性能的有效方法。
总之，实验结果表明，学习下游任务自适应的 representation 对于理解多模态信息至关重要。

1.4 结论

本文提出了一种将多模态信息注入推荐模型的新方法—— QARM 。与常用的部署范式（使用 fixed unlearnable pre-trained MLLM representation ）不同，我们的 QARM 利用 down-streaming task alignment fine-tuned MLLM representations 的quantitative code，实现了端到端的 MLLM information training 。具体而言：
- 在 item alignment 机制中，我们首先挖掘一组高质量的下游任务的 item-item pairs ，并利用它们来指导 MLLM fine-tuning 。
- 对于 quantitative code 机制，我们设计了两种启发式编码方法（VQ code 和 RQ code）来量化这些 representations ，从而构建 user-side features、item-side features 和 target item-aware features ，实现端到端优化，以获得更好的收敛性。
在 Kuaishou 广告和购物场景上的实验结果表明，QARM 在多模态信息融合方面具有显著的有效性。此外，详细分析表明，我们的QARM 对冷启动 items 和长尾 items 更加友好，这符合 multi-modal information usage 的需求。QARM 已于 2024 年 3 月在 Kuaishou 部署，支持各项服务，服务用户达 400 million 。

1.5 生成式AI使用声明

本文仅使用 AI 工具修正语法错误。研究动机、方法设计和实验结果均来自 Kuaishou 真实业务场景的一手实验与分析，所有数据和观察结果均通过 online A/B tests 和离线分析进行了严格验证。