一、 GenRank [2025]

《Towards Large-scale Generative Ranking》

  1. 生成式推荐(generative recommendation)近期成为 information retrieval 领域极具潜力的研究范式。然而,生成式排序(generative ranking)系统仍缺乏充分研究,尤其在大规模工业场景下的效果与可行性方面。本文针对小红书 Explore Feed 推荐系统的排序阶段展开研究,该系统服务数亿用户。具体而言,我们首先验证 generative ranking 相较当前工业级推荐系统的优势。通过理论与实证分析发现,效果提升主要源于 generative architecture ,而非训练范式。为实现 generative ranking 的高效部署,本文提出 GenRank ——一种全新的 generative ranking 架构。我们通过线上 A/B 实验验证方案的效果与效率,结果表明:GenRank 在计算资源与现有生产系统基本持平的情况下,显著提升用户满意度。

  2. 推荐系统是社交媒体平台的核心组件,帮助用户浏览并获取个性化的 item suggestions。为平衡效率与效果,工业级推荐系统通常采用 cascade pipeline ,包含四个阶段,如 Figure 1 (right) 所示:

    • retrieval 阶段从数十亿 items 中初选数万 candidates

    • pre-ranking 阶段进行粗匹配,将 candidate set 压缩至数百。

    • ranking 阶段对每个 candidate 做精准预测。

    • policy 阶段基于 sequential information 与商业因素对数十个 candidates 进行重排,输出 final recommendation

    现代推荐系统的 ranking 阶段普遍采用 MLP & Embedding 范式,sequential modeling 在捕获用户兴趣方面已取得显著成效。generative recommendation 的出现进一步增强了序列方法的能力。与传统方法不同,generative recommendation 将推荐任务建模为 sequence generation 任务,直接从用户历史行为预测 target behaviors《Recommender systems with generative retrieval》 通过 quantizing items with hierarchical semantic IDs 来实现 generative retrieval《Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations》引入 coarse-to-fine generation process,缓解量化导致的 information loss。尽管这些方法具有创新性,面向排序任务的 generative recommenders 仍研究不足,尤其在大规模工业场景中。

    本文研究大规模工业场景下的 generative ranking 系统。我们首先分析 generative recommendations 的效果来源,再基于现有 generative recommenders 方法(《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》)开展实验验证假设。实验结果表明,generative architecture 是实现高性能的关键。但现有 generative architecture 效率偏低,尤其在大规模场景下。为此,本文提出一种全新架构 GenRank,满足大规模训练与推理需求。在小红书 Explore Feed(服务数亿用户)(见 Figure 1 (left) 所示)开展的线上 A/B 实验,验证了所提方案的效果与可行性。

    本文主要贡献如下:

    • 识别并分析 generative recommendation 的效果来源,明确 generative architecture 对整体性能的关键作用。

    • 提出面向工业场景的高效 generative architecture,包含:action-oriented sequence organization 方法、以及用于 position and time biases 的全新策略。

    • 开展大规模线上 A/B 实验,验证 generative ranking 在工业推荐系统中的效果与可行性。

1.1 相关工作

  1. Generative Recommendationgenerative recommendation 成为信息检索领域的潜力范式。与传统推荐方法不同,generative recommendationrecommendation 建模为 sequence generation 任务,直接从用户历史行为来生成推荐。

    • TIGER《Recommender systems with generative retrieval》)是首个 generative retrieval 框架,先通过 quantizing items' semantic embeddings 获取 hierarchical IDs,再训练一个 sequence-to-sequence 模型来预测 next itemsemantic ID

    • ColaRec《Content-Based Collaborative Generation for Recommender Systems》)与 LETTER《Learnable item tokenization for generative recommendation》)研究 enhancing collaborative signals in quantization,从而融合内容知识与 collaborative interaction

    • COBRA《Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations》)通过 coarse-to-fine generation 机制缓解 quantization 带来的 information loss,实现更具表达力的 generative modeling

    尽管这些方法不断进步,generative ranking 在真实大规模场景下的效果与可行性仍研究不足。

    • HSTU《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》)是首个研究 generative ranking 任务的工作,提出交错组织(interleaved organization)方式,将 user actions 作为新模态来预测 next action 。与之不同,GenRankitems 视为 positional indicators,将 recommendation 重构为 action-oriented generation 问题。此外,本文系统性地分析 generative recommendation 的效果驱动因素,为理解 generative ranking 范式与指导未来架构设计提供关键参考。

  2. Scaling Law in Recommendation SystemScaling laws 在自然语言处理与计算机视觉领域已被充分验证,描述模型性能与模型规模、数据规模、计算资源等因素间的可预测关系。在推荐系统领域,类似的 scaling 行为在 pipeline 各阶段(召回、排序)均被观察与验证。近期进展中,HSTU《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》)成为 generative recommendation 的潜力方法。但将这类模型部署到大规模真实场景,需仔细考量效率问题。本文提出面向 ranking 任务的高效 generative architecture,同时保持与当前工业级推荐相当的开销。

1.2 Problem Setup

  1. 本文研究排序阶段的 generative recommendations。推荐系统需针对 a set of predefined tasks 完成预测,如 candidate item 的点击率、用户停留时长等。为构建离线实验数据集,我们采集小红书 Explore Feed15 天内数千亿次 item exposure logs 。输入特征分为三类:

    • Categorical featuresuser IDitem IDuser historical behaviorshashtags 等等。

    • Numerical featuresuser ageitem publish timeauthor fans 数量等。

    • Frozen embeddingsmulti-modal item embeddingsgraph-based author embeddings 等等。

    参照已有工作(《Wide & deep learning for recommender systems》《Wukong: Towards a scaling law for large-scale recommendation》),numerical features 通过预设边界来离散化为 categorical featurescategorical featuresembedding tables 转换为 dense embeddingspre-trained models 所提供的 frozen embeddings 作为辅助信息,提供相关特征的先验知识。离线评估指标采用 AUC。在本文设定中,主任务 AUC 绝对提升 0.0010 即视为显著,通常可带来线上数亿用户核心指标 0.5% 的提升。

1.3 Generative Recommendation 的效果来源

  1. 已有大量关于 generative recommendation 的研究,但 generative ranking 的效果,尤其在大规模工业场景下,仍未被充分探索。为更好理解 generative ranking 的效果影响因素,我们从两个维度开展实验:

    • generative recommendation 范式与传统方法的核心机制差异。我们重点关注微小改动即导致性能大幅下降的机制,这些可能是 generative ranking 成功的关键。

    • 当前排序范式集成多个成熟模块,如 SIM《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》)、content embeddings《Notellm-2: Multimodal large representation models for recommendation》《Sliding spectrum decomposition for diversified recommendation》)等等。我们对比这些关键模块在 generative settings 下的性能差异,为后续研究提供参考。

    本文选取 HSTU 作为基线模型展示实验结论。默认设置:blocks 数量为 3attention heads 数量为 8 、隐层维度为 768。每个用户序列最大长度 480 ,包含 historical behaviorscandidate items。采用混合精度训练,硬件为 NVIDIA H20 GPU

1.3.1 Generative Paradigm 的核心机制

  1. 与传统范式从 historical behaviors 中学习复杂的 feature interactions 不同,generative recommendation 将排序任务重构为 sequential transduction 任务。generative ranking 与传统方法的核心差异体现在两点:sequential interactions 方式、训练样本组织方式。

  2. generative rankingsequential interactions 方式为自回归方式(auto-regressive)。HSTU 仅在 candidate items 对应位置上计算 loss , 如 Figure 2 (a) 所示。这可视为 supervised fine-tuninguser informationcandidate items 作为 input prompt。大模型在 supervised fine-tuning 中采用自回归方式,是为保留 pre-training 阶段所获得的能力;但 generative ranking 没有预训练阶段,因此需验证:自回归方式对 generative ranking 是否必需?

    为此开展两组实验:

    • historical behaviors 对应的位置上计算 loss :仅少量 historical positions 参与即导致 AUC 下降超 0.0100。我们认为这源于文献提及的 one-epoch issue《Towards understanding the overfitting phenomenon of deep click-through rate models》),模型从 sparse features 中学习到错误的模式。

      默认情况下,模型只会在 candidates 对应的位置计算 loss,这是因为 generative ranking 的核心任务是根据历史行为生成对当前 candidates 的预测。

      如果对 historical positions 也计算 loss,会导致模型效果显著变差。

      CTR 模型中,很多特征(尤其是 user IDitem ID 等)是稀疏的,即每个 feature value 在训练数据中出现的次数很少。如果模型对这些稀疏特征进行多轮训练(multiple epochs),容易发生过拟合,记住训练样本中的噪声或偶然模式,而不是学到泛化能力。

      但有意思的是,即使只训练一个 epoch,这种过拟合现象仍然会出现,这就是所谓的 one-epoch issue。原因是:虽然整体数据只过了一遍,但某些稀疏特征在训练过程中被多次更新(比如同一个 user ID 出现在多个样本中),导致模型“记住”了这些特征与标签之间的偶然关系。

      generative ranking 中,historical actions 中的 item ID 是典型的稀疏特征。每个 historical item 在训练数据中出现的次数非常有限(尤其是在大规模推荐系统中,items 数量巨大,每个 item 的出现频率很低)。

      • 如果你只在 candidates 位置计算 loss,模型会学习的是:给定历史行为序列,预测用户对 candidate item 的反应。这时 historical item 只是输入的一部分,模型不会专门去“拟合”它们与某个 action 之间的映射。

      • 但如果你在 historical positions 也计算 loss,模型就会被迫去预测每个 historical item 对应的 action。这时候,模型会尝试记住 “用户对某个具体 item 做了什么动作”,而这些 item ID 是稀疏的,模型很容易把它们与特定的动作(比如点击)建立起虚假的强关联,这就是 one-epoch issue 的体现。

      结果就是:模型学到了错误的模式(比如“看到 item A 就应该点击”),而不是真正理解用户兴趣的泛化规律。这导致在测试集上 AUC 大幅下降。

      这也解释了为什么 generative ranking 模型默认只在 candidates 位置计算 loss ——这是为了避免模型“记住”历史行为中的噪声,保持对 candidates 预测的泛化能力。

    • historical positionscausal mask 替换为 a fully visible mask :类似 T5 模型(《Exploring the limits of transfer learning with a unified text-to-text transformer》),让 prompt 内特征充分交互。此改动导致 AUC 下降超 0.0015 ,且模型越大下降越明显。

      fully visible mask 破坏了用户行为序列的时序因果性。

      T5 模型中的 encoder 部分,它在处理输入文本时允许双向注意力,因为 encoder 的任务是理解整个输入文本,而不是严格按时间顺序生成。

    结果证实:自回归方式对 generative ranking 效果至关重要。

    Figure 2 (right) 中,inputs 的第一行是 item embeddings、第二行是 action embeddingsoutputaction prediction

  3. 传统范式的训练样本组织通常为 point-wise,每个样本对应一次 item exposure log;而 generative ranking 将用户的时间相邻行为分组到一个训练样本。我们假设该组织方式有两点优势:

    • 同一 request 的两次曝光日志中,特征(尤其 user features)高度重叠,在相同 batch 内处理可提升 gradient estimation 的稳定性。

    • 大规模线上分布式训练中,样本被处理的顺序不严格遵循真实时间顺序,可能引发信息泄露。在这种情况下,模型在训练过程中看到某条曝光日志之前,就可能从 historical behavior features 中推断出用户对该 item 的偏好。

      虽然单个样本中没有特征穿越这种信息泄漏情况,但是样本之间的处理顺序被打乱仍然会导致间接的信息泄漏。核心原因在于:模型参数是跨样本共享的。

      对于三个按照时间顺序的点击事件 A -> B -> C。如果训练顺序为 C -> B - > A,那么模型先见到样本 C,模型学到了关于 C 的知识;接下来模型训练样本 B,此时模型已经包含了未来事件 C 的知识。

      实际上,模型在训练样本 B 的时候,不应该包含任何未来的知识。这就是间接的信息泄漏。

    generative ranking 的样本组织方式有助于降低 later-occurring samples 被先训练的风险。

    但实证结果未强力支持上述假设:将 generative recommender with grouped training samplespoint-wise 顺序训练,AUC 仅小幅下降。因此结论为:generative recommendations 的效果主要源于架构,而非训练样本的组织方式。

1.3.2 不同范式下模块性能对比

  1. 为对比两种范式下各模块的影响,我们实验测量不同模块的性能增益。我们选取工业排序系统常用的四个重要模块:

    • SIM《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》) 用于 sequential modeling

    • PPNet《Pepnet: Parameter and embedding personalized network for infusing with personalized prior information》) 用于 personalized representation learning

    • content embeddings《Sliding spectrum decomposition for diversified recommendation》《Notellm-2: Multimodal large representation models for recommendation》《Sigmoid loss for language image pre-training》)用于先验知识。

    • PLE《Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations》)用于 multi-task learning

    结果显示:

    • SIMPPNetPLE 在两种范式下增益相当,说明生成式范式与这些模块兼容。

    • 同时,content embeddings 在生成式范式下的 AUC 增益超传统范式两倍。我们认为这是因为 content embeddingsgenerative training 与下游任务中的应用在架构上一致,能力得到最优发挥。

  2. 我们还研究特征工程的影响,这对工业推荐效果至关重要。HSTU 提出移除部分特征,因 generative recommenders 可充分表达统计模式。我们的实验表明:多数特征对 generative architectures 增益微弱,但部分实时统计特征(尤其窗口型特征)仍能显著提升效果。我们认为这些特征为模型提供直接信号,帮助 generative architecture 学习复杂模式。

    值得注意的是,特征工程带来的巨大计算开销,限制 ranking model 实时处理大规模 candidate sets 的能力。generative architectures 对特征工程需求低,提升 inference scalability;同时 KV cache 使其在 candidate set sizes 扩大时更高效(《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》)。我们认为,随着计算开销持续降低,未来 generative architectures 有望统一 ranking and pre-ranking 阶段。

1.4 工业场景下的高效 Generative Ranking

  1. 上一节表明 generative rankinggenerative architecture 的重要性,它不仅决定效果,还影响未来推荐系统的整体设计。本节提出全新 generative architectureGenRank,支持大规模排序任务的高效训练与推理。GenRank 与现有工作的差异体现在两点:item-action 组织方式、position & time biases

    Table 1 总结训练性能实证结果,以 HSTU 为基线。

    • action-oriented organization 可提速 78.7%

    • 采用所提出的 position & time biases 可提速 25.0%

    整体而言,GenRank 训练总提速 94.8% ,测试集 AUC 小幅提升。

1.4.1 Item-Action Organization

  1. 传统序列推荐方法通常以每个 item 为基本单元来构建模型,称为 item-oriented architecture。为适配排序任务的 action-aware formulationHSTUaction tokens 作为序列中的新增模态。如 Figure 2 (a) 所示,HSTUitemsactions 交错编入单个序列,从而让模型能够基于 contextualized sequence 来预测 itemaction。这类方法虽然可以在统一框架下同时支持 retrievalranking 任务,但会给 ranking 带来巨大的计算开销,因为序列长度翻倍。

    为解决该问题,我们提出新视角:将 item 视为 positional information,聚焦迭代地预测每个 item 对应的 actions,称为action-oriented organization。该范式中,actions 成为 sequence generation 的基本单元,items 作为引导 generative processcontextual signals,如 Figure 2(b) 所示。该设计专注 action prediction,效率优势显著:attention 机制的 input sequence length 减半,attention 成本降低 75%linear projection 成本降低 50%

    形式化定义:按时间顺序排列的 user tokens{x1,x2,,xN},其中 xiXXitems 集合;每个 item xi 对应 action aiAAactions 集合,action ai 发生时间戳为 tiaction sequence{a1,a2,.,aN},对应时间戳为 {t1,t2,,tN}。模型学习拟合分布 p(ak|x1,a1,,xk)

    为实现 action-oriented generative ranking,每个 input token 融合 item embeddingaction embedding。对于用户历史序列中每个位置,token embeddingitem embeddingaction embedding 之和,即 ei=ψ(xi)+ϕ(ai),其中 ψ()ϕ(·) 分别为 item embedding 模块、action embedding 模块。任务为预测用户对 next candidate itemaction。为实现这一点,candidate itemtoken embedding 表示为 ej=ψ(xj)+m ,其中 mmask action embedding。需要注意的是,为避免 candidates 之间发生信息泄露,模型会使用 a candidate mask,如 Figure 3 (b) 右侧所示。

    Figure 3 (b) 怎么解读?论文并未说明。

1.4.2 Position & Time Biases

  1. HSTU 采用可学习的 relative attention bias 来编码 position 信息与 time 信息。该设计对效果至关重要,但带来计算瓶颈:attention biasesI/O 操作随序列长度呈二次方增长,context window 扩大时开销显著。为此我们设计全新的 position & time biases,大幅降低系统开销。具体而言,我们提出一套完整的 position and time embeddings 设计,仅需线性 I/O 操作,包含:

    • Position Embeddings :可学习的 positional embedding ,记录 items 在用户序列中的索引,记为 Epe,i=Ωpe(i)。为保证训练与推理一致,the same request 内的 candidate items 共享相同位置。

      GenRank 的推理阶段,用户的一次请求(request)会同时对多个 candidates (比如几十个或上百个)打分。这些 candidates 之间没有时间先后关系——它们都是“当前时刻”需要预测的。

      假设用户行为序列长度为 100,有 3candidates 需要打分:candidate A/B/C。那么 candidate A/B/Cposition 都是 101,而不是 101/102/103

    • Request Index Embeddings:用户单次请求可交互多个 items,将 the same request 中的所有 items 归为一组,定义 request index embeddingEri,i=Ωri(|{t1,,ti}|),其中 ||cardinality

      |{t1,,ti}| 的物理含义是:从序列开始到当前位置,经历过多少个 unique timestamp。每个 unique timestamp 代表一个 request (因为一个 request 可能交互多个 items)。因此,经历过的 requests 数量就代表了 request index

    • Pre-Request Time Embeddings :捕获每个 itemthe time of the previous requestbucketed time difference,反映用户活跃程度,定义为 Ert,i=Ωrt(bucket(timaxtj<titj))

      注意:这个时间间隔代表与当前 actoin 与前一个 request 的距离。

    上述设计的训练开销极小,同时保留位置信息与时间信息。最终,馈入给后续网络的 input representation 为:

    ei(p,t)=ψ(xi)+ϕ(ai)+Epe,i+Eri,i+Ert,i

    上述 position and time embeddings 的关键局限是时间信息与位置信息无交互。为解决该问题,我们引入一个 parameter-free biasALiBi《Train short, test long: Attention with linear biases enables input length extrapolation》),作为 attention 机制中的 relative position & time biasesALiBi 有两大优势:

    • 对距离较远的 query-key pairsattention scores 施加惩罚,惩罚随 key action tokenquery action token 之间距离增大而提升,更符合 user interest modeling 的规律。

    • ALiBi 是无参数的,无需 O(N2) 内存访问开销与梯度反向传播。将 ALiBi 融入 Flash Attention ,计算成本极低。

    ALiBi 的计算公式为:假设 attention head 一共有 H 个,那么对于第 hhead

    score(qi(h),kj(h))=qi(h)kj(h)dmh×|ij|

    其中:

    • iquery 的位置索引,jkey 的位置索引,|ij|querykey 之间的相对距离。

    • dattention head 的维度。

    • mh 为第 hattention head 的斜率。通常采用:

      mh=2(8h)/H or mh=28(h+1)/H

      例如,当 H=8 时,各个 head 的斜率依次为:

      m0=21=1/2,m1=22=1/4,,m7=28=1/256

      .

1.5 线上实验

  1. 为验证 generative ranking 在生产环境中的效果与可行性,我们在小红书 Explore Feed 开展线上实验。所有模型回溯超三个月数据,采用在线训练方式。对照组随机选取 10% 的小红书用户,使用生产环境的排序模型;实验组随机选取 10% 用户,使用GenRank 。每组用户规模达数千万,两组无重叠。

    • 离线指标方面,主任务 AUCGAUC 提升均超 0.0020,其他任务提升在 0.00050.0015 之间。

    • 线上指标选取四项:使用时长(time spent)、阅读数(reads)、互动数(engagements)、7 日留存(LT7)。Table 215 天实验周期的线上 A/B 测试均值,GenRank 在所有指标上均优于生产环境排序模型。尤其在冷启动物品上,GenRank 提升尤为显著。我们认为这源于 GenRank 更强的从 content embeddings 中利用世界知识的能力。

    资源开销方面,GenRank 与生产环境排序模型整体资源需求相当。具体而言,GenRank 训练成本更高,但推理与存储成本更低。同时,GenRankP99 响应时间显著优化,优于生产模型超 25% ,展现出 test-time scaling 的进一步优化潜力。

1.6 结论

  1. 本文研究大规模工业场景下 generative ranking 的效果与可行性。通过理论分析与实证结果发现,generative architecture 是生成式推荐效果的主要来源。我们还提出全新生成式架构 GenRank,将 item 视为 positional information,聚焦迭代地预测user behaviors,解决了现有方法的效率问题。大量大规模离线与线上实验验证了所提方案的效果与效率。