2025_GenRank

一、 GenRank [2025]

《Towards Large-scale Generative Ranking》

生成式推荐（generative recommendation）近期成为 information retrieval 领域极具潜力的研究范式。然而，生成式排序（generative ranking）系统仍缺乏充分研究，尤其在大规模工业场景下的效果与可行性方面。本文针对小红书 Explore Feed 推荐系统的排序阶段展开研究，该系统服务数亿用户。具体而言，我们首先验证 generative ranking 相较当前工业级推荐系统的优势。通过理论与实证分析发现，效果提升主要源于 generative architecture ，而非训练范式。为实现 generative ranking 的高效部署，本文提出 GenRank ——一种全新的 generative ranking 架构。我们通过线上 A/B 实验验证方案的效果与效率，结果表明：GenRank 在计算资源与现有生产系统基本持平的情况下，显著提升用户满意度。
推荐系统是社交媒体平台的核心组件，帮助用户浏览并获取个性化的 item suggestions。为平衡效率与效果，工业级推荐系统通常采用 cascade pipeline ，包含四个阶段，如 Figure 1 (right) 所示：
- retrieval 阶段从数十亿 items 中初选数万 candidates 。
- pre-ranking 阶段进行粗匹配，将 candidate set 压缩至数百。
- ranking 阶段对每个 candidate 做精准预测。
- policy 阶段基于 sequential information 与商业因素对数十个 candidates 进行重排，输出 final recommendation。
现代推荐系统的 ranking 阶段普遍采用 MLP & Embedding 范式，sequential modeling 在捕获用户兴趣方面已取得显著成效。generative recommendation 的出现进一步增强了序列方法的能力。与传统方法不同，generative recommendation 将推荐任务建模为 sequence generation 任务，直接从用户历史行为预测 target behaviors。《Recommender systems with generative retrieval》 通过 quantizing items with hierarchical semantic IDs 来实现 generative retrieval ；《Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations》引入 coarse-to-fine generation process，缓解量化导致的 information loss。尽管这些方法具有创新性，面向排序任务的 generative recommenders 仍研究不足，尤其在大规模工业场景中。
本文研究大规模工业场景下的 generative ranking 系统。我们首先分析 generative recommendations 的效果来源，再基于现有 generative recommenders 方法（《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》）开展实验验证假设。实验结果表明，generative architecture 是实现高性能的关键。但现有 generative architecture 效率偏低，尤其在大规模场景下。为此，本文提出一种全新架构 GenRank，满足大规模训练与推理需求。在小红书 Explore Feed（服务数亿用户）（见 Figure 1 (left) 所示）开展的线上 A/B 实验，验证了所提方案的效果与可行性。
本文主要贡献如下：
- 识别并分析 generative recommendation 的效果来源，明确 generative architecture 对整体性能的关键作用。
- 提出面向工业场景的高效 generative architecture，包含：action-oriented sequence organization 方法、以及用于 position and time biases 的全新策略。
- 开展大规模线上 A/B 实验，验证 generative ranking 在工业推荐系统中的效果与可行性。

1.1 相关工作

Generative Recommendation：generative recommendation 成为信息检索领域的潜力范式。与传统推荐方法不同，generative recommendation 将 recommendation 建模为 sequence generation 任务，直接从用户历史行为来生成推荐。
- TIGER （《Recommender systems with generative retrieval》）是首个 generative retrieval 框架，先通过 quantizing items' semantic embeddings 获取 hierarchical IDs，再训练一个 sequence-to-sequence 模型来预测 next item 的 semantic ID。
- ColaRec （《Content-Based Collaborative Generation for Recommender Systems》）与 LETTER （《Learnable item tokenization for generative recommendation》）研究 enhancing collaborative signals in quantization，从而融合内容知识与 collaborative interaction。
- COBRA （《Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations》）通过 coarse-to-fine generation 机制缓解 quantization 带来的 information loss，实现更具表达力的 generative modeling 。
尽管这些方法不断进步，generative ranking 在真实大规模场景下的效果与可行性仍研究不足。
- HSTU （《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》）是首个研究 generative ranking 任务的工作，提出交错组织（interleaved organization）方式，将 user actions 作为新模态来预测 next action 。与之不同，GenRank 将 items 视为 positional indicators，将 recommendation 重构为 action-oriented generation 问题。此外，本文系统性地分析 generative recommendation 的效果驱动因素，为理解 generative ranking 范式与指导未来架构设计提供关键参考。
Scaling Law in Recommendation System：Scaling laws 在自然语言处理与计算机视觉领域已被充分验证，描述模型性能与模型规模、数据规模、计算资源等因素间的可预测关系。在推荐系统领域，类似的 scaling 行为在 pipeline 各阶段（召回、排序）均被观察与验证。近期进展中，HSTU （《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》）成为 generative recommendation 的潜力方法。但将这类模型部署到大规模真实场景，需仔细考量效率问题。本文提出面向 ranking 任务的高效 generative architecture，同时保持与当前工业级推荐相当的开销。

1.2 Problem Setup

本文研究排序阶段的 generative recommendations。推荐系统需针对 a set of predefined tasks 完成预测，如 candidate item 的点击率、用户停留时长等。为构建离线实验数据集，我们采集小红书 Explore Feed 在 15 天内数千亿次 item exposure logs 。输入特征分为三类：
- Categorical features：user ID、item ID、user historical behaviors、hashtags 等等。
- Numerical features：user age、item publish time、author fans 数量等。
- Frozen embeddings：multi-modal item embeddings、graph-based author embeddings 等等。
参照已有工作（《Wide & deep learning for recommender systems》、《Wukong: Towards a scaling law for large-scale recommendation》），numerical features 通过预设边界来离散化为 categorical features，categorical features 经 embedding tables 转换为 dense embeddings。pre-trained models 所提供的 frozen embeddings 作为辅助信息，提供相关特征的先验知识。离线评估指标采用 AUC。在本文设定中，主任务 AUC 绝对提升 0.0010 即视为显著，通常可带来线上数亿用户核心指标 0.5% 的提升。

1.3 Generative Recommendation 的效果来源

已有大量关于 generative recommendation 的研究，但 generative ranking 的效果，尤其在大规模工业场景下，仍未被充分探索。为更好理解 generative ranking 的效果影响因素，我们从两个维度开展实验：
- generative recommendation 范式与传统方法的核心机制差异。我们重点关注微小改动即导致性能大幅下降的机制，这些可能是 generative ranking 成功的关键。
- 当前排序范式集成多个成熟模块，如 SIM （《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》）、content embeddings （《Notellm-2: Multimodal large representation models for recommendation》、《Sliding spectrum decomposition for diversified recommendation》）等等。我们对比这些关键模块在 generative settings 下的性能差异，为后续研究提供参考。
本文选取 HSTU 作为基线模型展示实验结论。默认设置：blocks 数量为 3 、attention heads 数量为 8 、隐层维度为 768。每个用户序列最大长度 480 ，包含 historical behaviors 与 candidate items。采用混合精度训练，硬件为 NVIDIA H20 GPU。

1.3.1 Generative Paradigm 的核心机制

与传统范式从 historical behaviors 中学习复杂的 feature interactions 不同，generative recommendation 将排序任务重构为 sequential transduction 任务。generative ranking 与传统方法的核心差异体现在两点：sequential interactions 方式、训练样本组织方式。
generative ranking 的 sequential interactions 方式为自回归方式（auto-regressive）。HSTU 仅在 candidate items 对应位置上计算 loss ，如 Figure 2 (a) 所示。这可视为 supervised fine-tuning ，user information 与 candidate items 作为 input prompt。大模型在 supervised fine-tuning 中采用自回归方式，是为保留 pre-training 阶段所获得的能力；但 generative ranking 没有预训练阶段，因此需验证：自回归方式对 generative ranking 是否必需？
为此开展两组实验：
- 在 historical behaviors 对应的位置上计算 loss ：仅少量 historical positions 参与即导致 AUC 下降超 0.0100。我们认为这源于文献提及的 one-epoch issue （《Towards understanding the overfitting phenomenon of deep click-through rate models》），模型从 sparse features 中学习到错误的模式。
  默认情况下，模型只会在 candidates 对应的位置计算 loss，这是因为 generative ranking 的核心任务是根据历史行为生成对当前 candidates 的预测。
  如果对 historical positions 也计算 loss，会导致模型效果显著变差。
  在 CTR 模型中，很多特征（尤其是 user ID、item ID 等）是稀疏的，即每个 feature value 在训练数据中出现的次数很少。如果模型对这些稀疏特征进行多轮训练（multiple epochs），容易发生过拟合，记住训练样本中的噪声或偶然模式，而不是学到泛化能力。
  但有意思的是，即使只训练一个 epoch，这种过拟合现象仍然会出现，这就是所谓的 one-epoch issue。原因是：虽然整体数据只过了一遍，但某些稀疏特征在训练过程中被多次更新（比如同一个 user ID 出现在多个样本中），导致模型“记住”了这些特征与标签之间的偶然关系。
  在 generative ranking 中，historical actions 中的 item ID 是典型的稀疏特征。每个 historical item 在训练数据中出现的次数非常有限（尤其是在大规模推荐系统中，items 数量巨大，每个 item 的出现频率很低）。
  - 如果你只在 candidates 位置计算 loss，模型会学习的是：给定历史行为序列，预测用户对 candidate item 的反应。这时 historical item 只是输入的一部分，模型不会专门去“拟合”它们与某个 action 之间的映射。
  - 但如果你在 historical positions 也计算 loss，模型就会被迫去预测每个 historical item 对应的 action。这时候，模型会尝试记住 “用户对某个具体 item 做了什么动作”，而这些 item ID 是稀疏的，模型很容易把它们与特定的动作（比如点击）建立起虚假的强关联，这就是 one-epoch issue 的体现。
  结果就是：模型学到了错误的模式（比如“看到 item A 就应该点击”），而不是真正理解用户兴趣的泛化规律。这导致在测试集上 AUC 大幅下降。
  这也解释了为什么 generative ranking 模型默认只在 candidates 位置计算 loss ——这是为了避免模型“记住”历史行为中的噪声，保持对 candidates 预测的泛化能力。
- 将 historical positions 的 causal mask 替换为 a fully visible mask ：类似 T5 模型（《Exploring the limits of transfer learning with a unified text-to-text transformer》），让 prompt 内特征充分交互。此改动导致 AUC 下降超 0.0015 ，且模型越大下降越明显。
  fully visible mask 破坏了用户行为序列的时序因果性。
  而 T5 模型中的 encoder 部分，它在处理输入文本时允许双向注意力，因为 encoder 的任务是理解整个输入文本，而不是严格按时间顺序生成。
结果证实：自回归方式对 generative ranking 效果至关重要。
Figure 2 (right) 中，inputs 的第一行是 item embeddings、第二行是 action embeddings。output 是action prediction。
传统范式的训练样本组织通常为 point-wise，每个样本对应一次 item exposure log；而 generative ranking 将用户的时间相邻行为分组到一个训练样本。我们假设该组织方式有两点优势：
- 同一 request 的两次曝光日志中，特征（尤其 user features）高度重叠，在相同 batch 内处理可提升 gradient estimation 的稳定性。
- 大规模线上分布式训练中，样本被处理的顺序不严格遵循真实时间顺序，可能引发信息泄露。在这种情况下，模型在训练过程中看到某条曝光日志之前，就可能从 historical behavior features 中推断出用户对该 item 的偏好。
  虽然单个样本中没有特征穿越这种信息泄漏情况，但是样本之间的处理顺序被打乱仍然会导致间接的信息泄漏。核心原因在于：模型参数是跨样本共享的。
  对于三个按照时间顺序的点击事件 A -> B -> C。如果训练顺序为 C -> B - > A，那么模型先见到样本 C，模型学到了关于 C 的知识；接下来模型训练样本 B，此时模型已经包含了未来事件 C 的知识。
  实际上，模型在训练样本 B 的时候，不应该包含任何未来的知识。这就是间接的信息泄漏。
generative ranking 的样本组织方式有助于降低 later-occurring samples 被先训练的风险。
但实证结果未强力支持上述假设：将 generative recommender with grouped training samples 按 point-wise 顺序训练，AUC 仅小幅下降。因此结论为：generative recommendations 的效果主要源于架构，而非训练样本的组织方式。

1.3.2 不同范式下模块性能对比

为对比两种范式下各模块的影响，我们实验测量不同模块的性能增益。我们选取工业排序系统常用的四个重要模块：
- SIM（《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》）用于 sequential modeling。
- PPNet（《Pepnet: Parameter and embedding personalized network for infusing with personalized prior information》）用于 personalized representation learning。
- content embeddings （《Sliding spectrum decomposition for diversified recommendation》、《Notellm-2: Multimodal large representation models for recommendation》、《Sigmoid loss for language image pre-training》）用于先验知识。
- PLE （《Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations》）用于 multi-task learning。
结果显示：
- SIM 、PPNet、PLE 在两种范式下增益相当，说明生成式范式与这些模块兼容。
- 同时，content embeddings 在生成式范式下的 AUC 增益超传统范式两倍。我们认为这是因为 content embeddings 的 generative training 与下游任务中的应用在架构上一致，能力得到最优发挥。
我们还研究特征工程的影响，这对工业推荐效果至关重要。HSTU 提出移除部分特征，因 generative recommenders 可充分表达统计模式。我们的实验表明：多数特征对 generative architectures 增益微弱，但部分实时统计特征（尤其窗口型特征）仍能显著提升效果。我们认为这些特征为模型提供直接信号，帮助 generative architecture 学习复杂模式。
值得注意的是，特征工程带来的巨大计算开销，限制 ranking model 实时处理大规模 candidate sets 的能力。generative architectures 对特征工程需求低，提升 inference scalability；同时 KV cache 使其在 candidate set sizes 扩大时更高效（《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》）。我们认为，随着计算开销持续降低，未来 generative architectures 有望统一 ranking and pre-ranking 阶段。

1.4 工业场景下的高效 Generative Ranking

上一节表明 generative ranking 中 generative architecture 的重要性，它不仅决定效果，还影响未来推荐系统的整体设计。本节提出全新 generative architecture ，GenRank，支持大规模排序任务的高效训练与推理。GenRank 与现有工作的差异体现在两点：item-action 组织方式、position & time biases 。
Table 1 总结训练性能实证结果，以 HSTU 为基线。
- action-oriented organization 可提速 78.7% 。
- 采用所提出的 position & time biases 可提速 25.0% 。
整体而言，GenRank 训练总提速 94.8% ，测试集 AUC 小幅提升。

1.4.1 Item-Action Organization

传统序列推荐方法通常以每个 item 为基本单元来构建模型，称为 item-oriented architecture。为适配排序任务的 action-aware formulation ，HSTU 将 action tokens 作为序列中的新增模态。如 Figure 2 (a) 所示，HSTU 把 items 与 actions 交错编入单个序列，从而让模型能够基于 contextualized sequence 来预测 item 或 action。这类方法虽然可以在统一框架下同时支持 retrieval 与 ranking 任务，但会给 ranking 带来巨大的计算开销，因为序列长度翻倍。
为解决该问题，我们提出新视角：将 item 视为 positional information，聚焦迭代地预测每个 item 对应的 actions，称为action-oriented organization。该范式中，actions 成为 sequence generation 的基本单元，items 作为引导 generative process 的 contextual signals，如 Figure 2(b) 所示。该设计专注 action prediction，效率优势显著：attention 机制的 input sequence length 减半，attention 成本降低 75%，linear projection 成本降低 50%。
user tokens $\{x_1,x_2,\cdots,x_N\}$ $x_i\in \mathcal X$ $\mathcal X$ 为 itemsitem $x_{i}$ action $a_{i}\in \mathcal A$ $\mathcal A$ 为 actionsaction $a_i$ $t_{i}$ action sequence $\{a_{1}, a_{2}, .\cdots , a_{N}\}$ $\{t_{1}, t_{2}, \cdots, t_{N}\}$ $p(a_{k} | x_{1}, a_{1}, \cdots, x_{k})$ 。
为实现 action-oriented generative ranking，每个 input token 融合 item embedding 与 action embedding。对于用户历史序列中每个位置，token embedding 为 item embeddingaction embedding $\mathbf{\vec e}_{i}=\psi(x_{i})+\phi(a_{i})$ $\psi(\cdot)$ $\phi(·)$ 分别为 item embedding 模块、action embedding 模块。任务为预测用户对 next candidate item 的 action。为实现这一点，candidate itemtoken embedding $\mathbf{\vec e}_j = \psi(x_j) + \mathbf {\vec m}$ $\mathbf {\vec m}$ 为 mask action embedding。需要注意的是，为避免 candidates 之间发生信息泄露，模型会使用 a candidate mask，如 Figure 3 (b) 右侧所示。
Figure 3 (b) 怎么解读？论文并未说明。

1.4.2 Position & Time Biases

HSTU 采用可学习的 relative attention bias 来编码 position 信息与 time 信息。该设计对效果至关重要，但带来计算瓶颈：attention biases 的 I/O 操作随序列长度呈二次方增长，context window 扩大时开销显著。为此我们设计全新的 position & time biases，大幅降低系统开销。具体而言，我们提出一套完整的 position and time embeddings 设计，仅需线性 I/O 操作，包含：
- Position Embeddings ：可学习的 positional embeddingitems $E_{\text{pe},i}=\Omega_{\text{pe}}(i)$ 。为保证训练与推理一致，the same request 内的 candidate items 共享相同位置。
  在 GenRank 的推理阶段，用户的一次请求（request）会同时对多个 candidates （比如几十个或上百个）打分。这些 candidates 之间没有时间先后关系——它们都是“当前时刻”需要预测的。
  假设用户行为序列长度为 100，有 3 个 candidates 需要打分：candidate A/B/C。那么 candidate A/B/C 的 position 都是 101，而不是 101/102/103。
- Request Index Embeddings：用户单次请求可交互多个 items，将 the same request 中的所有 itemsrequest index embedding $E_{\text{ri},i}=\Omega_{\text{ri}}(|\{t_{1}, \cdots , t_{i}\}|)$ $|\cdot|$ 为 cardinality。
  $|\{t_{1}, \cdots , t_{i}\}|$ 的物理含义是：从序列开始到当前位置，经历过多少个 unique timestamp。每个 unique timestamp 代表一个 request （因为一个 request 可能交互多个 items）。因此，经历过的 requests 数量就代表了 request index。
- Pre-Request Time Embeddings ：捕获每个 item 与 the time of the previous requestbucketed time difference $E_{\text{rt},i}=\Omega_{\text{rt}}(\text{bucket}(t_{i}− \max_{t_{j}<t_{i}}t_{j}))$ 。
  注意：这个时间间隔代表与当前 actoin 与前一个 request 的距离。
上述设计的训练开销极小，同时保留位置信息与时间信息。最终，馈入给后续网络的 input representation 为：
${\vec{e}}_{i}^{(p, t)} = ψ (x_{i}) + ϕ (a_{i}) + E_{pe, i} + E_{ri, i} + E_{rt, i}$
上述 position and time embeddings 的关键局限是时间信息与位置信息无交互。为解决该问题，我们引入一个 parameter-free bias，ALiBi（《Train short, test long: Attention with linear biases enables input length extrapolation》），作为 attention 机制中的 relative position & time biases 。ALiBi 有两大优势：
- 对距离较远的 query-key pairs 的 attention scores 施加惩罚，惩罚随 key action token 与 query action token 之间距离增大而提升，更符合 user interest modeling 的规律。
- ALiBi $O(N^{2})$ 内存访问开销与梯度反向传播。将 ALiBi 融入 Flash Attention ，计算成本极低。
ALiBiattention head $H$ $h$ 个 head：
$score ({\vec{q}}_{i}^{(h)}, {\vec{k}}_{j}^{(h)}) = \frac{{\vec{q}}_{i}^{(h)} \cdot {\vec{k}}_{j}^{(h)}}{\sqrt{d}} - m_{h} \times | i - j |$
其中：
- $i$ query $j$ key $|i-j|$ 是 query 和 key 之间的相对距离。
- $d$ 为 attention head 的维度。
- $m_h$ $h$ 个 attention head 的斜率。通常采用：
  $m_{h} = 2^{- (8 h) / H} or m_{h} = 2^{- 8 (h + 1) / H}$
  $H = 8$ 时，各个 head 的斜率依次为：
  $m_{0} = 2^{- 1} = 1 / 2, m_{1} = 2^{- 2} = 1 / 4, \dots, m_{7} = 2^{- 8} = 1 / 256$
  .

1.5 线上实验

为验证 generative ranking 在生产环境中的效果与可行性，我们在小红书 Explore Feed 开展线上实验。所有模型回溯超三个月数据，采用在线训练方式。对照组随机选取 10% 的小红书用户，使用生产环境的排序模型；实验组随机选取 10% 用户，使用GenRank 。每组用户规模达数千万，两组无重叠。
- 离线指标方面，主任务 AUC 与 GAUC 提升均超 0.0020，其他任务提升在 0.0005 至 0.0015 之间。
- 线上指标选取四项：使用时长（time spent）、阅读数（reads）、互动数（engagements）、7 日留存（LT7）。Table 2 为15 天实验周期的线上 A/B 测试均值，GenRank 在所有指标上均优于生产环境排序模型。尤其在冷启动物品上，GenRank 提升尤为显著。我们认为这源于 GenRank 更强的从 content embeddings 中利用世界知识的能力。
资源开销方面，GenRank 与生产环境排序模型整体资源需求相当。具体而言，GenRank 训练成本更高，但推理与存储成本更低。同时，GenRank 的 P99 响应时间显著优化，优于生产模型超 25% ，展现出 test-time scaling 的进一步优化潜力。

1.6 结论

本文研究大规模工业场景下 generative ranking 的效果与可行性。通过理论分析与实证结果发现，generative architecture 是生成式推荐效果的主要来源。我们还提出全新生成式架构 GenRank，将 item 视为 positional information，聚焦迭代地预测user behaviors，解决了现有方法的效率问题。大量大规模离线与线上实验验证了所提方案的效果与效率。