2025_OneRec_TechReport

一、 OneRec Technical Report [2025]

《OneRec Technical Report》

推荐系统多年来已被广泛应用于各类大型的面向用户的平台。在过去十年中，recommendation 技术已从传统的基于启发式规则（heuristic-based rules）演进至深度学习模型，显著提升了 recommendation accuracy。然而，相较于人工智能领域的快速变革与发展，推荐系统近年来并未取得突破性进展。例如，它们仍依赖多阶段级联架构（multi-stage cascaded architecture）而非端到端的方法，导致计算碎片化（computational fragmentation）与优化不一致（optimization inconsistencies）等问题。此外，cascading structure 阻碍了人工智能领域的关键突破性技术在推荐场景中的有效应用。
为解决这些问题，我们提出 OneRec，通过端到端的生成式方法重塑推荐系统。在这一新架构下，我们取得了令人瞩目的成果。
- 首先，我们将现有推荐模型的计算浮点运算次数（FLOPs）提升了 10 倍，并在特定范围内确定了推荐系统的 scaling laws。
- 其次，此前难以应用于 optimizing recommendations 的强化学习（reinforcement learning: RL）技术，在该框架中展现出了巨大的潜力。
- 最后，通过基础设施优化，我们在旗舰 GPU 上实现了训练阶段 23.7% 、推理阶段 28.8% 的模型浮点运算利用率（Model FLOPs Utilization: MFU），与大语言模型（LLM）领域的水平高度接轨。该架构大幅降低了通信开销和存储开销，运营成本（operating expense: OPEX）仅为传统 recommendation pipelines 的 10.6%。
在 Kuaishou/Kuaishou Lite APP 中部署后，它处理了 25% 的总 queries per second: QPS，分别将 overall App Stay Time 提升了 0.54% 和 1.24%。此外，我们观察到 7-day Lifetime: LT7 等 recommendation experience 的关键指标显著提升。我们还分享了在 developing、optimizing 和 maintaining具有重大实际影响的生产级推荐系统过程中获得的实践经验与见解。

1.1 Introduction

随着 online services 的快速发展，推荐系统（recommender systems: RS）已成为缓解信息过载、大规模提供个性化内容的核心基础设施。在过去几十年中，推荐系统取得了多项突破性进展——从早期的因子分解机（Factorization Machines）到现代深度学习架构。尽管推荐系统研究领域取得了显著进步，但传统推荐模型仍依赖多阶段级联架构（multi-stage cascaded architectures ）（见 Figure 2 上半部分）而非端到端方法；这种架构存在若干限制，阻碍了其实现最佳性能：
- 碎片化的计算（Fragmented Compute）：cascaded architecture 的计算效率低下。我们以 Kuaishou 为案例进行的资源分布（resource distribution ）的综合分析表明，serving 过程中超过 50% 的资源用于通信和存储，而非 high-precision computation。大量资源分配给非计算任务（non-computational tasks），凸显了当前架构的根本性的低效问题。
  此外，用于计算的资源（尤其是计算密集型最高的 ranking models）的利用率极低。具体而言，该模型在旗舰 GPU 上的 training MFU 和 inference MFU 分别仅为 4.6% 和 11.2%，远低于大语言模型（LLMs）的效率—— H100 上的 MFU 约为 40%（《The llama 3 herd of models》、《Megatron-lm: Training multi-billion parameter language models using model parallelism》）。这种差异凸显了推荐系统在针对 computational tasks 的资源利用方面的低效。此外，由于 high QPS requirements（超过 400k）和 low latency demands（低于 500ms），推荐模型通常只能在 low scale 下运行，且计算强度不高。这种 operational constraint 进一步制约了 high-precision computation 的潜力，从而影响推荐系统的整体性能和 scalability。
- 目标冲突（Objective Collision）："good" recommendation results 对应的 optimization objectives 尚未明确定义，这导致了以下冲突：
  - 多种目标的冲突（Conflicts from Diverse Objectives）：除了点击率（click-through rate: CTR）、观看时长（watch time ）等常见 optimization goals 外，来自用户、创作者和平台生态的 goals（ Kuaishou 有数百个）相互竞争。这些 objectives 在系统的不同阶段介入，逐渐破坏 system consistency，增加复杂性和运营低效性（operational inefficiency）。
  - 跨阶段建模的冲突（Cross-Stage Modeling Conflicts）：即使建模相似的 objectives，不同阶段的模型结构和模型规模的差异也可能引发冲突。例如，retrieval 阶段的效果可能受 ranking model 的局限；而 ranking model 又可能受到suboptimal upstream results 佳的影响。这表明推荐系统需要更加 unified 的 optimization goal 和模型结构，以确保连贯性（coherence）和效率（efficiency）。
- 落后于人工智能演进（Lag Behind AI Evolution）：尽管大语言模型（LLM）和视觉语言模型（VLM）领域取得了显著进展（例如 scaling laws、 reinforcement learning），但现有的 cascaded recommendation framework 在采用这些成熟技术时存在根本性的架构障碍。这种结构错位（structural misalignment）导致推荐系统与主流人工智能进展之间的差距不断扩大，限制了从 SOTA 方法中获取潜在性能提升的可能。
为解决传统 cascaded recommendation architectures 面临的挑战，我们提出 OneRec（见 Figure 2 下半部分）——一种新型推荐系统，通过将 retrieval 过程和 ranking 过程集成到基于 single-stage encoder-decoder 的生成式框架（generative framework）中，克服 cascade ranking systems 的局限性。该方法具有以下特点：
- 端到端的 Optimization：系统被设计为兼具端到端特性和足够简洁性，能够直接针对 final objective 进行优化。
- 计算效率：以计算强度为核心（computational intensity），在 training 阶段和 inference 阶段严格优化 computational utilization，充分发挥算力提升带来的优势。
我们的新框架取得了多项重要发现：
- 通过广泛的基础设施优化（infrastructure optimizations），我们在旗舰 GPU 上实现了 training 阶段 23.7%、inferenc 阶段 28.8% 的 MFU ——相较于原始 ranking model 分别提升了 5.2 倍和 2.6 倍，显著缩小了与 LLM community 的差距。更重要的是，这种端到端架构大幅减少了不必要的通信开销和存储开销，运营成本（OPEX）仅为传统 complex recommendation pipelines 的 10.6%。目前，其在 Kuaishou/Kuaishou Lite APP 主要场景的部署处理了约 25% 的 total QPS，App Stay Time 分别提升了 0.54% 和 1.24%，同时所有核心指标（包括 user engagement、video cold start 和 distribution balance）均得到改善，实现了全面的性能提升。
- 我们将现有推荐模型的 computational FLOPs 提升了 10 倍。在此过程中，我们确定了推荐系统的 scaling laws。这一发现为 “如何随着模型规模和计算资源扩展而优化推荐系统性能” 提供了宝贵见解，确保推荐系统在各种运营环境中高效的部署。
- 强化学习（Reinforcement learning: RL）技术此前在传统架构中效果有限，而在我们的框架中展现出巨大潜力。我们进行了大量离线实验和在线性能对比实验，并开发了针对 real-world industrial iteration requirements 的 specific application practices。这些 implementations 使系统能够利用强化学习，提升适应性（adaptability）和性能。
在论文的后续部分：
- 我们首先详细阐述 OneRec 架构（第 1.2 节），包括短视频的 tokenization pipeline、用于 user interest modeling and compression 的 encoder 的设计、用于 precise output generation 的 scalable decoder optimization。我们还介绍用于 recommendation optimization 的 reinforcement learning framework，讨论 sampling space design、policy 和 reward function 对推荐结果的影响，以及 production deployment 中的实证见解。
- 接下来，我们介绍 pre-training and post-training pipeline（第 1.3 节），包括 training data 构建、超参数配置、以及critical implementation 的讨论，然后描述 evaluation framework（第 1.4 节），包括 offline metric systems 和 online performance/efficiency optimizations 。
- 最后，我们总结本研究，讨论 OneRec 的现有局限性，并提出未来研究的潜在方向（第 1.5 节）。

1.2 Architecture

注意，论文的符号系统比较混乱。读者在这里进行了统一调整：
$\mathbf A$ 。
$\mathbf{\vec a}$ 。
$a$ 。

本节将介绍 OneRec 架构（如 Figure 2 下半部分所示）。
- 该架构首先采用 tokenizer（第 1.2.1 节）将视频转换为 semantic IDs，作为模型的 prediction targets。
- 在训练阶段，encoder-decoder 结构（第 1.2.2 节和第 1.2.3 节）执行 next token prediction 以预测 target items，同时通过奖励系统（第 1.2.4 节）进行 reinforcement learning alignment 。
- 在推理阶段，模型首先生成 semantic IDs，然后将这些 tokens 映射回 video recommendations。可选地，可以通过 reward-based selection step 来进一步地 refine。

1.2.1 Tokenizer

OneRec 是 Kuaishou 的生成式推荐系统（generative recommendation system），其十亿级且持续增长的 item space 由于计算和架构限制，无法生成 atomic identifiers 。为解决这一问题，OneRec 使用精简且固定的 vocabulary 将 items 分词为从粗到细的 semantic IDs，实现 similar items 之间的 knowledge transfer，并更好地泛化到 new items（《Recommender systems with generative retrieval》）。
然而，现有解决方案（《Recommender systems with generative retrieval》、《Adapting large language models by integrating collaborative semantics for recommendation》）仅从 context features 生成 semantic IDs，忽略了 collaborative signals，导致 suboptimal reconstruction quality （见第 1.4.4 节）。因此，我们的解决方案将 collaborative signals 与 multimodal features 相结合，然后利用 RQ-Kmeans（《Qarm: Quantitative alignment multi-modal recommendation at kuaishou》）生成更高质量的 hierarchical semantic IDs。
Aligned Collaborative-Aware Multimodal Representation：我们通过 aligning multimodal representations of collaboratively similar item pairs，将多模态内容（multimodal content）与协同信号（collaborative signals）相结合，如 Figure 3(left) 所示。因此，我们需要准备 multimodal representations、item pairs 、以及 alignment strategy ：
下面的内容就是论文 《QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou》 的核心内容。
- Multimodal Representations：我们为每个视频整合 multimodal inputs，包括 caption、tag、语音转文字（ASR）、图像转文字（OCR）、封面图（cover image）和 5 帧均匀采样帧（5 uniformly sampled frames）。这些 inputs 通过 miniCPM-V-8B《Minicpm: Unveiling the potential of small language models with scalable training strategies》 $N_{M}=1280$ token vectors $\mathbf M \in \mathbb{R}^{N_{M} ×d_{t}}$ $d_t = 512$ 。然后，Querying Transformer （QFormer《Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models》 $N_{\tilde{M}}=4$ learnable query tokens $\mathbf Q^{(1)} \in \mathbb{R}^{N_{\tilde {M}} ×d_{t}}$ 对这些 tokens 进行压缩：
  $\begin{matrix} Q^{(i + 1)} = CrossAttn (Q^{(i)}, M, M) \\ Q^{(i + 1)} = FFN (RMSNorm (Q^{(i + 1)})), i \in {1, 2, \dots, N_{c}} \end{matrix}$
  $\tilde {\mathbf M} = \mathbf Q^{(N_c+1)}\in \mathbb R^{N_{\tilde M}\times d_t}$ $\mathbf M$ $N_{c}=4$ 表示 QFormer layers 的数量。
  CrossAttn 不同于 SelfAttn：在 CrossAttn 中，query 与 key/value 不同。
- Item Pairsitem-pair dataset $\mathcal D_\text{pair}$ ：
  - 1) User-to-Item Retrieval ：对于每个用户，选取一个 positively clicked target item；然后从该用户的 latest historical positive clicks 选择 most collaboratively similar item 与 positively clicked target item 进行配对。
    这一步是通过 retrieval model 中的 item embedding 来寻找 similar item （基于 item embedding similarity）。
  - 2) Item-to-Item Retrieval：将 similarity scores 高的 items（例如 Swing similarity ）（《Large scale product graph construction for recommendation in e-commerce》）进行配对。
    Swing 算法是一种基于图的协同过滤算法，主要用于计算 item 之间的相似度。其核心思想是：如果两个 item 被很多用户同时交互过，且这些用户之间的兴趣相似度较低（即用户之间的重叠行为较少），那么这两个 item 的相似度应该更高。
    这样的设计能更好地捕获 item 之间的非流行性关联，避免因为热门 item 而被过度推荐。
    数学公式：
    $sim (i, j) = \sum_{u \in U_{i, j}} \sum_{v \in U_{i, j}} \frac{1}{α + | I_{u, v} |}$
    其中：
    - $\mathcal U_{i,j}$ item $i$ $j$ 的用户集合。
    - $\mathcal I_{u,v}$ $u$ $v$ item $|\mathcal I_{u,v}|$ 刻画了 user-level overlap 。
    - $\alpha$ 是一个平滑参数，用于控制 user-level overlap 的影响。
- Item-to-Item Loss and Caption Loss：我们引入双重训练目标：
  - 1)：item-to-item contrastive losscollaboratively similar video pairs $(i, j) \in \mathcal D_\text{pair}$ 的 representations，以捕获 behavioral patterns 。
  - 2)：caption loss，通过 LLaMA3（《The llama 3 herd of models》）作为 decoder 对 video captions 执行 next-token prediction，防止幻觉（hallucination），从而保留内容理解（content understanding）能力。
  $\begin{matrix} L_{I2I} = - \frac{1}{| B |} \sum_{(i, j) \in B} \log \frac{\exp (sim ({\tilde{M}}_{i}, {\tilde{M}}_{j}) / τ)}{\sum_{(i^{'}, j^{'}) \in B} \exp (sim ({\tilde{M}}_{i^{'}}, {\tilde{M}}_{j^{'}}) / τ)} \\ L_{captionGen} = - \sum_{k} \log P (t^{k + 1} ∣ [t^{1}, t^{2}, \dots, t^{k}]) \end{matrix}$
  $\tau$ $\text{sim}(\cdot, \cdot)$ similarity $\mathcal B$ $\mathcal D_\text{pair}$ batch $t^{k}$ $k$ 个 caption token。
  这里用到了 in-batch negative 策略。
Tokenization：我们采用 RQ-Kmeans（《Qarm: Quantitative alignment multi-modal recommendation at kuaishou》）进行分词，该方法利用 residual quantization 以从粗到细的方式生成 semantic IDs。这种方法通过直接对 residuals 应用 K-means clustering 来构建 codebooks。RQ-Kmeans 过程如 Figure 3(right) 所示。
- $l=1$ 层的初始残差（initial residual）定义为：
  $R^{(1)} = {{\tilde{M}}_{i} \in R^{N_{\tilde{M}} \times d_{t}} ∣ \forall video i}$
- $l$ codebook $\mathcal C^{(l)}$ $\mathcal R^{(l)}$ 的 K-means 质心（centroids）推导得出：
  $C^{(l)} = Kmeans (R^{(l)}, N_{t})$
  $\mathcal C^{(l)}= \left\{\mathbf c_k^{(l)}\in \mathbb R^{N_{\tilde M}\times d_t}\mid k=1,2,\cdots,N_t\right\}$ $N_t$ 为 codebooksize。
  前一篇论文 《OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment》 提到采用 "Balanced K-means Clustering" 算法，这里退化为普通的 K-means Clustering 算法？
  item $i$ 的 nearest centroid index 计算如下：
  $s_{i}^{l} = \arg min_{k} ‖ r_{i}^{(l)} - c_{k}^{(l)} ‖$
  $\mathbf r_i^{(l)}$ $\mathcal R^{(l)}$ item $i$ residual $\|\cdot\|$ 表示欧几里得范数（Euclidean norm ）。
  video $i$ layer $l+1$ 的 residual 被更新为：
  $r_{i}^{(l + 1)} = r_{i}^{(l)} - c_{s_{i}^{l}}^{(l)}$
quantization $L_{t}=3$ 层。
如第 1.4.4 节所示，与广泛使用的 RQ-VAE（《Autoregressive image generation using residual quantization》、《Recommender systems with generative retrieval》）相比，RQ-Kmeans 具有更高的 reconstructioncode-book $m$ $L_{t}$ semantic identifiers $\left\{s_{m}^{1}, s_{m}^{2}, \cdots, s_{m}^{L_{t}}\right\}$ ，作为 OneRec 推荐系统的输出，从而支持渐进式 item generation。
QARM 同时采用 VQ code （item corpus 中 top-k 最相似的 item 编号）和 RQ code （来自于 RQ-Kmeans）。

1.2.2 Encoder

Multi-Scale Feature Engineering：本节介绍 OneRec 的 feature engineering 组件。我们通过四个专门的 embedding pathways 来处理 user behavior data ，每个 pathways 旨在捕获不同尺度的 user interaction patterns：user static pathway、short-term pathway、positive-feedback pathway 以及 lifelong pathway 。
- User static pathway：user static pathway 生成 core user characteristics 的紧凑的 representation，整合了用户标识符（uid）、年龄（age）、性别（gender）等，然后转换为模型的 hidden dimension：
  $\begin{matrix} {\vec{f}}_{u} = [{\vec{e}}_{uid}; {\vec{e}}_{gender}; {\vec{e}}_{age}; \dots] \\ {\vec{h}}_{u} = Dense (LeakyReLU (Dense ({\vec{f}}_{u}))) \end{matrix}$
  其中：
  - $\mathbf{\vec e}_\text{uid},\mathbf{\vec e}_\text{gender},\mathbf{\vec e}_\text{age}\in \mathbb R^{64}$ 为 uid, age, gender 对应的 embedding 向量；";" 表示向量拼接操作。
  - $\mathbf{\vec h}_u\in \mathbb R^{1\times d_\text{model}}$ 为 hidden representation 。
  - Dense 为 Dense Layer；LeakyReLU 为 LeakyReLU 激活函数。
- Short-term Pathwayshort-term behavior pathway $L_{s}=20$ ）个 user interactions ，整合了 video identifier （可表示为视频标识符 vid、或者前面章节所述的语义标识符 sid，我们将在第实验章节讨论这两种表示方法）、author identifiers（aid）、tags （tag）、时间戳（ts）、播放时长（playtime）、视频时长（dur）、label（label，每个视频的 user interactions ，包括点赞 like、关注follow、转发forward、不喜欢dislike、评论comment 、进入主页profile entry 等）。该 pathway 产生了 representations ，该 representations 捕获了即时 user preferences 和影响当前 behavior patterns 的 contextual factors ：
  $\begin{matrix} {\vec{f}}_{s} = [{\vec{e}}_{vid}^{s}; {\vec{e}}_{aid}^{s}; {\vec{e}}_{tag}^{s}; {\vec{e}}_{ts}^{s}; {\vec{e}}_{playtime}^{s}; {\vec{e}}_{dur}^{s}; {\vec{e}}_{label}^{s}] \\ {\vec{h}}_{s} = Dense (LeakyReLU (Dense ({\vec{f}}_{s}))) \end{matrix}$
  其中：
  - $\mathbf{\vec e}^s_\text{vid}\in \mathbb R^{d_\text{model}},\mathbf{\vec e}^s_\text{aid}\in \mathbb R^{512},\mathbf{\vec e}^s_\text{tag},\mathbf{\vec e}^s_\text{ts},\mathbf{\vec e}^s_\text{playtime},\mathbf{\vec e}^s_\text{dur},\mathbf{\vec e}^s_\text{label}\in \mathbb R^{128}$ 为 vid, aid, tag, ts, playtime, dur, label 对应的 embedding 向量；";" 表示向量拼接操作。
  - $\mathbf{\vec h}_s\in \mathbb R^{1\times d_\text{model}}$ 为 hidden representation 。
  - Dense 为 Dense Layer；LeakyReLU 为 LeakyReLU 激活函数。
  $L_{s}$ 个 sequence positionsfinal representation $\mathbf H_{s} \in \mathbb{R}^{L_{s} ×d_\text{model}}$ position $\mathbf{\vec h}_s$ 组成。
- Positive-feedback Pathway：positive-feedback behavior pathwaya sequence of high-engagement interactions $L_{p}=256$ ）。该 pathway 保持 Short-term Pathway 相同的维度结构（dimensional structure）：
  $\begin{matrix} {\vec{f}}_{p} = [{\vec{e}}_{vid}^{p}; {\vec{e}}_{aid}^{p}; {\vec{e}}_{tag}^{p}; {\vec{e}}_{ts}^{p}; {\vec{e}}_{playtime}^{p}; {\vec{e}}_{dur}^{p}; {\vec{e}}_{label}^{p}] \\ {\vec{h}}_{p} = Dense (LeakyReLU (Dense ({\vec{f}}_{p}))) \end{matrix}$
  $L_{p}$ 个 sequence positionsfinal representation $\mathbf H_{p} \in \mathbb{R}^{L_{p} ×d_\text{model}}$ position $\mathbf{\vec h}_p$ 组成。
- Lifelong Pathway：lifelong behavior pathway 旨在处理长达 100,000 videos 的超长 user interaction histories。直接对这类序列应用 attention 机制在计算上不可行。该 pathway 采用受我们先前工作（《Twin v2: Scaling ultra-long user behavior sequence modeling for enhanced ctr prediction at kuaishou》）启发的两阶段分层压缩（two-stage hierarchical compression）策略。
  - Behavior Compression：利用 Aligned Collaborative-Aware Multimodal Representation 章节所述的 multimodal content representations，对每个用户的 interaction sequence 执行 hierarchical K-means clusteringcluster $\lfloor\sqrt[3]{|D|}\rfloor$ cluster $|D|$ 是当前数据中的 items 数量。这是一个经验确定的 setting。如果 current clusteritems $M$ 时，clustering 过程终止。终止后，我们选择每个 cluster center 最近的 item 作为该 cluster 的代表。
  - Feature Aggregation：对于每个 cluster ，我们通过不同方式处理 discrete attributes 和 continuous attributes 来构建代表性的 features。
    对于 sparse categorical features （如 vid、aid、label），我们直接继承 representative video（即最接近 cluster center 的视频）的特征。
    对于 continuous features （如 ts、playtime、duration），我们计算 cluster 内所有视频的均值，以捕获集体行为模式（collective behavioral patterns ）。
  long-term historical sequence $L_{l}=2000$ ），我们采用 cluster representative 对应的 features 来视作一个 "video" ，然后保持 Short-term Pathway 相同的维度结构（dimensional structure）：
  $\begin{matrix} {\vec{f}}_{l} = [{\vec{e}}_{vid}^{l}; {\vec{e}}_{aid}^{l}; {\vec{e}}_{tag}^{l}; {\vec{e}}_{ts}^{l}; {\vec{e}}_{playtime}^{l}; {\vec{e}}_{dur}^{l}; {\vec{e}}_{label}^{l}] \\ {\vec{v}}_{l} = Dense (LeakyReLU (Dense ({\vec{f}}_{l}))) \end{matrix}$
  $L_{l}$ 个 sequence positionsfinal representation $\mathbf V_{l} \in \mathbb{R}^{L_{l} ×d_\text{model}}$ position $\mathbf{\vec v}_l$ 组成。
  lifelong pathway 通过 QFormer 压缩 historical sequenceslearnable query vectors $\mathbf H_{l}^{(0)} \in \mathbb{R}^{N_{q} ×d_\text{model }}$ $N_{q}=128$ ）关注 processed historical features：
  $\begin{matrix} H_{l}^{(i + 1)} = CrossAttn (H_{i}^{(i)}, V_{l}, V_{l}) \\ H_{l}^{(i + 1)} = FFN (RMSNorm (H_{l}^{(i + 1)})) \end{matrix}$
  $N_{l}=2$ 个 QFormer blockscompressed lifelong feature representation $\mathbf H_{l}=\mathbf H_{l}^{(N_{l})} \in \mathbb{R}^{N_{q} ×d_\text{model }}$ 。
Encoder Architecture ：如 Figure 4 所示，OneRec 的 encoder 架构通过统一的 transformer-based 的框架整合 multi-scale user behavior representations。encoder 将四个 multi-scale pathways 的输出拼接起来，形成一个综合的 input sequence ：
$Z^{(1)} = [H_{u}; H_{s}; H_{p}; H_{l}] + E_{pos}$
$\mathbf E_\text{pos}\in \mathbb R^{(1 + L_s + L_p + N_q)\times d_\text{model}}$ 表示可学习的 positional embeddings 。
representation $L_\text{enc }$ 个 transformer encoder layers 来处理，每个 layer 包含 fully visible self-attention mechanisms ，随后是具有 RMS normalization 的前馈网络：
$\begin{matrix} Z^{(i + 1)} = Z^{(i)} + SelfAttn (RMSNorm (Z^{(i)})) \\ Z^{(i + 1)} = Z^{(i + 1)} + FFN (RMSNorm (Z^{(i + 1)})) \end{matrix}$
final encoder output $\mathbf Z_\text{enc}= \mathbf Z^{(L_\text{enc }+1)} \in \mathbb{R}^{(1+L_{s}+L_{p}+N_{q}) ×d_\text{model}}$ 提供整体的 multi-scale user behavior representation ，作为后续 recommendation generation 的基础。
注意：下图中仅绘制出一个 residual connection，而论文的公式给出了标准的两个 residual connection 。

1.2.3 Decoder

OneRec 在 decoding 阶段采用 point-wise generationtarget video $m$ ，decoder input sequence 是通过将 a learnable beginning-of-sequence token: [BOS] 与视频的 semantic identifiers 拼接而成：
$\begin{matrix} S_{m} = {s_{[BOS]}, s_{m}^{1}, s_{m}^{2}, \dots, s_{m}^{L_{t}}} \\ D_{m}^{(0)} = EmbLookup (S_{m}) \end{matrix}$
decoder $L_\text{dec}$ 个 transformer layers 来处理该序列。每个 layer 执行以下顺序操作：
$\begin{matrix} D_{m}^{(i + 1)} = D_{m}^{(i)} + CausalSelfAttn (D_{m}^{(i)}) \\ D_{m}^{(i + 1)} = D_{m}^{(i + 1)} + CrossAttn (D_{m}^{(i + 1)}, Z_{enc}, Z_{enc}) \\ D_{m}^{(i + 1)} = D_{m}^{(i + 1)} + MoE (RMSNorm (D_{m}^{(i + 1)})) \end{matrix}$
注意：在 CrossAttnfinal encoder output $\mathbf Z_\text{enc}$ 作为 Key/Value。
注意：上图中仅绘制出一个 residual connection，而论文的公式给出了标准的三个 residual connection 。
每个 decoder layer 整合一个 Mixture of Experts (MoE) 前馈网络，以提升模型容量同时保持计算效率。MoE layertop-k routing $N_\text{experts}$ 个 expert networks ：
$MoE (\vec{x}) = \sum_{j = 1}^{k} {Gate}_{j} (\vec{x}) \times {Expert}_{j} (\vec{x})$
其中：
- $\text{Gate}_j\left(\mathbf {\vec x}\right)$ 表示由 routing 机制确定的门控权重（gating weights ）。
  $\text{Gate}_j\left(\mathbf {\vec x}\right), j =1,2,\cdots,N_\text{experts}$ ，然后选择其中的 top-k 。
- $\text{Expert}_j\left(\mathbf {\vec x}\right)$ $j$ 个 selected expert network 的输出。
为确保专家利用率（expert utilization ）平衡且不引入干扰梯度，我们采用（《Deepseek-v3 technical report》）中的 loss-free 负载均衡策略。
模型使用交叉熵损失（cross-entropy losstarget video $m$ 的 semantic identifiers 进行 next-token prediction 训练：
$L_{NTP} = - \sum_{j = 0}^{L_{t} - 1} \log P (j_{m}^{j + 1} ∣ [s_{[BOS]}, s_{m}^{1}, s_{m}^{2}, \dots, s_{m}^{j}])$
.

1.2.4 Reward System

pre-trained model 仅通过 next token prediction 来拟合 exposed item space 的分布，而 exposed items 来自过去的传统的推荐系统（ past traditional recommendation system）。这导致模型无法突破 traditional recommendations 的上限。为解决这一问题，我们引入基于奖励系统（a reward system）的偏好对齐（preference alignment），利用在线策略强化学习（on-policy reinforcement learning ）在 generated item space 中训练模型。通过 rewards，模型感知更细粒度的 preference 信息。我们引入 preference reward 以对齐 user preferences，引入 format reward 以确保 generation format 尽可能合法，以及引入特定的 industrial reward 以对齐某些特殊的工业场景的需求。

a. User Preference Alignment

在推荐系统中，定义 a "good recommendation" 比确定 a mathematical solution 的正确性更具挑战性。传统方法（《Twin: Two-stage interest network for lifelong user behavior modeling in ctr prediction at kuaishou》、《Home: Hierarchy of multi-gate experts for multi-task learning at kuaishou》）通常定义 multiple objectives（如点击clicks、点赞likes、评论comments、观看时长watch time），然后通过每个目标的 predicted values （xtr）来加权融合得到一个 score。然而，手动调优这些 fusion weights 具有挑战性，不仅缺乏准确性（accuracy）和个性化（personalization），还常常导致objectives 之间的 optimization conflicts 。
为解决这些限制，我们提出使用神经网络学习 a personalized fusion score，称为 P-Score（偏好分数 Preference Score ）（《Pantheon: Personalized multi-objective ensemble sort via iterative pareto policy optimization》）。该模型的整体框架如 Figure 5 (middle) 所示。模型的底层架构基于 Search-based Interest Model: SIM （《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》）。
- 模型包含 multiple towers ，每个 tower 专门用于学习 specific objectives。在训练过程中，这些 tower 使用相应的 objective labels 作为辅助任务（auxiliary tasks ）来计算二元交叉熵（binary cross-entropy: BCE）loss。
- 每个 tower 的 hidden states，以及 user and item representations，被馈入到最后一层的多层感知器（Multi-Layer Perceptron: MLP）。该 MLP 后接一个输出 P-Score 的 a single tower ，使用 all objectives 的 labels 来计算 binary cross-entropy loss。
loss 可形式化表示如下：
$\begin{matrix} L_{PScore} = \sum_{xtr \in S_{o}} w^{xtr} \times L_{PScore}^{xtr} \\ L_{PScore}^{xtr} = - (y^{xtr} \times \log p^{xtr} + (1 - y^{xtr}) \times \log (1 - p^{xtr})) \\ S_{o} = {ctr, lvtr, ltr, vtr, \dots} \end{matrix}$
其中：
- $w^\text{xtr}$ 是 objective xtr 的权重。
- $y^\text{xtr}$ 是 objective xtrlabel $p^\text{xtr}$ 是对应的 prediction。
$w^\text{xtr}$ 的值，使 P-Score 偏向每个 objective，最终实现所有 objectives 的 AUC 提升。这种方法允许模型接收 specific user information，并适当调整该用户的 Preference Score，而不影响其他用户的体验。与先前无差别的加权求和方法相比，这种方法更有可能实现帕累托优化（Pareto optimization）。因此，我们使用通过这种方法获得的 P-Score 作为 preference alignment 的 reward。
P-Score 这块讲的不清楚，忽略它，因为作者在 OneRec V2 中移除了奖励模型。
Early Clipped GRPO：本节介绍如何使用 Preference Score 来对齐 user preferences 。我们使用 Early Clipped GRPO: ECPOoptimization $u$ old policy model $G$ 个 itemsitem $u$ 一起输入 Preference Reward ModelP-Score $r_{i}$ 。optimization objective 如下：
$\begin{matrix} J_{ECPO} (θ) = E_{u \sim P (U), {o_{i}}_{i = 1}^{G} \sim π_{θ_{old}}} [\frac{1}{G} \sum_{i = 1}^{G} min (\frac{π_{θ} (o_{i} ∣ u)}{π_{θ_{old}}^{'} (o_{i} ∣ u)} A_{i}, clip (\frac{π_{θ} (o_{i} ∣ u)}{π_{θ_{old}}^{'} (o_{i} ∣ u)}, 1 - ϵ, 1 + ϵ) A_{i})] \\ A_{i} = \frac{r_{i} - mean ({r_{1}, r_{2}, \dots, r_{G}})}{std ({r_{1}, r_{2}, \dots, r_{G}})} \\ π_{θ_{old}}^{'} (o_{i} ∣ u) = max (\frac{sg (π_{θ} (o_{i} ∣ u))}{1 + ϵ + δ}, π_{θ_{old}} (o_{i} ∣ u), δ > 0 \end{matrix}$
$\text{sg}(\cdot)$ stop gradient $\delta$ 是大于 0 的超参数。
我们对 Group Policy Relative Optimization: GRPO（《Deepseek-v3 technical report》）进行了修改，使其训练过程更稳定。如 Figure 6 所示，在原始 GRPO 中，negative advantagespolicy ratio $\pi_{\theta} / \pi_{\theta_{old }}$ ），这容易导致梯度爆炸（gradient explosion）。因此，我们预先裁剪比率较大的 policiesnegative advantages $\delta$ 越大，允许的 policy ratioOneRec $\delta$ 设置为 0.1，表明允许 negative advantagespolicy ratio $1+\epsilon$ 。我们移除了 KL divergence loss，因为OneRec 中强化学习（Reinforcement Learning: RL）和监督微调（Supervised Fine-Tuning: SFT）一起训练的，SFT loss 确保模型保持稳定。

b. Generation Format Regularization

在生成式推荐（generative recommendation）中，合法性比率（legality ratio ）指 generated semantic ID sequences 可映射到 actual item IDs 的比例。该指标对于评估 stability of generation 至关重要。在实践中，semantic ID sequencescardinality $N_{t}^{L_{t}}$ 远大于 videos 数量。这确保了 all items 都被覆盖，且更大的 vocabulary 引入更多的 parameters，带来更好的性能。然而，这也可能导致 inference 过程中生成没有对应 item IDs 的 semantic ID sequences，即非法生成（ illegal generation）。
引入 reinforcement learning with ECPO 显著增加了 generation of illegal outputs 。最近的研究（《Learning dynamics of llm finetuning》）表明，这是由于 negative advantages 引起的挤压效应（squeezing effect）。如 Figure 7 所示， pre-trained model 已学会 generate 大多数的 legal tokensRL $A>0$ 的 itemsdistribution $A<0$ 的 item 时，模型的 probability distribution 将大部分概率质量（probability massoptimal output $o^{*}$ 。这导致一些 legal tokens 的概率被挤压到与 illegal tokens 相当的水平，使模型难以区分 legal tokens 。
为解决这一问题，我们提出在强化学习中引入格式奖励（format rewardlegal generation $G$ $K$ 个样本进行合法性强化学习（egality reinforcement learning）。
- 对于 legal samplesadvantage $1$ .
- 对于 illegal samples ，我们直接丢弃，以避免 squeezing effect。
$\begin{matrix} A_{i} = {\begin{cases} 1, & if o_{i} \in I_{legal} \\ 0, & else \end{cases} \end{matrix}$
optimization objectiveECPO $A_{i}$ 作为 advantages：
$J_{ECPO} (θ) = E_{u \sim P (U), {o_{i}}_{i = 1}^{G} \sim π_{θ_{old}}} [\frac{1}{G} \sum_{i = 1}^{G} min (\frac{π_{θ} (o_{i} ∣ u)}{π_{θ_{old}}^{'} (o_{i} ∣ u)} A_{i}, clip (\frac{π_{θ} (o_{i} ∣ u)}{π_{θ_{old}}^{'} (o_{i} ∣ u)}, 1 - ϵ, 1 + ϵ) A_{i})]$
.

c. Industrial Scenario Alignment

在工业场景中，推荐系统不仅需要考虑 user preferences，还需要考虑其他各个方面。例如，在 Kuaishou，视频社区的生态系统、商业化需求、以及 cold-start and long-tail videos 的分发。传统推荐系统试图通过在 recommendation pipeline 的某个阶段应用算法或策略来解决这些问题。由于不同阶段之间的不一致性，这容易导致意外问题交替出现的循环。工程师被迫通过补丁不断进行调整，导致系统随着时间的推移变得臃肿，阻碍迭代。
在 OneRec 中，我们只需将 optimization objectives 整合到 reward system 中，并采用强化学习进行有针对性的优化。这种方法不仅方便，而且可以端到端实现，保持了系统的一致性。我们将在 Evaluation 章节提供 optimization practice 的一个示例。

1.3 Training Framework

1.3.1 Training Infrastructure

本节描述了支持 OneRec 的 large-scale pre-training 的硬件和基础设施，并介绍了几项提升 training 效率的优化：
- 算力（Compute）：我们使用 90 servers 进行训练，每台 server 配备 8 块旗舰 GPU 和 2 块 CPU，通过 400Gbps NVLink 互连，确保高速的 intra-node bandwidth 。
- 网络（Networking）：节点内的通信由高效的 NVLink network 管理，节点间的通信由 400Gbps RDMA 来支持 training traffic ，100Gbps TCP 来支持 training data and embedding prefetching operations。
- 存储（Storage）：每台 server 配备 4 块 NVMe SSD，以加快 checkpoint 的写入速度，允许将 large-scale embedding parameters and dense parameters 存储在 HDFS 中，具有最小的容错停机时间（minimal downtime for fault tolerance）。
- 训练加速（Training Acceleration）：为实现 training 加速，实施了以下 core optimizations：
  - 1) Embedding Acceleration ：为管理超出 CPU capacity 的大量 embedding workload，我们使用 Kuaishou 的 SKAI 框架作为 GPU-based parameter servers。该框架利用 cross-GPU unified embedding tables、GPU caching paradigms 、以及 prefetching pipelines，提升 training 效率并减少 management 开销。
  - 2) Training Parallelism：采用 data parallelism、ZERO1（《Zero: Memory optimizations toward training trillion parameter models》）和 gradient accumulation 相结合的方式进行模型训练。选择 ZERO1 是因为当前模型的 dense parameters 可以加载到单个 GPU 上，在交错多个 macro batches 时最小化 data parallel groups 中的 synchronization 开销。
  - 3) Mixed Precision Training：在某些 MLP networks 中使用 BFloat16 进行计算，以优化性能。
  - 4) Compilation Optimization：对 attention networks 应用 compilation optimizations ，以减少计算开销。
  得益于高度优化的 training infrastructure ，模型的 training MFU 已提升至 23.7%，显著缩小了与 LLM 训练效率的差距。

1.3.2 Pre-training

Pre-Training Data：如 Multi-Scale Feature Engineering 章节所示，我们的模型以 multi-scale user behavior representations 作为输入。pre-training objective 涉及为用户预测 sequences of target items。每个训练样本包含一个 target item，该 target item 被 tokenized 为 3 semantic identifiers。对于 generative model 的 next-token prediction 任务，这种 tokenization 方案使每个训练样本有 3 target tokens。我们的 training pipeline 每天处理约 18 billion 个样本，吞吐量为每天 54 billion 个 tokens 。OneRec-0.935B 模型（详见 Table 1 ）在训练约 100 billion 个样本后实现收敛， pre-training 期间对应的总曝光量为 300 billion tokens 。
Key Hyperparameters：OneRec 系列包括四个模型（两个 dense 模型和两个 MoE 变体），专为 recommendation 任务而设计。Table 1 详细列出了层数、hidden dimensions 和 attention head numbers 等关键的架构超参数。
- 在这些模型中，encoders 和 decoders 具有相同的层数。
- 对于 dense 变体，标准的 Feed-Forward Networks: FFNshidden dimension $d_\text{ff}$ $2\times d_\text{model }$ 。
- 对于 MoE 变体，我们在指定的 blocks 中用 MoE layers 替换标准的 FFNs，并采用 SwiGLU FFNs（《Glu variants improve transformer》、《Lamda: Language models for dialog applications》）作为 experts。与开源 MoE LLM settings （《A review of sparse expert models in deep learning》、《Mixtral of experts》）一致，每个 SwiGLU experthidden dimension $\frac{2}{3} ×4 ×d_\text{model }$ ，并确保其是 128 的倍数。
每个模型的收敛曲线见实验的 Training Scaling 章节。
Experts(Tot/Act) 指的是：Experts Total / Experts Activation。

1.3.3 Post-training

在 post-training 阶段，我们使用 real-time data streams 进行 online training。我们同时执行 Reject Sampling Fine-Tuning (RSFT) 和 Reinforcement Learning (RL)。
- 对于 RSFT，我们根据播放时长（play duration）来过滤掉 exposure sessions 的 bottom 50% 。training losspre-training $\mathcal L_\text{NTP}$ losssparse parameters $1 ×10^{-4}$ dense parameters $8 ×10^{-5}$ 来进行退火（annealing ）。
  1. 为什么要过滤 bottom 50%？核心原因：提升训练数据的信噪比与质量。
    过滤掉 bottom 50%，相当于在数据层面进行了一次强力的质量筛选。RSFT 阶段的目标不再是拟合整个曝光分布，而是集中火力学习“如何做出能吸引用户长时间观看的好推荐”。这极大地提升了训练数据的“信噪比”。
    它将训练范式从传统的 “拟合曝光”（Matching the Exposure），转变为 “拟合成功”（Matching the Success）。
  2. $1\times 10^{-4}$ $8\times 10^{-5}$ ）吗？退火过程的起始学习率是多少？怎么退火？
    论文未明确给出 RSFT 阶段的起始学习率。根据常规实践，起始学习率很可能继承自预训练（pre-training）结束时的学习率，或者是一个基于预训练学习率设定的较高值（例如预训练最大学习率的十分之一等）。
    退火方式：论文未详细说明退火策略（如线性衰减、余弦退火、阶梯衰减等）。在深度学习微调中，常见的退火策略包括：
    - 线性衰减：从起始学习率线性降低到目标学习率。
    - 余弦退火：按余弦函数周期性地降低学习率。
    - 指数衰减：按指数函数逐渐减小学习率。
    - 单次调整：也可能直接设置为目标学习率进行微调（这也可以视为一种退火，因为相对于预训练，学习率显著降低了）。
- 对于 RL，我们从 RSFT 数据中随机选择 1% 的用户生成 RL 样本。
为最大限度地利用计算资源，我们通过使用一个 external inference service 将 generation of RL samples 与 training 过程解耦。在训练过程中，1% 的用户访问 external service 从而生成 512 items ，为每个 item 向 reward model 请求 rewards ，然后将数据返回给 training 任务。 training 任务每 1000 steps 通过一个 Message Queue: MQ 向 external inference service 发送 updated parameters 。post-training 的整体流程如 Figure 8 所示。

1.4 Evaluation

1.4.1 Evaluation Metric

我们通过以下指标来评估模型性能：
- 交叉熵损失（Cross-entropy lossNext-token prediction loss $\mathcal L_\text{NTP}$ 的曲线。
- P (preference)-Score：学到的综合评估指标（comprehensive evaluation metric），详见 User Preference Alignment 章节。
- xtr 指标：一组来自当前部署在我们系统中的 a pre-trained ranking model （《Twin: Two-stage interest network for lifelong user behavior modeling in ctr prediction at kuaishou》、《Home: Hierarchy of multi-gate experts for multi-task learning at kuaishou》）的user engagement 指标，包括：
  - lvtr (Long View Through Rate)：significant video viewing 的预测概率。
  - vtr (View Through Rate) ：video viewing 的预测概率。
  - ltr (Like Through Rate) ：video liking 的预测概率。
  - wtr (Follow Through Rate)：creator following 的预测概率。
  - cmtr (Comment Through Rate)：video commenting的预测概率。
对于 P-Score 和 xtr reward 指标，我们的评估系统在 streaming data 上运行，不同 periods 的值可能有所不同。因此，由于data stream 的时间变化，不同实验中相同指标可能显示不同的绝对值（absolute values）。然而，我们通过在相同 periods 内进行对比实验，并在足够长的 observation windows 内平均结果，确保 evaluation 的可靠性，使我们的 findings 具有统计置信度。

1.4.2 Scaling

a. Training Scaling

Parameters Scaling：OneRec 系列包括不同尺寸的模型：OneRec-0.015B、OneRec-0.121B、OneRec-0.935B和 OneRec-2.633B，详见 Table 1。我们研究了模型参数数量对性能的影响。Figure 9 展示了这些模型的 loss curves，显示出明显的 scaling 趋势：即，随着训练的进行，更大的模型实现更低的 loss。这表明随着模型规模的增加，性能提升的潜力很大。
除了参数缩放外，我们还进行了额外的实验，使用我们的 0.935B 模型验证其他关键维度的缩放有效性。这些实验包括特征缩放（检查综合特征工程的影响）、码本缩放（研究词汇表大小扩展的效果）和推理缩放（分析束搜索参数的影响）。每个维度都表现出独特的缩放行为，并为未来的模型优化提供了宝贵的见解。
关于 training data size 的影响，我们的实验表明（参考 Figure 9 ）：
- 在最初的约 10 billion 个样本内，性能快速收敛。
- 虽然超过这一点后，改进速度显著减慢，但性能并未完全趋于平稳，而是继续受益于额外的数据（即，超过 100 billion 个样本），尽管速度较慢。这表明虽然在训练初期取得了显著收益，但随着数据集的增大，仍可能实现进一步、更渐进的改进。
随着模型参数的扩大，experts 之间的负载均衡（load balancing）成为一个关键问题。专家利用率（expert utilization ）的不均衡会导致训练效率低下和性能不佳。我们采用了 DeepSeek 的 loss-free load balancing 策略（《Deepseek-v3 technical report》），该策略在不引入额外 loss 项的情况下保持 expert utilization balance。通过这种策略，我们观察到 loss 降低了 0.2，表明该策略在改善 scaled OneRec models 的收敛方面的有效性。
除了 parameter scaling 之外，我们还利用 0.935B 模型进行了额外的实验，以验证在其他 key dimensions 上的 scaling 的有效性。这些实验包括 feature scaling（检验全面的 feature engineering 的影响）、codebook scaling（研究 vocabulary size expansion 的影响）和 inference scaling（分析 beam search parameters 的影响）。每个 dimension 都展现出不同的scaling behaviors，并为 future model optimization 提供了宝贵的见解。
Feature Scaling：为研究 feature engineering 对模型性能的影响，我们比较了两种 input configurations 的模型：
- baseline 模型仅使用 256 positive-feedback items 的 only item ID vid embeddings 。
- enhanced 模型整合了我们方法中描述的 comprehensive feature set。
如 Figure 10 和 Table 2 所示，带有 additional features 的 enhanced model 实现了更低的 training loss，并在 recommendation quality 的 multiple dimensions 上取得了显著改进。
Codebook Scaling：为研究 codebook size 对模型性能的影响，我们进行了将 codebook 从 8192 扩展到 32768 的实验。需要注意的是，我们的 parameter scaling 实验中定义的 NTP loss 不能直接用于此处的比较。这是因为 codebook size 的 increase 本质上扩大了 cross-entropy loss calculation 的 candidate set，使得直接的 loss comparisons 具有误导性。因此，我们使用 reward-based 的指标来评估性能。Table 3 展示了各种指标的性能改进。结果显示，增加 codebook size 在播放时长（playtime ）指标上带来了显著改进，在 interaction 指标上带来了轻微提升。
playtime 指标直接衡量用户对视频的观看程度和观看时长，反映了用户的消费深度，包括：
- lvtr（Long View Through Rate）：预测用户对视频进行显著观看（例如较长时间或完整观看）的概率。这是播放时长最直接的衡量指标之一。
- vtr（View Through Rate）：预测用户观看视频的概率（无论时长）。通常与播放行为直接相关。
interaction 指标指标衡量用户对视频的主动互动行为，反映了用户的参与度和社交意愿，包括：
- ltr（Like Through Rate）：预测用户点赞视频的概率。
- wtr（Follow Through Rate）：预测用户关注创作者的概率。
- cmtr（Comment Through Rate）：预测用户评论视频的概率。
Infer Scaling：我们研究了 inference 中 generated items 数量（Pass@K）对模型性能的影响。如 Table 4 所示：
- Pass@K $K$ 从 8 增加到 512，所有 evaluated metrics 都实现了持续的性能改进。
- $K$ 从 512 进一步增加到 1024 仅带来了微小的收益。
performance improvements $K=512$ 部署在我们的生产环境中。
Pass@K 指标的意思是：当模型被要求生成 K candidates时，这 K candidates 整体所达到的推荐质量（通过各项业务指标来评估）。
Pass@K 中的 “Pass” 在这里并不是指 “通过率” 或 “至少有一个正确的概率” （像传统机器学习的 Pass@K 那样），而是泛指“生成 K items” 这一设定下的整体性能评估。
Pass@K 可以配合不同的搜索策略使用：
- 如果用 beam search，K 可能就是 beam width。
- 如果用采样方法，K 就是采样数量。

b. Semantic Identifier Input Representation

随着模型规模扩大到数十亿参数，我们探索了一种替代的 input representation 策略，即利用 video semantic identifiers 来表示 user interaction histories，而不是为 video identifiers (vid) 构建 separate sparse embeddings。这种 semantic identifier input 实现了与传统 sparse embedding 方法相当的性能，同时在参数效率、通信开销、以及序列处理能力（sequence processing capacity）方面具有显著优势，使其特别适合进一步的 scaling 探索。
Scaling Performance Analysis：如 Figure 11 和 Table 5 所示，我们的实证分析表明，在大规模（ 2.6B 参数）下，semantic identifier input 方法实现了与传统 sparse embedding 方法相当或更高的性能。
Advantages and Future Scaling：semantic identifier 方法相比传统 sparse embedding 方法具有几个关键优势，使其特别适合进一步的 scaling 探索：
- 参数效率（Parameter Efficiency）：通过在 input representations 和 output representations 之间共享 embeddings，模型无需为 vid 单独设置 sparse embedding tables 。这大大减少了总参数数量，特别是对于拥有数十亿 items 的 Kuaishou。
- 通信效率（Communication Efficiency）：在分布式训练（distributed training ）环境中，sparse embedding operations 需要大量的 parameter server communication 来进行 embedding lookup and gradient updates 。semantic identifier 方法通过利用 dense operations and shared vocabulary 减少了通信开销，从而提高了 training throughput 并减少了通信瓶颈。
- 扩展序列容量（Extended Sequence Capacity）：消除 large sparse embedding tables ，这使得计算资源能够分配用于处理更长的 user interaction sequences。这允许模型捕获更全面的 user preference evolution patterns，可能将序列长度从数千 interactions 扩展到数万 interactions 。
- 表征一致性（Representation Consistency）：input 和 output 之间共享相同的 semantic space 确保了 representational consistency，并使模型能够学习更连贯（coherent ）的 item-to-item relationships 。这种 unified representation 有可能促进跨不同推荐场景的更好的泛化。
鉴于这些令人信服的优势以及在 2.6B 参数规模上展示的有竞争力的性能，我们正在积极基于 semantic identifier input representation 进行进一步的 scaling 探索。这种方法有望为 large-scale recommendation systems 解锁新的可能性，同时保持计算效率和架构简洁性。

1.4.3 Reinforcement Learning

a. User Preference Alignment

定义是什么构成 a "good" recommendation 一直是一项具有挑战性的任务。为严格验证强化学习的影响，我们使用 single-objective vtr（观看完成率 view-through rate ）作为奖励，这对应于 Watch Time and App Stay Time 等 online metrics。reported online results 是相对于 Kuaishou 的传统推荐系统（称为 overall baseline）的相对改进。表中的 Relative Impr. 表示后一组相对于前一组的相对提升（relative enhancement）。
值得注意的是，虽然使用 vtr 作为奖励可以显著改善时长指标（duration metrics），但这并不一定意味着推荐质量高，因为其他指标（如视频观看量 Video View，它代表被观看视频的数量）可能会显著下降。我们主要关注 Watch Time and App Stay Time，以找到 optimal RL setting，并最终用它来验证 P-Score reward 的好处。
采样效率（Sampling Efficiency）：Reinforcement learning 优化 sampled items 的概率分布，以增加 selecting high-reward items 的可能性，从而显著提高采样效率（sampling efficiency）。为量化这种效果，我们在 pass@32、pass@128 和 pass@512 进行了 multi-point sampling experiments ，结果总结在 Table 6 中。将 model without RL 作为基线，我们将 app stay time 的改进定义为 sampling efficiency gap。值得注意的是，强化学习在 pass@32 处显示出最大的 improvement gap，top-ranked items 的accuracy 显著地得到提高。这种改进对于减少采样开销（sampling overhead）至关重要，因为它确保了在采样少量 items 时的 high precisionbalancing cost and benefit $K$ 下，enhanced accuracy 为实现这种平衡提供了坚实的基础。
注意：Video View 指标仅用于参考, 因为我们主要聚焦于 Watch Time and App Stay Time 指标。
搜索空间（Search Space）：在 ECPO 训练中， expanding action search space increases 增加了 discovering the optimal item with maximum reward 的可能性，尽管会带来更高的计算成本。为研究这种 trade-off，我们考察了 search space size （即 group size）对性能的影响。Table 7 总结了 pass@128 的结果。从 Table 7 中可以看出：
- 当 group size 从 128 增加到 512 时，性能显著提高。这清楚地展示了 expanding the search space 的积极影响。
- 令人有些失望的是，将 search space 增加到 2048 并没有带来太多额外好处，这可能是由于当前 reference model 的多样性不足以发现更多更好的 items 。
尽管如此，这一 finding 仍然很有希望，我们根据经验建议将 ECPO training group size 设置为 inference output 数量的大约四倍，以获得最佳结果。
- Group Size $G$ ECPO $\pi_\text{old}$ $G$ 个 candidats。这些 candidates 组成一个“组”（ group），用于后续的奖励计算和策略更新。
- Group Size 决定了每次策略更新时每个用户的探索广度。更大的 group size 意味着从策略中采样更多样化的 candidates，从而更有可能覆盖高奖励区域，帮助模型更准确地估计优势函数并稳定更新。
搜索策略（Search Strategy）：LLM 的强化学习通常采用 top-k and top-p sampling 从而用于 sample generation 。在 OneRec 中，我们也探索了 beam search 作为替代策略。Table 8 比较了这两种方法的结果，表明 beam search 在 OneRec 的强化学习框架中显著优于 top-k and top-p sampling 。这种改进源于 semantic ID structures 的固有规律性，它们遵循 a prefix tree encoding scheme ，因此与 beam search 的系统性探索（systematic exploration ）非常契合。
- top-k 和 top-p 采样：top-k 和 top-p（又称 nucleus sampling）都是随机采样策略，旨在生成多样化的输出。它们通过限制 candidate tokens 的范围来平衡 generation 的质量与多样性。
  - top-k $k$ 个 token（即 top-k candidates），然后在这些 token 中进行概率重采样（即按照归一化的概率分布随机选择一个）。
  - top-p $p$ （例如 0.9token $p$ ，然后仅从这个集合中采样。
  特点：
  - 随机性：由于采样是随机的，即使输入相同，每次生成的结果也可能不同。
  - 多样性：适合需要创造性和多样化的生成任务（如聊天、创作）。
  - 可能导致不一致：由于随机性，生成的序列可能不够连贯或稳定。
- beam search：beam search 是一种确定性搜索算法（尽管可以通过随机性扩展），旨在找到全局最优或近似最优的序列。它通过广度优先搜索的剪枝版本来减少计算量。
  具体做法：
  - $b$ （beam width）的候选序列集合（即 beam ）。
  - 在每个时间步，对于当前 beam 中的每个序列，扩展所有可能的下一个 tokentop-k $b$ 个序列作为新的 beam。
  - 重复直到序列结束（如达到最大长度或生成结束符）。
  特点：
  - 确定性：如果未引入随机性，相同的输入总是产生相同的输出（当 beam width 固定时）。
  - 聚焦最优：更倾向于选择整体概率最高的序列，适合需要精确性和一致性的任务（如机器翻译）。
  - 计算量：比贪婪搜索（每次选一个最优）更消耗计算，但通过 beam width 控制。

参考模型（Reference Model）：本节比较了用于 ECPO 的 strategy generation 的两种 reference models ：

(1) the pre-trained model (off-policy) 。
(2) the current policy model (on-policy) 。

reference modelpolicy ratio $\pi^\prime_{\theta_\text{old}}(o_i\mid u)$ 。核心作用：参考模型用于标准化（Normalize）新策略的动作概率。它提供了一个比较的基准，确保新策略的更新幅度不会偏离基准太远，从而维持训练的稳定性。
$\pi_{\theta_\text{old}}$ $\pi_{\theta}$ $\pi^\prime_{\theta_\text{old}}$ 为强化学习的参考模型。
维度 1. 预训练模型 (Off-Policy) 2. 当前策略模型 (On-Policy)
身份完成预训练后、未经过RL训练的原始生成模型。 上一轮RL迭代更新后的策略模型。
策略来源 通过海量曝光数据学习到的行为克隆模型，拟合的是传统系统的分布。通过RL对齐了用户偏好、格式奖励和业务奖励的强化后模型。
训练方式 Off-Policy（离策略）：参考模型与生成样本的策略（πθoldπθold）不同源。 On-Policy（在策略）：参考模型与生成样本的策略（πθoldπθold）相同。
探索空间 相对保守。探索范围被限定在预训练模型已知的“安全区”内。相对激进。以当前最佳策略为基准，鼓励在其基础上进一步探索和改进。
更新目标 目标是让RL模型逼近一个静态的、经验证的“好老师”。目标是让RL模型超越过去的自己，实现自我迭代进化。
类比 临摹大师字帖：以公认的经典（预训练模型）为绝对标准，力求模仿得惟妙惟肖。 与昨天的自己比赛：以自己当前的最佳水平为基准，不断寻求突破和进步。

维度	1. 预训练模型 (Off-Policy)	2. 当前策略模型 (On-Policy)
身份	完成预训练后、未经过RL训练的原始生成模型。	上一轮RL迭代更新后的策略模型。
策略来源	通过海量曝光数据学习到的行为克隆模型，拟合的是传统系统的分布。	通过RL对齐了用户偏好、格式奖励和业务奖励的强化后模型。
训练方式	Off-Policy（离策略）：参考模型与生成样本的策略（πθoldπθold）不同源。	On-Policy（在策略）：参考模型与生成样本的策略（πθoldπθold）相同。
探索空间	相对保守。探索范围被限定在预训练模型已知的“安全区”内。	相对激进。以当前最佳策略为基准，鼓励在其基础上进一步探索和改进。
更新目标	目标是让RL模型逼近一个静态的、经验证的“好老师”。	目标是让RL模型超越过去的自己，实现自我迭代进化。
类比	临摹大师字帖：以公认的经典（预训练模型）为绝对标准，力求模仿得惟妙惟肖。	与昨天的自己比赛：以自己当前的最佳水平为基准，不断寻求突破和进步。

实验结果总结在 Table 9 中。从表中可以明显看出，使用 current policy model 会产生更好的结果，特别是在 offline reward evaluation 中（即，vtr 指标）。这表明 on-policy 方法允许模型不断地自我学习，突破 reference model 的限制，实现更高的上限。

然而，在 online performance 方面，on-policy 方法的改进并不是很显著。这是由于 reward 的定义不够理想，导致轻微的奖励欺骗（reward hacking ）。我们将把这方面作为未来工作的关键方向。

P-Score Reward：本节观察了使用 P-Score 作为奖励时，强化学习所取得的综合改进。基于上述消融实验的结论，我们选择了最佳的 RL setting ，即：使用 beam search 生成强化学习样本，并采用 current policy model 作为 reference model 。我们考察了强化学习在两个场景（包括 Kuaishou 和 Kuaishou Lite ）中的影响，结果总结在 Table 10 中。
从表中可以得出结论：在这两个场景中，P-Score 显著提高了 App Stay Time and Watch Time ，同时也增加了 Video View ，表明整体用户推荐体验得到了提升。

b. Generation Format Regularization

本节通过实验验证 format reward 的有效性。如 Generation Format Regularization 章节所述，将强化学习融入 pre-trained model 后，由于 squeezing effect ，模型输出的合法性显著下降到 50% 以下。这意味着超过一半的 generated semantic IDs 没有对应的 actual video IDs ，这对 recommendations 的稳定性和 inference 的可扩展性不利。
我们通过比较计算 format loss 的两种 sample selection 方法来评估 format reward 的影响：
- (1)：从 128 generated candidates 中选择概率最高的 top-5 样本。
- (2)：随机选择 5 个样本。
Figure 12 说明了它们对输出合法性（output legality）的影响。左图显示了所有 128 generated samples 的合法率（legality rates ），右图则聚焦于 selected samples 。没有 format rewards 时，baseline legality 保持在 50% 以下。
- Top-k Selection 方法产生了一种有趣的模式：虽然 overall legality 先上升后下降，但 selected samples 迅速达到 100% 的合法率，表明模型仅学会在 top-ranked subset 中生成 legal outputs 。
- 相比之下，Random Selection 提出了一个更具挑战性的 learning objective，但却推动了稳定的改进——最终达到 95% 的合法率，且没有出现下降。
值得注意的是，format reward integration 带来的好处不仅仅是 legality。Online 指标显示出显著的提升：APP Stay Time 增加 0.13%，Watch Time 增加 0.30%。这个实验案例不仅验证了 format reward 机制，还强调了在强化学习系统中精心设计 reward 的关键作用。

c. Industrial Scenario Alignment

本节展示了一个使用强化学习来解决工业挑战的实际示例。在 Kuaishou 平台上，爆款内容工作室（viral content farms）占内容创作者的很大一部分，它们主要制作那些经过重新编辑和剪辑的视频（repurposed and clipped videos ），质量参差不齐。虽然 OneRec 在多个业务指标上表现优于传统推荐系统，但我们观察到，如果没有适当的 post-filtering 策略，爆款内容（viral content）的曝光率（exposure ratio）会显著增加，这可能会对平台的生态系统产生负面影响。
$f$ $f$ 时，我们降低它们的 P-score reward 以抑制它们，同时保持系统对这些内容质量的感知。
$\begin{matrix} r_{i}^{'} = {\begin{cases} r_{i}, & if o_{i} \notin I_{viral} \\ α r_{i}, & else \end{cases} \end{matrix}$
$\alpha \in(0,1)$ 是抑制因子（suppression factor）。
我们将这种方法称为特定工业奖励（Specific Industrial Reward: SIR）。实验结果表明，SIR 有效地将爆款内容曝光率降低了 9.59%，同时保持了核心指标（Watch time and APP Stay Time）的稳定性能。这个实验突出了 OneRec 的关键优势：通过强化学习的 reward-shaping 能力来实现精确且一致的 optimization，这是传统推荐系统根本不具备的特性。
$f$ $I_\text{viral}$ 。

1.4.4 Tokenizer

我们采用三个指标全面评估我们的 tokenization 方法，包括 accuracy、resource utilization 和 distribution uniformity：
- 重建损失（Reconstruction Loss）：该指标评估 discrete tokens 重建 original input 的准确性，作为模型关于保留 input data 的保真度（fidelity ）指标。
- 码本利用率（Codebook Utilization）（《Scaling the codebook size of vqgan to 100,000 with a utilization rate of 99%》）：该指标评估 codebook 中 vector usage 的效率，反映模型利用 available resources 来表达数据的有效性。
- Token Distribution Entropy（《The word entropy of natural languages》）：利用香农熵（Shannon entropy），该指标量化 token distribution 的均匀性，提供了模型中 token allocation 的 diversity 和 balance 的洞察。
  $H(X) = -\sum_{i=1}^n p(x_i)\times \log p(x_i)$ 。
如 Table 11 所示：
- 与 RQ-VAE 相比，RQ-Kmeans 的 reconstruction loss 降低了 25.18%，表明在保留 input information 方面具有更高的准确性。
- 同时，RQ-Kmeans 在所有三层中都实现了完美的利用率（1.0000），表明 codebook 中的资源效率达到了最优；而 RQ-VAE 在第 2 层和第 3 层的利用率略低。
- 此外，RQ-Kmeans 在所有三层中都表现出比 RQ-VAE 更高的熵值，在第 1/2/3 层分别显著提高了6.31%/3.50%/1.44%，这表明 RQ-Kmeans 产生了更均匀和更平衡的 token distribution，这有利于模型的稳定性和泛化能力。
  熵越高，越表明系统混乱、不确定、多样、平衡。
这些综合结果表明，RQ-Kmeans 在所有三个评估指标上都优于 RQ-VAE，使其成为更有效的 tokenization 的选择。
关于 item representation 和 tokenization quality 的进一步定性分析见附录 C。

1.4.5 Online A/B Test

我们在 Kuaishou 的两个主要短视频场景中部署了 OneRec：main Kuaishou feed 、Kuaishou Lite feed。它们是平台流量最高的两个场景，日活跃用户达 400 million 。我们设置了 5% 流量的实验组，观察期为一周，主要指标为 APP Stay Time（反映 total user engagement time ）和 LT7（7-day Lifetime ）。我们建立了两个实验组：一个采用纯生成式模型（OneRec），另一个通过 reward model based selection 来增强生成式输出（OneRec with RM Selection ）。如 Table 12所示：
- pure generative model with RL-based user preference alignment 显著达到了整个复杂的推荐系统的性能水平。
- 进一步应用 reward model selection 后，这两个场景的 APP Stay Time 分别实现了 +0.54%/+1.24% 的统计显著提升，LT7 分别提升了 +0.05%/+0.08%。值得注意的是，在 Kuaishou 上， APP Stay Time 提升 0.1%、LT7 提升 0.01% 就已被认为具有统计显著性。
  此外，OneRec with RM Selection 在所有 interaction 指标（点赞likes、关注follows、评论comments 等）上都表现出显著提升，表明其能够将多任务系统收敛到更平衡的状态，而不会出现跷跷板效应。
经过验证，我们已将部署扩展到约 25% 的 total QPS，实现细节见附录 B。
这充分说明了 reward model based selection 的重要性。
除了 Kuaishou 的短视频推荐场景外，我们还在其重要业务场景之一，本地生活服务（Local Life Service），中进行了实验。结果表明，OneRec 的商品交易总额（GMV）增长了 21.01%，订单量增加了 17.89%，买家数量增长了 18.58%，新买家获取量（new buyer acquisition）增加了 23.02%。因此，该系统现已接管了该业务场景 100% 的 QPS。全面部署后，我们观察到所有指标的增长都比初始实验阶段更为强劲。这些结果证明了 OneRec 在不同业务场景中的泛化能力，能够提升推荐性能。
基础设施和效率（Infrastructure and Efficiency）：我们使用 NVIDIA L20 GPU 进行推理，每台 server 配备 4 GPUs and 2 CPUs，通过 PCIe 连接。我们采用 Kuaishou 的 prediction platform，即 UniPredict ，来支持 online traffic。inference service 和 embedding service 部署在 200Gb RDMA data center，利用 RoCE networking 。最大的 inter-machine communication 带宽达到 800Gb。为提高效率，我们采用 TensorRT 对模型的计算图（computation graph ）进行编译和优化。通过自定义插件，我们实现了 cross-attention, MoE, and other operations 的高性能实现。结合 batching 和 MPS 技术，我们实现了 5 倍的吞吐量提升，MFU 达到 28.8%。

1.5 Conclusion, Limitations, and Future Directions

在本文中，我们介绍了 OneRec，一种新型端到端的生成式推荐架构。该模型作为 encoder-decoder model 来构建，模型通过 encoder 压缩 lifelong behavior sequences 以获取用户兴趣，同时利用混合专家（Mixture-of-Experts: MoE）大规模地 scale up 解码器参数（decoder parameters），实现精确的短视频 recommendation decoding。在 post-training 阶段，我们开发了定制化的强化学习（reinforcement learning: RL）框架，通过将 model outputs 与 reward function 对齐来优化 recommendations。得益于精心的 engineering optimizations，OneRec 在 training 和 inference 中实现了 23.7% 和 28.6% 的模型浮点运算利用率（Model FLOPs Utilization: MFU）——较个位数的 baselines 有了显著提升——缩小了与主流人工智能领域的差距。值得注意的是，这种计算密集型设计（compute-intensive design ）的运营成本（OPEX）仅为传统推荐系统的 10.6%。综合评估表明，OneRec 在有效性和效率方面都超越了现有的推荐系统。在承认其强大性能和高成本效益的同时，我们也认识到 OneRec 的一些局限性，并计划在以下领域进行重点投入：
- 推理阶段缩放（Inference Stage Scaling）：inference 阶段的 step scaling 尚未显现，表明 OneRec 目前缺乏强大的reasoning 能力。
  inference 阶段的 step scaling 指的是多步推理，典型案例是 Chain-of-Thought。
- 多模态整合（Multimodal Integration）：OneRec 尚未与大语言模型（LLMs）和视觉语言模型（VLMs）整合。用户行为也是一种模态，未来我们计划设计解决方案，使用户行为模态（user behavior modality ）成为 a native multimodal model，类似于 vision and audio alignment 。
- 奖励系统设计（Reward System Design）：reward system design 仍然非常基础，这是一个令人兴奋的方面。历史上，推荐系统并非端到端的，因此难以定义和迭代什么是好的 recommendation result。在 OneRec 架构下，reward system 既影响 online results，也影响 offline training。我们相信，这种结构将很快带来 recommendations 的 reward system 的技术突破。
OneRec 建立了一种全新的架构，为技术演进、业务价值优化（business value optimization ）、以及团队协作引入了变革性框架。虽然目前尚未在 Kuaishou 的所有流量场景中部署，但我们已将其作为基础方法（foundational approach），系统地推动算法创新的边界，同时完善团队协作机制，从而构建能够支持大规模流量增长的 scalable infrastructure 。

二、附录

2.1 Implementation Details of Online A/B Test (Appendix B)

本节介绍 OneRec 的 online A/B testing 的实现细节。在推荐系统中，用户的一次请求通常会触发多个 system modules 从而生成 real-time recommendation results 。但在实际应用中，巨大的 QPS（峰值 QPS 可超过 400k）需要大量资源来应对这种高并发。为解决这一问题，我们的系统引入了缓存机制（caching mechanism）：对于每个用户请求，系统返回 k recommendation results。除实际曝光的 items 之外，remaining items 作为 candidates 存储在缓存池（cache pool）中。当系统面临高 QPS 负载时，会检索 cached results 进行展示，在资源占用（resource usage）和实时性能（real-time performance）之间实现平衡。因此，我们将 QPS 大致分为实时流量（real-time traffic ）和降级流量（degraded traffic）（即，cached traffic），OneRec 的 online experiment 专门针对这部分降级流量进行升级。采用这种实验设置主要有两个原因：
- 1)：以往的缓存机制严重牺牲了时效性优势，在晚间请求量高峰时段影响用户体验（user experience）。然而，“禁用缓存机制” 会带来巨大的资源成本；但是，OneRec 高效的端到端 pipeline 和 optimized MFU 大幅降低了系统的运营成本（OPEX），同时实现了显著的性能提升。
- 2)：OneRec 代表了一种全新的架构，为技术迭代、业务优化、以及团队协作引入了新范式。我们以这部分流量为起点，不断探索技术边界和团队协作机制，为承载更多流量奠定坚实基础。
如 Online A/B Test 章节所述，我们的实验组流量占比为 5%，其中 OneRec 应用于该组内 25% 的降级流量。尽管覆盖范围有限，但我们在两个场景中均观察到显著的性能提升，app stay time 分别提高了 0.54%/1.24%。
为进行更严谨的对比，我们额外设置了 1% 的实验组，禁用缓存（所有流量均请求 real-time recommendations ）。即使与该 baseline 相比，OneRec 仍表现出更优的性能（如 Table 13 所示）。我们还观察了 OneRec 与 caching disabled strategy 在 LT7 指标上的增长趋势，Figure 13 显示 OneRec 展现出明显更强的提升趋势。
通过严格的 online A/B testing，我们的 OneRec 系统已成功替代原有的 caching mechanism，目前在 Kuaishou 主要场景中承载了 25% 的流量。

2.2 Case Study for Tokenization (Appendix C)

2.2.1 Representation Cases

为评估我们的 aligned collaborative-aware multimodal representations，我们将其与传统推荐系统（RS）的 collaborative representations、以及从 caption/visual/OCR features 中提取的 pure multimodal representations 进行对比。Figure 14、Figure 15 和 Figure 16 展示了案例：在不同 representations 方式下，由 query videos 从 user history 中检索 results。
我们的分析表明：
- 仅仅基于 collaborative signals 来训练的 collaborative representations 虽能捕获 co-occurrence patterns ，但缺乏语义相关性（semantic relevance）。这导致 retrieved videos 与 query videos 存在类别错位（categorical misalignment），例如 Figure 15 (row 2) 中为 “花艺” 查询（floral art query）召回了绘画内容（painting content）。
- 相反，pure multimodal representations 虽能检索具有表面特征相似性（surface-level feature similarities）的视频（例如，Figure 14 (row 3) 中含水果元素的视频，或 Figure 16 (row 3) 中与酒相关的视频），但与 query videos 存在本质的类别差异（categorical discrepancies）。
- 相比之下，我们提出的 representations 整合了多模态与协同信号（collaborative signals），能够检索具有多方面相关性（multifaceted relevance）的视频。这表明我们的 representations 克服了单模态表示（unimodal representations）的局限性，同时对内容语义（content semantics）和行为模式（behavioral patterns）进行建模。

2.2.2 Tokenization Cases

Figure 17 和 Figure 18 展示了案例： RQ-Kmeans 所生成的 discrete item semantic identifiers。我们的 tokenization 方法可生成 coarse-to-fine item semantic identifiers，其中第一个 codeword 代表最粗粒度的 category，第二个和第三个 codewords 对应的 categories 粒度逐渐变细。

2.3 符号说明 (Appendix D)

我们在 Table 14 和 Table 15 中总结了本文中使用的关键符号。