一、OneTrans [2025]

《OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender》

  1. 在推荐系统中,scaling up 特征交互模块(如 WukongRankMixer)或用户行为序列模块(如 LONGER)的规模已取得显著成效。然而,这些研究通常沿着独立路径推进,不仅阻碍了双向信息交换,还无法实现 unified optimization and scaling 。本文提出 OneTrans,一种统一的 Transformer 骨干网络,能够同时执行用户行为序列建模与特征交互。OneTrans 采用 unified tokenizer ,将 sequential attributesnon-sequential attributes 转换为 a single token sequence。堆叠的OneTrans blockssequential tokens 间共享参数,同时为 non-sequential tokens 分配 token-specific parameters。通过causal attention 机制和 cross-request KV cachingOneTrans 支持 intermediate representationsprecomputationcaching,大幅降低 traininginference阶段的计算成本。工业级数据集上的实验结果表明,OneTrans 随着参数增加实现高效的 scales,持续优于 strong baselines,且在 online A/B tests 中实现了 5.68%per-user GMV 提升。

  2. 推荐系统在各类 information services 中扮演着核心角色,例如电子商务、流媒体、和社交网络。工业级推荐系统通常采用级联排序架构(cascaded ranking architecture)。

    • 首先,召回阶段从十亿级别的语料库中筛选出数百个 candidates

    • 随后,排序阶段(通常包含粗排和精排)对每个 candidate 进行评分,并返回 top-k items

    本文聚焦于排序阶段(ranking stage)。对于ranking 任务,主流方法围绕两个独立模块展开迭代:

    • 序列建模(sequence modeling):通过 local attentionTransformer encoders,将 user multi-behavior sequences 编码为 candidate-aware representations

    • feature interaction:通过因子分解、显式交叉网络、或 attention over feature groups,学习 non-sequential features(如用户画像、item 画像、以及上下文)之间的 high-order crosses

    如图 Figure 1(a) 所示,这些方法通常将用户行为编码为 compressed sequence representation ,然后与 non-sequential features 拼接,并应用 feature-interaction module 学习高阶 interaction 。我们将这种设计称为 encode-then-interaction pipeline

    事实上,Longer《LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders》 )采用的就是 Figure 1 (b) 的方式。

     

    大型语言模型(large language models: LLMs)的成功表明,扩大模型规模(如参数数量、训练数据)能带来可预测的性能提升(《Scaling laws for neural language models》),这启发了推荐系统领域的类似研究(《LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders》《Wukong: Towards a scaling law for large-scale recommendation》《RankMixer: Scaling Up Ranking Models in Industrial Recommenders》)。

    • 在特征交互( feature interaction )方面,Wukong通过堆叠 Factorization Machine blocks with linear compression 来捕获高阶 feature interactions 并建立 scaling laws ,而 RankMixer 通过 hardware-friendlytoken-mixing with token-specific feed-forward networks (FFNs) 实现了良好的 scaling 效果。

    • 在序列建模(sequence modeling)方面,LONGERcausal Transformer 应用于 long user histories,表明增加 depthwidth能带来单调提升。

    尽管这些方法在实际应用中有效,但将 sequence modelingfeature interaction 分离为独立模块的做法存在两个主要局限:

    • 首先,encode-then-interaction pipeline 限制了双向的信息流,制约了 static/context featuressequence representations 的塑造作用(《Interformer: Towards effective heterogeneous interaction learning for click-through rate prediction》)。

    • 其次,module separation 导致执行过程碎片化并增加 latency,而单一的 Transformer-style 的骨干网络可复用 LLM 的优化技术(如 KV cachingmemory-efficient attention 、以及 mixed precision ),实现更有效的 scaling《Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems》)。

    本文提出 OneTrans,一种创新的架构范式(architectural paradigm),其统一的 Transformer 骨干网络能够联合执行 user-behavior sequence modelingfeature interaction。如 Figure 1(b) 所示,OneTrans 在统一骨干网络(unified backbone )中支持双向的信息交换。它采用 unified tokenizer,将 sequential featuresdiverse behavior sequences )和 non-sequential featuresstatic user/item and contextual features )转换为 a single token sequence,随后由 stacked OneTrans blocks 构成的金字塔结构处理。OneTrans block 是一种专为工业级推荐系统定制的 Transformer 变体。为适应推荐系统中 diverse token sourcesLLMs 中仅含 text-only tokens ,这与推荐系统不同),每个 OneTrans block 采用类似于 HiFormermixed parameterization 。具体而言,所有 sequential tokens (来自 sequential features)共享 a single set of Q/K/V and FFN weights ,而每个 non-sequential token (来自 non-sequential features )获得 token-specific parameters 以保留其独特的语义。

    与传统的 encode-then-interaction 框架不同,OneTrans 通过 unified causal Transformer backbone 消除了 sequential featuresnon-sequential features之间的架构壁垒。这种设计使推荐系统的 scalingLLM 实践保持一致:整个模型可通过调整骨干网络的 depthwidth 进行 scale,同时无缝继承成熟的 LLM optimizations技术,如 FlashAttentionmixed precision training。特别是,cross-candidate KV cachingcross-request KV cachingsessions with C candidates 的时间复杂度从 O(C) 降至 O(1),使 large-scale OneTrans deployment 成为可能。

    总之,本文的主要贡献包括四个方面:

    • Unified framework:提出 OneTrans,一种用于 rankingsingle Transformer backbone ,配备 unified tokenizer(将 sequential featuresnon-sequential features 编码为 one token sequence )和 unified Transformer block (联合执行序列建模与特征交互)。

      这个思想已经在 Longer 中被提出。

    • Customization for recommenders:为弥合 LLMs 与推荐系统任务之间的差距,OneTrans 引入 mixed parameterization ,为 diverse non-sequential tokens 分配 token-specific parameters ,同时为 all sequential tokens 共享 parameters

      这个思想借鉴了 Hiformer

    • Efficient training and serving:通过逐步裁剪 sequential tokens 的金字塔策略(pyramid strategy )、以及 cross-request KV Caching (跨 candidates 来复用 user-side computations )来提升效率。此外,采用FlashAttentionmixed-precision traininghalf-precision inferenceLLM optimizations进一步减少内存占用和计算量。

    • Scaling and deploymentOneTrans 随着模型规模增大呈现 near log-linear 的性能提升,为 real production data 中的 scaling law 提供了实证。在线部署时,它在保持工业级 latency 的同时,实现了业务 KPIs 的显著提升。

1.1 相关工作

  1. 早期推荐系统如 DIN 及其 session-aware 变体 DSIN 采用 local attention 学习 user historiescandidate-conditioned summaries,但会将 behaviors 压缩为 fixed-length vectors per candidate,限制了 long-range dependency modeling《Deep Interest Evolution Network for Click-Through Rate Prediction》)。

    SASRecBERT4RecBSTself-attentive 方法通过允许每个 position 关注 full history 来消除了这一瓶颈,并通过双向掩码(bidirectional masking)提高了样本效率。

    近年来,随着推荐系统中 scaling laws 的研究日益深入,LONGER 通过高效的 attentionserving-friendly 的设计,将 sequence modeling 推向工业级规模,以处理超长的 behavioral histories

    然而,在 mainstream pipelines 中,这些 sequence encoders 通常与 feature-interaction stack 是分离的,导致与 static contextual features 的后期融合(late fusion )而非联 joint optimization《Interformer: Towards effective heterogeneous interaction learning for click-through rate prediction》)。

    Longer 是联合优化的。

  2. feature-interaction 方面,早期推荐系统依赖人工设计的 cross-featuresautomatic multiplicative interaction layersWide&DeepFM/DeepFMDCN/DCNv2 等经典模型提供了高效的 low-order interactionsbounded-degree interactions

    然而,近期 scaling 研究发现(《Wukong: Towards a scaling law for large-scale recommendation》),一旦模型堆叠了足够多的 cross layers,继续增加层数将不再带来提升:模型性能会趋于平稳而非持续改善。为克服预设的 cross forms 的僵化(rigidity ),attention-based 的方法可自动学习 high-order interactionsAutoInt 学习任意阶次的关系,HiFormer 引入 group-specific projections 以更好地捕捉异构的、非对称的 interactions

    scaling up 越来越多地应用于 feature-interaction 模块:

    • Wukonglarge-scale systems 通过堆叠 FM-style interaction blocks with linear compression 实现可预测的性能提升。

    • RankMixer 在严格的 latency budgets 下,通过 parallel token mixingsparse MoE 实现了良好的 scaling

    然而,这些 interaction 模块通常遵循 encode-then-interaction 的范式,将 interactions 推向独立的阶段,阻碍了与 user sequence modelingunified optimization《Towards effective heterogeneous interaction learning for click-through rate prediction》)。

  3. 迄今为止,推荐系统的进展主要沿着两条独立路径推进:sequence modelingfeature interactionInterFormer《Towards effective heterogeneous interaction learning for click-through rate prediction》)试图通过 summary-basedbidirectional cross 架构来弥合这一差距,实现两个组件之间的 mutual signal 的交换。但它仍将两者保持为独立模块,且 cross architecture 引入了架构复杂性和碎片化执行(fragmented execution)的问题。缺乏用于联合 modelingoptimizationunified backbone ,使得系统难以作为一个整体进行有效地 scaling

1.2 方法

  1. 在详细介绍方法之前,先简要描述 task setting。在级联的工业级推荐系统中,每次召回阶段(recall stage)都会为用户 u 返回一个 candidate set(通常包含数百个 candidate items)。ranking model 随后为每个 candidate item i 预测一个分数:

    y^u,i=f(iNS,S;Θ)

    其中:

    • NS 是来自 usercandidate itemcontextnon-sequential 特征集合。

    • S 是来自用户的 historical behavior sequences 的集合。

    • Θ 是可训练参数。

    常见的 task predictions 包括点击率(click-through rate: CTR )和点击后转化率(post-click conversion rate: CVR):

    CTRu,i=p(click=1NS,S;Θ)CVRu,i=p(conv=1NS,S;Θ)

1.2.1 OneTrans Framework Overview

  1. Figure 2(a) 所示,OneTrans 采用 unified tokenizer ,将 sequential features S 映射为 S-tokens,将 non-sequential features NS 映射为 NS-tokens 。然后,金字塔堆叠的 Transformersingle computation graph 中联合处理该 unified token sequence 。我们将 initial token sequence 表示为:

    X(0)=[S-tokens;NS-tokens]R(LS+LNS)×d

    token sequenceLSS-tokensLNSNS-tokens 拼接而成,所有 tokens 的维度均为 d。需要注意的是,S-tokens 中插入了可学习的 [SEP] tokens ,用于分隔不同类型的 user-behavior sequences

    注意,这里的 [SEP] tokens 用于分隔不同类型的用户行为,采用的是 Timestamp-agnostic 方案。根据论文的描述,也可以采用 Timestamp-aware 方案,此时没有 [SEP] token,而是用 sequence-type indicator

  2. Figure 2(b) 所示,每个 OneTrans block 通过以下步骤逐步 refines the token states

    Z(n)=MixedMHA(Norm(Xn1))+X(n1)X(n)=MixedFFN(Norm(Z(n)))+Z(n)

    其中,MixedMHAMixed Multi-Head Attention )和 MixedFFNMixed Feed-Forward Network )采用混合参数化(mixed parameterization )策略(见 Figure 2(c) ):

    • attention layer (以及 feed-forward layers )中,在 sequential tokens 间共享权重。

    • attention layer (以及 feed-forward layers )中,为 non-sequential tokens 分配独立参数。

    注意:这里的 RMSNormpre-norm 方法,它仅仅对 MixedMHAMixedFFN 的输入进行归一化,不会影响 residual

  3. unified causal mask 施加了自回归约束(autoregressive constraints ),限制每个 position 仅关注 preceding tokens 。具体而言,NS-tokens 允许关注 S-tokens 的所有历史,从而实现全面的 cross-token interaction

    通过堆叠此类 blocks 并对S-tokens 应用金字塔式尾部截断(pyramid-style tail truncation),模型逐步将紧凑的高阶信息提取到 NS-tokens 中。 final token states 随后被传入 task-specific heads 从而用于预测。

    Figure 2 (c) 中,用户行为序列按照时间的逆序排列,前面的 engagement 距离现在最近、后面的 engagement 距离现在最远。每个 position 仅仅关注它当前及其它后面的位置(参考 Longer 模型的论文)。

    每次截断时,仅选择 NS-tokens 、以及最近的 klS-tokens 的并集作为 query,但是 key/value 为所有 tokens

  4. 通过将 non-sequential featuressequential features 统一为 unified token sequence ,并使用 causal Transformer 进行建模,OneTrans 摆脱了传统的 encode-then-interaction pipeline。这种 unified design 自然支持:

    • (i):每个 behavior sequence 内部的 intra-sequence interactions

    • (ii):跨多个序列之间的 cross-sequence interactions

    • (iii)item featuresuser featurescontextual features 之间的 multi-source feature interactions

    • (iv)sequence-feature interactions

    所有这些均在 single Transformer stack 中完成。

    这种统一形式使我们能够无缝继承成熟的 LLM engineering optimizations ,包括 KV cachingmemory-efficient attention ,从而大幅降低 inference latency。我们认为,这种统一形式非常适合在 single, and scalable architecture 中解决 multi-sequence and cross-domain recommendation 的挑战。接下来,将详细介绍具体设计。

1.2.2 Features and Tokenization

  1. 为构建 initial token sequence X(0)OneTrans 首先应用 feature preprocessing pipeline ,将所有 raw feature inputs 映射为 embedding 向量。然后将这些 embedding 向量划分为:

    • (i):一个 multi-behavior sequential subset

    • (ii):一个 non-sequential subset ,代表 user, item, or context features

    对每个子集应用独立的 tokenizers

  2. Non-Sequential TokenizationNon-sequential features NS 包括 numerical inputs (如 priceCTR)和 categorical inputs(如 user IDitem category )。所有特征均经过 bucketizedone-hot encoded 之后被 embedded 。由于工业系统通常涉及数百个重要性各异(varying importance )的特征,控制 non-sequential tokens 数量 LNS 有两种选择:

    • Group-wise Tokenizer(与 RankMixer 一致):将特征手动划分为语义组(semantic groups{g1,,gLNS}。每个组的特征,先进行拼接,然后输入 group-specific MLP

      NS-tokens=[MLP1(concat(g1)),,MLPLNS(concat(gLNS))]

      即,先将组内的 embeddings 拼接起来,再进行投影。这里如何分组是一个关键。

    • Auto-Split Tokenizer:另一种方式是将所有特征拼接后通过单个 MLP 进行一次投影,然后分割:

      NS-tokens=split(MLP(concat(NS)),LNS)

      Auto-Split Tokenizer 通过使用 a single dense projection ,与Group-wise Tokenizer 相比减少了 kernel launch 开销。

    我们将通过实验评估这两种选择。最终, non-sequential tokenization 生成 LNSnon-sequential tokens ,每个 token 的维度为 d

    这两种方法都大幅降低了 NS-Tokens 的数量 LNS,从而降低了 Attention 的复杂度。论文在实验部分选择的是 Auto-Split Tokenizer

    Longer 模型中,它通过 Group-wise TokenizerS-Tokens 也进行分组,从而支持超长序列建模。

  3. Sequential TokenizationOneTrans 接受 multi-behavior sequences,记作:

    S={S1,,Sn},Si=[ei,1,,ei,Li]

    其中:

    • Si 表示第 i 个序列,包含 Lievent embeddingsei,1,,ei,Li

      每个序列代表不同的行为类型,例如:点击行为序列、转化行为序列。

    • ei,j 表示第 i 个序列中第 jeventembedding,由 item ID 与其对应的辅助信息(如 item categoryitem price )拼接而成。

    Multi-behavior sequences 的原始维度可能不同。因此,对于每个序列 Si,我们使用一个共享投影 MLPi 将其所有事件 ei,j 转换为统一维度 d

    S~i=[MLPi(ei,1),,MLPi(ei,Li)]RLi×d

    对齐后的序列 S~i 通过以下两种规则之一合并为 a single token sequence

    • 1) Timestamp-aware:按时间交错所有事件,并添加 sequence-type indicators

      sequence-type indicators 类似于 position embedding :它引入一个 sequence-type embedding ,然后加入到每个 token embedding 上。

      注意:对于 OneTrans blocksequence 按照时间递增来排序。这与 Longer 相反。

    • 2) Timestamp-agnostic:按事件影响力(event impact )来拼接序列(如 purchase -> add-to-cart -> click),在序列之间插入 learnable [SEP] tokens

      最重要的序列放在左边,因为 causal masking 使 high-intent signals 能够指导和过滤后续的 low-intent behaviors

    在后一种情况下,behaviors with higher user intent 被置于序列前端。消融实验结果表明,当时间戳可用时,timestamp-aware rule 优于 timestamp-agnostic 的方案。

    形式上,有:

    S-Tokens=Merge(S~1,,S~n)RLS×d,LS=(i=1nLi)+LSEP

    注意:对于 Timestamp-aware 方案,LSEP=0;仅在 Timestamp-agnostic 方案中,LSEP>0

1.2.3 OneTrans Block

  1. Figure 2(b) 所示,每个 OneTrans block 是一个 pre-norm causal Transformer ,应用于一个 normalized token sequence 之上。这个 sequence 包含 LSsequential S-tokens ,后跟 LNSnon-sequential NS-tokens 。受 heterogeneous feature groups 相关研究结果(《Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems》)启发,我们对 Transformer 进行轻量级修改,以支持 mixed parameter 方案(见 Figure 2(c))。具体而言,homogeneous S-tokens 共享一组参数。而来自不同来 sources/semanticsheterogeneous NS-tokens 则获得 token-specific parameters

    LLM inputs 不同,推荐系统中的 token sequence 结合了 sequential S-tokensdiverse NS-tokens ,这些 tokens 的数值范围和 statistics 的差异显著。post-norm setups 可能因这些差异导致注意力崩溃(attention collapse)和训练不稳定性(training instability)。为避免这种情况,我们对所有 tokens 应用 RMSNorm 作为 pre-norm ,跨不同 token types 对齐 scales 并稳定 optimization 过程。

    RMSNormLayerNorm 的变体。对于 LayerNorm,给定变量 aRna¯=LayerNorm(a) 定义为:

    μ=1ni=1nai,σ=1ni=1n(aiμ)2a¯i=aiμσgi+bi

    其中:g,bRn 为待学习的参数;a¯i,gi,bi 分别为 a¯,g,b 的第 i 个元素。

    RMSNorm 定义为:

    a¯i=ai1ni=1nai2gi

    RMSNorm 没有减去均值的操作(即,没有中心化操作),只有缩放操作,因此计算效率更高。实践表明,RMSNorm 的效果与 LayerNorm 没有明显差异,因此目前主流的 LLM 均采用 RMSNorm 方法。

  2. Mixed (shared/token-specific) Causal AttentionOneTrans 采用标准 multi-head attention: MHA 并配备一个 causal attention mask ;唯一的修改在于 Q/K/V 的参数化方式。设 xiRd 为第 itoken 。为计算 Q/K/V ,对 S-tokensiLS) 使用共享投影,对 NS-tokensi>LS )使用 LNStoken-specific projections

    (qi,ki,vi)=(WiQxi,WiKxi,WiVxi)

    其中:WiΨΨ{Q,K,V})遵循 mixed parameterization 方案:

    WiΨ={WSΨ,iLS (shared for S-tokens)WNS,iΨ,i>LS (token-specific for NS-tokens)

    Attention 使用标准的因果掩码(causal mask);此外,NS-tokens 位于 S-tokens 之后。这导致:

    • (1) S-side :每个 S-token 仅关注 S 事件发生之前的 positions (在 Figure 2a 上表现为该 token 右侧的 tokens)。

      • 对于 timestamp-aware sequences ,每个 event 均以其历史为条件。

      • 对于 timestamp-agnostic sequences (按 intent 来排序,如 purchase -> add-to-cart -> click/impression ), causal masking 使 high-intent signals 能够指导和过滤后续的 low-intent behaviors

      注意:对于 OneTrans blocksequence 按照时间递增来排序。这与 Longer 相反。

    • (2) NS-side :每个 NS-token 关注完整的 S 历史(实际上是 sequence evidencetarget-attention aggregation ),并关注 preceding NS-tokens ,增加 token-level interaction diversity

      问题是,NS-tokens 之间如何排序?论文并未详细说明。是否在 NS-tokens 之间采用 non-causal mask,使得它们之间可以相互关注?可以做消融实验来研究。

    • (3) Pyramid support:在 S-sideNS-sidecausal masking 均逐步将信息集中到 later positions,自然支持 pyramid schedule (逐层裁剪 tokens ),这在后续将详细介绍。

  3. Mixed(shared/token-specific) FFN:类似地,feed-forward network: FFN 遵循相同的 parameterization 策略:NS-tokens 使用 token-specific FFNsS-tokens 使用一个共享的 FFN

    MixedFFN(xi)=Wi2ϕ(Wi1xi)

    其中:WiΨΨ{1,2})遵循 mixed parameterization 方案:

    WiΨ={WSΨ,iLS (shared for S-tokens)WNS,iΨ,i>LS (token-specific for NS-tokens)
  4. 总之,与标准 causal Transformer 相比,OneTrans 仅修改了 parameterization

    • NS-tokens 使用 token-specificQKVFFN

    • S-tokens 共享一组 parameters

    每个 sequence 对应于单个 causal mask ,允许 NS-tokens 聚合完整的 behavior history ,同时保留高效的 Transformer-style 的计算。

    “每个 sequence 对应于单个 causal mask ” 怎么理解?读者认为是:

    • S-tokens 上应用了 causal mask,使得每个事件只能关注它发生之前的事件、以及所有的 NS-tokens

    • NS-tokens 之间采用 non-causal mask,使得它们之间可以相互关注?可以做消融实验来研究。

1.2.4 Pyramid Stack

  1. 如前面章节所所述,causal masking 将信息集中到 later positions 。利用这种 recency structure ,我们采用金字塔调度(pyramid schedule):在每个 OneTrans block layer,仅将 most recent S-tokens 的一个子集来生成 queries ,而 keys/values 仍基于 full sequence 来计算;query setdepth 来缩小。

    这里借鉴了 Longer 模型的思想。

    X={xi}i=1Linput token listQ={LL+1,,L} 表示尾部索引集合,其中 LL。根据 Mixed (shared/token-specific) Causal Attention ,我们将 queries 修改为:

    qi=WiQxi,iQ

    keysvalues 照常基于 full sequence {1,,L} 计算。attention 计算后,只有 iQ 的输出被保留下来,将 token length 缩减至 L ,并在各层之间形成金字塔层级结构(pyramidal hierarchy )。

    这种设计带来两个好处:

    • (i) Progressive distillation:长的 behavioral histories 被汇集到少量的尾部 queries 中,将模型能力集中于 most informative events ,并将信息整合到 NS-tokens

    • (ii) Compute efficiencyattention cost 变为 O(LLd)FFNL 线性地 scales 。缩小 query set 直接减少了 FLOPsactivation memory

    在模型配置中,实际上配置的是 α=LL 比值,它给出金字塔结构中层与层之间的缩放比例。

1.2.5 Training and Deployment Optimization

  1. Cross Request KV Caching:在工业推荐系统中,来自同一 request 的样本在 trainingserving 期间均被连续地处理:其 S-tokens 在所有 candidates 之间保持一致,而 NS-tokenscandidate item而异。利用这一结构,我们将广泛采用的 KV Caching 集成到 OneTrans 中,形成 a unified two-stage paradigm

    • Stage I (S-side, once per request):使用 causal masking 处理所有 S-tokens ,并缓存其 key/value pairsattention outputs 。该阶段每个 request 执行一次。

    • Stage II (NS-side, per candidate):对于每个 candidate ,计算其 NS-tokens ,并与 cached S-side keys/values 进行 cross-attention 计算,随后通过 token-specific FFN layers 。特别地,candidate-specific sequences (如SIM《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》)通过 pooling 来被预聚合为 NS-tokens ,因为它们无法复用 shared S-side cache

    KV CachingS-side computationcandidates 之间分摊,使 per-candidate work 轻量化,并消除冗余计算,显著提升吞吐量。

    由于 user behavioral sequences 是追加式(append-only )的,我们将 KV Caching 扩展到跨 requests 的场景:每个 new request 复用 previous cache ,仅对新增的 behaviors 计算增量的 keys/values 。这将 per-request sequence computationO(L) 减少到 O(ΔL) ,其中 ΔL 是自上次 request 以来的新增 behaviors 数量。

    注意:跨 requests 的场景需要谨慎处理 position-embedding,因为 position 在增加。

    此外,如果序列考虑 time-embedding,那么随着新的 request 的到来, previous cache 将会失效。因为在新 request 中,历史 behaviors 距离当前 request 的时间发生了改变。

  2. Unified LLM Optimizations:我们采用 FlashAttention-2,通过分块(tiling )和内核融合(kernel fusion )减少 attention I/Ovanilla attentionquadraticme activation footprint ,在 traininginference 中均实现更低的内存使用和更高的吞吐量。

    为进一步缓解内存压力,我们使用 mixed-precision trainingBF16/FP16)结合 activation recomputation,即在前向传播中丢弃 selected forward activations,并在反向传播期间重新计算。这种组合以少量额外计算为代价,大幅节省内存,无需架构修改即可支持更大的 batches 和更深的模型。

1.3 实验

  1. 通过离线评估和在线测试,我们旨在回答以下 Research Questions: RQs

    • RQ1Unified stack vs. encode–then–interaction :在计算量相当的情况下,single Transformer stack 是否能带来持续的性能提升?

    • RQ2:哪些 design choices 至关重要?通过对 input layer(如 tokenizersequence fusion)和 OneTrans block(如 parameter sharingattention typepyramid stacking)进行消融实验,评估不同 design choice 对性能和效率的重要性。

    • RQ3:系统效率:pyramid stackingcross-request KV CachingFlashAttention-2 以及 mixed precision with recomputation,在相同 OneTrans graph 下是否能减少 FLOPs/memorylatency

    • RQ4Scaling law :当增加 lengthtoken sequence length )、width (模型维度 dmodel )、depth(层数)时,loss/performance 是否呈现预期的 log-linear 趋势?

    • RQ5Online A/B Tests :在 production latency 约束下,在线部署 OneTrans 是否能在关键业务指标(如 order/uGMV/u )上实现显著提升?

  2. 数据集:对于离线评估,我们在大规模工业排序场景中使用生产日志评估 OneTrans,严格遵守隐私合规要求(所有个人身份信息均经过匿名化和哈希处理)。数据按时间顺序分割,所有特征均在 impression 时刻被快照,以防止时间泄露并确保 online-offline 一致性。label(如 clicksorders)在与 production settings 对齐的 fixed windows 内聚合。Table 1总结了数据集统计信息。ho

  3. 任务和评估指标:我们评估两个二分类 ranking 任务:CTRCVR。性能通过 AUCUAUCimpression-weighted user-level AUC )来衡量。

    • Next-batch evaluation:数据按时间顺序处理。对于每个 mini-batch(i)eval mode 下记录 predictions ;然后(ii) 在同一 mini-batch 上训练。

      即:训练时评估。

      AUCUAUC 每日根据当天的 predictions 来计算,最终按天进行宏观平均。

      是否要在训练 N 天之后再开始评估?如果第一个 mini-batch 就开始评估,那么模型显然还没有训练好。这时候的评估结果是没有意义的。

      此外,当模型训练到第二个 epoch 的时候,模型已经见过这个 batch 的样本。因此,读者怀疑论文仅仅训练了一个 epoch ,使得每个 batch 在评估的时候都是模型未见过的。

    • 效率指标:报告参数数量(不包括 sparse embeddings 的模型参数)和 TFLOPsbatch size 2048 时的训练计算量,以TFLOPs 为单位)。

  4. baselines:我们使用相同 featuresmatched compute budgets ,构建 industry-standard model combinations 作为基线。在 encode-then-interaction 范式下,从广泛使用的 production 基线 DCNv2+DIN 开始,逐步增强 feature-interaction 模块:DCNv2 -> Wukong -> HiFormer -> RankMixer 。固定 RankMixer 后,改变 sequence-modeling 模块:StackDIN -> Transformer -> LONGER

  5. Hyperparameter Settings:我们报告两种 settings

    • OneTransS 使用 6 stacked OneTrans blocks ,宽度 d=256heads 数量 H=4 ,目标参数约 100M

    • OneTransL扩展到 8 层,宽度 d=384heads 数量仍然为 H=4

    此外:

    • Inputs 通过 a unified tokenizer 来处理:multi-behavior sequencestimestamp-aware 方式来融合;non-sequential features 通过 Auto-Splittokenize

    • pyramid scheduletokens 数量从 1190 线性地缩减至 12

    Optimization and infrastructure

    • 采用 a dual-optimizer strategy without weight decay

      • sparse embeddings 使用 Adagrad 优化,β1=0.1,β2=1.0

      • dense parameters 使用 RMSPropV2 优化,lr=0.005, momentum=0.99999

    • 训练期间: per-GPU batch size 设置为 2048dense layers 的梯度裁剪阈值为 90sparse layers 的梯度裁剪阈值为120 ,以确保稳定优化。

    • online inference 时:per-GPU batch size 设置为更小的 100,以平衡吞吐量和 latency

    • 训练在 16 H100 GPUs 上使用 data-parallel all-reduce

1.3.1 RQ1: 性能评估

  1. 我们以 DCNv2+DIN(我们场景中的 pre-scaling production baseline )为基准进行比较(Table 2 )。

    • encode-then-interaction 范式下,独立扩大任一组件均有益:升级 feature interaction 模块(DCNv2 -> Wukong -> HiFormer -> RankMixer)或 sequence modeling 模块(StackDIN -> Transformer -> LONGER),均能持续提升CTR AUC/UAUCCVR AUC

      在我们的系统中,这些指标提升超过 +0.1% 被认为是有意义的,而提升超过 +0.3% 通常对应 online A/B tests 中的统计显著效果。然而,由于 per-user sample sizes 更小、且波动性更高,CVR UAUC 的解读需谨慎。

    • 转向 unified design 后,OneTransSCTR AUC/UAUC 上比基线提升 +1.13%/+1.77% ,在 CVR AUC/UAUC 上提升+0.90%/+1.66% 。在参数规模相当的情况下,它还优于 training FLOPs 相近的 RankMixer+Transformer2.64T vs 2.51T),证明了 unified modeling 的优势。

      进一步 scaling 后,OneTransL实现了最佳整体提升:CTR AUC/UAUC 提升 +1.53%/+2.79%CVR AUC/UAUC 提升+1.14%/+3.23%,表明随着模型容量增长,性能呈现可预测(predictable)的提升。

    总之,在 single Transformer 中统一 sequence modelingfeature interaction,比独立扩大任一组件更能实现可靠的且计算高效的改进。

1.3.2 RQ2: 基于消融实验的 Design Choices

  1. 我们对所提出的 OneTransS 模型进行消融实验,量化 key design choices 的贡献。完整结果总结在 Table 3 中。我们评估了以下变体:

    • Input 变体:

      • i):将 Auto-Split Tokenizer 替换为 Group-wise Tokenizer (第 1 行)。

      • ii):使用 timestamp-agnostic 的融合策略替代 timestamp-aware sequence fusion(第 2 行)。

      • iii):在 timestamp-agnostic fusion 中移除 [SEP] tokens(第 3 行)。

    • OneTrans block 变体:

      • i):所有 tokens 共享一组 Q/K/VFFN 参数,并没有为 NS-tokens 分配独立参数(第 4 行)。

      • ii):将 causal attention 替换为 full attention (第 5 行)。

      • iii):禁用 pyramid stack ,在所有层保留 full token sequence (第 6 行)。

    总之,消融实验表明:

    • 1)Auto-Split Tokenizer 比手动将 non-sequential features 分组为 tokens 更具优势,表明了模型自动构建的 non-sequential tokens 比人工定义的 feature grouping 更有效。

    • 2):当时间戳可用时,Timestamp-aware fusion 优于 intent-based ordering ,表明应优先考虑时间顺序而非事件影响(event impact )。

    • 3) :在 timestamp-agnostic fusion 下,learnable [SEP] tokens 帮助模型区分 sequences

    • 4):为 NS-tokens 分配 token-specific parametersall tokens 共享一组参数带来明显提升,证明 modeling non-sequential features with individualized projections 能实现更好的 feature discrimination

    • 5)Causal attentionfull attention 取得相似结果,表明在该 setting 中允许 tokens 关注 future positions 并非关键。值得强调的是,full attention 禁止使用 KV cachingstandard optimizations

      采用 Causal attention 的优势是支持 KV caching

    • 6):在每一层保留 full token list 并无益处:OneTrans 能有效将信息汇总到 a small tail of tokens 中,因此 pyramid design 可安全地裁剪 queries 以节省计算。

1.3.3 RQ3: 系统效率

  1. 为量化 Training and Deployment Optimization 章节中的 optimizations 的效果,我们在 unoptimizedOneTransS 基线上对这些 optimizations 进行消融,并在 Table 5 中报告 training/inference 指标。

    unoptimizedOneTransStraining runtime407 ms,峰值 training memory53.13 GBp99 inference latency54.00msinference memory1.70 GB。其中, p99 表示尾部 99 分位的延迟,是高可用性 online services 的标准服务等级目标(SLO)指标。这些差异反映了不同的运行条件:offline training 使用较大的 per-device batches,而 online inference 在多台机器上分配 micro-batches 以保证稳定性。

    如表所示:

    • 1)Pyramid stack 通过将 long behavioral histories 压缩为紧凑的 query sets,实现了显著节省:训练时间减少28.7%,训练内存减少 42.6%inference latency 减少 8.4%inference memory 减少 6.9%

    • 2)Cross-request KV caching 消除了冗余的 sequence-side computation,在 training and serving 中均减少了约30%runtime/latency 和约 50% 的内存。

    • 3)FlashAttention 主要有益于 trainingruntime 减少约 50%activation memory 减少约 58%inference 收益适中(latency 和内存各减少约 11-12% ),因为 attentiontraining 中因更大 batch size 和反向传播从而占据主导计算成本。

    • 4)Mixed precision with recomputation 带来了最大的 serving 收益:p99 latency 改善约 69%inference memory 减少约 30%,因为 inference 可完全在低精度下端到端运行。相比之下,training 必须保留 full-precision optimizer states and gradient accumulators ;即便如此,training runtime 和内存仍分别改善约 32%49%

    这些结果证明了 LLM optimizations 在大规模推荐系统中的有效性。在 OneTransS 的消融实验基础上,我们扩展到 OneTransL 并表明:通过这些技术, OneTransL 保持了与 DCNv2+DIN 基线(该基线比 OneTransL 小得多)相当的 online efficiencyTable 4)。这再次证明,将推荐系统重构为 a unified Transformer backbone,能够无缝采用 LLM optimizations ,解锁了传统 encode-then-interaction 架构此前无法实现的 effective scaling

1.3.4 RQ4: Scaling-Law 验证

  1. 我们从三个维度探究 OneTransscaling laws

    • 1)length ,即 input token sequence length

    • 2)depth,即 stacked blocks 数量。

    • 3)width ,即 hidden-state 维度。

    Figure 3(a) 所示,增加 length 带来的收益最大,因为引入了更多 behavioral evidence 。在 depthwidth 之间,我们观察到明显的权衡:

    • 增加 depth 通常比单纯增加 width 带来更大的性能提升,因为更深的 stacks 能提取更高阶的 interactions 和更丰富的 abstractions

    • 然而,更深的模型也会增加 serial computation ,而增加宽度更适合并行化。

    因此,depthwidth 的选择应在 target hardware budget 下平衡性能收益与系统效率。

    我们通过同时增加 OneTrans 的宽度和深度,进一步分析 scaling-law 行为。为进行比较,我们还将 RankMixer+Transformer 基线在 RankMixer 侧扩展至 1B 参数;然后在对数尺度上绘制 UAUC 增量(ΔUAUC )与 training FLOPs 的关系。如 Figure 3(b) 所示,OneTransRankMixer 均呈现明显的 log-linear 趋势,但 OneTrans 的斜率更陡——这可能是因为 RankMixer 主导的 scaling 缺乏 a unified backbone ,其 MoE-based expansion 主要增加了 FFNhidden dimension

    这些结果共同表明:OneTrans 在参数和计算方面更高效,为工业部署提供了更优的 performance–compute 权衡。

1.3.5 RQ5: Online A/B Tests

  1. 我们在两个大规模工业场景中评估 OneTrans 的业务影响:

    • (i):信息流(Feeds),即 home feeds

    • (ii):商城(Mall ),包含 Feeds 和其他子场景的 overall setting

    流量通过 hashinguser-level randomizationuser/account level 拆分。control 模型和 treatment 模型均使用过去1.5 年的 production 数据进行训练和部署,以确保公平比较。

    我们之前的 production baselineRankMixer+Transformer )作为 control 组(约 100M 神经网络参数),且不使用 sequence KV cachingtreatment 组部署了带有 serving optimizationsTraining and Deployment Optimization 章节所描述的)的 OneTransL (参数扩大了 33 倍)。

    我们报告 user-level order/u and gmv/u 相对于 control 组(即, RankMixer+Transformer )的相对增量(Δ %)(采用双侧 95% 置信区间,基于 user-level stratified bootstrap );以及端到端 latency ——以从请求到达至响应发出的 p99 per-impression time 的相对变化(Δ%;越低越好)来衡量。

    Table 6 所示, OneTransL 实现了持续提升:

    • Feeds 场景中,order/u 提升 4.3510%gmv/u 提升 5.6848%latency 降低 3.91%

    • Mall 场景中,order/u 提升 2.5772%gmv/u 提升 3.6696%latency 降低 3.26%

    这表明:相比强大的 non-unified baseline ,该 unified modeling framework 在提升业务指标的同时减少了 serving 时间。

    我们还观察到用户活跃天数(user Active Days )增加了 0.7478%cold-start product order/u 显著提升了 13.59% ,突显了该 proposed model 强大的泛化能力。

1.4 结论

  1. 本文提出 OneTrans ,一种用于 personalized rankingunified Transformer backbone ,以替代传统的 encode–then–interaction 架构。

    • A unified tokenizersequential attributesnon-sequential attributes转换为 one token sequence

    • A unified Transformer block 通过为 homogeneous (sequential) tokens 共享参数、为 heterogeneous (non-sequential) tokens 分配 token-specific parameters ,联合执行 sequence modelingfeature interaction

    • 为使 unified stack 在大 scale 下高效地运行,我们采用了 pyramid schedule(它逐步裁剪 sequential tokens )和 cross-request KV Caching (它复用 user-side computation )。该设计还受益于 LLM-stylesystems optimizations (如FlashAttentionmixed precision )。

    large-scale evaluations 表明,OneTrans 随着 width/depth 增加呈现近 log-linear 的性能提升,并在保持 production-grade latency 的同时实现了统计显著的业务指标提升。我们相信,这种 unified design 为推荐系统的 scale up 提供了一种实用方法,同时可复用那些推动近期 LLM 进步的 system optimizations