一、 HyFormer

《HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction》

  1. 工业级大规模推荐模型(large-scale recommendation models: LRMs)面临着如下的挑战:在严苛的效率约束下,联合建模 long-range 用户行为序列与异构的 non-sequential features 。然而,大多数现有架构采用解耦式的流水线:

    • 先通过一个 query-token based sequence compressor(如 LONGER)对 long sequences 进行压缩。

    • 再通过 RankMixertoken-mixing 模块与 dense features 进行融合。

    这种流水线在一定程度上限制了模型的表征能力与交互灵活性。本文提出 HyFormer,一种统一的 hybridTransformer 架构,将 long-sequence modelingfeature interaction 紧密整合至单一骨干网络中。从序列建模的角度出发,我们重新审视并重新设计了 LRMs 中的 query tokens,将 LRM modeling task 构建为一个交替的 optimization process,该过程整合了两个核心组件:

    • Query Decoding:将 non-sequential features 扩展为 Global Tokens ,并基于 long behavioral sequenceslayer-wise key-value representations 执行 long sequence decoding

    • Query Boosting:通过高效的 token mixing 来增强 cross-query and cross-sequence heterogeneous interactions

    这两种互补机制以迭代方式执行,逐层地 refine representations。在十亿级工业数据集上的大量实验表明,在参数数量和浮点运算量(FLOPs)相当的前提下,HyFormer 持续优于性能强劲的 LONGERRankMixer 基线模型,且随着参数数量和 FLOPs 的增加,展现出更优异的 scaling 特性。在高流量生产系统中开展的大规模 online A/B tests 进一步验证了其有效性,相较于已部署的当前 SOTA 模型取得了显著的性能提升。这些结果凸显了 HyFormer 的的实用性和可扩展性,从而作为一个统一的建模框架从而用于工业级 LRMs

  2. 现代工业级大规模推荐模型(large-scale recommendation models: LRMs)运行在日益复杂的环境中,其精准预测依赖于对 long-range 用户行为历史和丰富的异构特征的联合建模。这些异构特征包括:用户画像、上下文信号和交叉特征。随着 user engagement 在更长的时间范围内不断提升,特征空间持续扩展;如何将 long sequential signals 与高维 non-sequential information 有效融合,已成为大规模推荐系统和搜索系统的核心挑战。为应对这一挑战,近期的工业架构在很大程度上趋同于一种分离式的 scaling 范式,将 long sequence modelingfeature interaction 相结合。在该范式中, long user behavior sequences 由专用的 sequence transformers 编码,以捕获时序依赖关系(temporal dependencies )和用户兴趣,压缩后的 sequence token(s) 通过 token-mixing or interaction modules与其他异构特征融合,从而实现 cross-feature reasoning 。这种 "Long Sequence Modeling, Then Heterogeneous Feature Interaction" 的流水线已被证明是有效的,并成为现代工业级 LRMsscaling up 的的主流设计选择。

    尽管该范式取得了良好的实证性能,但这种主流架构从根本上强制采用了压缩的(compressed)、后期融合的(late-fusion)、以及单向的交互模式(interaction pattern)。随着序列长度和模型容量的不断增加,这种两阶段设计暴露出根本性的局限性,制约了模型的表达能力和可扩展性。

    • 现有架构中的 sequence transformers 在序列压缩过程中,往往依赖过于简化的 query representations 。实际应用中,用于聚合 long behavior sequencesquery tokens 通常由 candidate-related or global features 的有限子集生成,限制了 modeling long-term user interests 时可利用的上下文信息总量。而直接增加 query tokens 的数量,会在 KV-CacheM-Falcon 机制下导致 serving efficiency 的显著下降。

      单层交叉注意力计算复杂度为 O(N×L×D) 其中,Nquery tokens 数量,L 为序列长度,D 为特征维度。当直接增加 N 时,会带来两个直接问题:

      • 实时计算量呈线性暴涨:N 的增加会让交叉注意力的实时计算量随 N 线性上升,直接推高推理延迟。

      • 缓存访存效率大幅降低:KV-Cache 的张量存储在 GPU 的高带宽显存(HBM)中,query tokens 数量增加会导致单次推理的访存次数、访存数据量同步上升,引发显存带宽瓶颈。

    • sequence-compressed tokens 与异构 non-sequential tokens 之间的交互通常仅发生在模型的后期阶段。在当前范式下,cross-feature reasoning 被推迟至 sequence compression 完成后,导致不同 token types 之间的交互是 shallow 的、且 implicit 的。这种 delayed fusion 限制了模型捕获细粒度依赖关系的能力(这种依赖关系跨多个 behavior sequencesheterogeneous feature groups),也使得 early-layer representations 无法从 cross-domain 上下文信息中获益。

    • 由于 interaction 模块仅对 compressed sequence representations 进行操作,increasing model capacity or sequence length 主要优化的是孤立的组件,而非增强 joint representations 。因此,scaling up 模型深度或参数会导致 scaling efficiency 降低:性能随计算预算的增加而提升,但是提升的速率放缓,因为计算资源未能有效转化为更丰富的 joint representations

    这些局限性促使我们重新思考 long-range sequence modelingheterogeneous feature interaction 的融合方式。我们需要一种统一的建模框架,而非将 sequence encodingtoken mixing 视为两个松散耦合的阶段,以实现 sequential signalsnon-sequential signals 之间更深度的、更早期的双向交互。

    本文提出 HyFormer,一种 hybrid transformer 架构,将 sequence modelingfeature interaction 统一在单一骨干网络中。HyFormer 引入一组 global tokens,作为 long behavior sequencesheterogeneous features 之间的 a shared semantic interface。通过堆叠式设计,HyFormer 在两种轻量的且具有表达能力的机制间交替执行:

    • Query Decoding 模块利用 global query tokens,对 long behavioral sequenceslayer-wise key–value representations 进行注意力计算,使 global context 能直接塑造(shapesequence representations

    • Query Boosting 模块通过高效的 token mixing,进一步强化 cross-query and cross-sequence interactions ,逐层丰富 semantic representations

    该设计实现了 sequence modelingfeature interaction 组件间的信息的双向流动,克服了传统的 decoupled pipelines 的局限性。在十亿级工业数据集上的大量实验表明,在参数量和 FLOPs 相当的前提下,HyFormer 一致地优于性能强劲的 sequence-based and token-mixing baselines。此外,HyFormer 在模型 FLOPs 和参数量方面展现出更优异的 scaling 特性,且在高流量的生产系统中开展的大规模 online A/B tests 中取得了显著的性能提升。

    综上,本文的贡献如下:

    • 指出了工业级大规模推荐系统中,主流的 decoupled sequence modeling and feature interaction 范式存在的根本性局限性,并分析了其单向的、后期融合的设计如何制约模型容量和可扩展性。

    • 提出 HyFormer,一种统一的 hybrid transformer 架构,通过 Query DecodingQuery Boosting 实现 long-range behavioral sequencesheterogeneous features 之间的双向的、layer-wise 的交互,在实际工业场景中取得了 SOTA 的性能和可扩展性。

    • 在十亿级工业数据集上,通过实证验证了所提模型的有效性和优异的 scaling 性能。目前,HyFormer 已在 Bytedance 全面部署,每日服务十亿级用户。

1.1 相关工作

  1. 传统推荐范式:现代工业级 LRMs 通常由两个核心组件构成:behavior-sequence modeling 网络和 feature-interaction 网络。在该范式中,user behavior histories 首先由专用的 sequence models 进行编码,其输出随后与 heterogeneous non-sequential features 一起馈入下游的 interaction 模块。

    • 近期的工业系统沿此方向大幅提升了 sequence modeling 的可扩展性。SIM《Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction》)、ETA《Efficient long sequential user data modeling for click-through rate prediction》)、TWIN《TWIN: TWo-stage Interest Network for Lifelong User Behavior Modeling in CTR Prediction at Kuaishou》《TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou》)、TransAct《TransAct: Transformer-based Realtime User Action Model for Recommendation at Pinterest》)和 LONGER《LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders》)等方法,通过高效注意力机制、分层聚合(hierarchical aggregation)、KV caching 和易部署的设计,将 sequence encoders 的处理能力扩展至数百甚至数千个 behaviors。这些研究证明,在大规模流量下,建模 long-range user behaviors 存在明显的 power-law 缩放趋势,但在很大程度上仍保留了将 sequence encodingfeature interaction 解耦的两阶段架构。

    • feature-interaction 方面,DeepFM《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》)、xDeepFM《xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems》)和 DCNv2《DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Syst》)等早期模型能 at scale 地建模低阶的或有界 degreefeature crosses ,但随着 interaction depth 的增加,性能提升逐渐趋缓。

      Wukong《Wukong: Towards a scaling law for large-scale recommendation》)和 RankMixer《RankMixer: Scaling Up Ranking Models in Industrial Recommenders》)等近期的 scaling studies 指出,cross-module expansion 成为工业级模型性能提升的关键驱动力。这些模型代表了当前大规模 feature-interaction 设计的最高水平;但在大多数生产级流水线中,interaction stacksequence encoder 仍处于松散耦合的状态,导致 late fusion,无法实现 heterogeneous signals 的联合优化。

  2. 统一的推荐架构:为减少 sequence modelingfeature interaction 之间的割裂,近期研究开始探索统一的架构(unified architectures),在单一骨干网络中处理异构的信号。

    • HSTU (《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》)等分层的生成式架构,通过基于 contextual and candidate signals 执行 sequence transduction,构建了统一的推荐范式。

    • InterFormer《InterFormer: Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction》)引入可学习的 interaction tokens,实现信号的双向交换,弥补了 sequence encodersinteraction networks 之间的差距。

    • MTGR《MTGR: Industrial-Scale Generative Recommendation Framework in Meituan》)进一步推进了统一化设计,将 user, behavior, real-time, and candidate features 重组为 heterogeneous tokens ,并通过一个 Transformer-style backbone 进行编码,使 sequence informationcross features 能被一致地建模(be modeled coherently)。

    • OneTrans (《OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender》)沿袭了 MTGR 的研究方向,使用单一 Transformer 联合捕获 sequence dependencieshigh-order feature interaction,同时通过 pyramid-compression style 简化了 Transformer 结构,可视为 MTGR 的简化版本。

    然而,MTGROneTransquery tokens 的数量直接等同于所有 non-sequence tokens 的数量,实际应用中会导致 serving efficiency 显著下降(见第 1.3 节)。此外,在工业级 LRMs 中,采用统一的 Transformer 结构建模 feature interaction 通常存在表达能力不足的问题(《RankMixer: Scaling Up Ranking Models in Industrial Recommenders》)。总体而言,统一的架构为打破 sequence modelsfeature-interaction stacks 之间长期存在的分离状态迈出了一步,但如何以最小的架构开销实现完全统一,仍是一个待解的挑战。

1.2 方法

  1. 问题定义:设 UI分别为 user spaceitem space。对于用户 uU,其 raw behavioral history 表示为 S=[i1(u),,iK(u)],其中每个 it(u)I。令 u 表示伴随的 non-sequential features,包括画像属性、上下文信号和交叉特征。给定 candidate item vI,模型的目标是估计用户 uitem v 发生交互的概率:

    P(y=1S,u,v)[0,1]

    注意:u,v 既表示 user, item,也表示它们关联的 non-sequential features

    其中 y{0,1} 表示 interaction 是否发生。

    模型参数通过历史数据集 D={(S,u,v,y)} 训练得到,优化目标为最小化标准的二元交叉熵损失:

    L=1|D|(S,u,v,y)D[ylogy^+(1y)log(1y^)]

    其中 y^=fθ(S,u,v) 表示 LRM 输出的 engagement 概率的预测值。

  2. 整体框架:传统的 LRM 架构通常采用流水线设计,先执行 LONGERsequence modeling 操作,再将包含 compressed sequence informationquery token 用于后续的 RankMixerfeature interaction 操作。如前文所述,这种分离式流水线对 sequence modeling 和异构 feature interaction 的建模均存在不足。为克服该局限性,本文提出一种统一的混合框架,通过堆叠的 HyFormer layers,联合 non-sequential (NS) tokenslong behavioral sequences

    HyFormer 的整体架构如 Figure 1所示。如图所示,每个 HyFormer layer 整合了两种互补机制:

    • (1)Query Decoding,通过 MLP-based query generation,将 non-sequential and sequential features 扩展为多个 semantic global tokens(即 sequence queries),并对 long-sequence K/V pairs 执行 cross-attention,使 global information 能直接塑造 representation of sequence tokens

    • (2)Query Boosting,采用 MLP-Mixer-style token mixing,强化 decoded queriesnon-sequence tokens 之间的交互。

    通过将 global heterogeneous-feature mixing 与高效的 long-sequence modeling 紧密耦合,所提框架实现了更丰富的 heterogeneous interactions、对 sequential structuredeeper utilization;且与现有分离式流水线架构相比,在性能和计算成本上更具优势。

    注意,右图中:

    • Next Block Seq Tokens:就是 Hl

    • NS Tokens:来自于 Query Boostingsplit 结果。

    • Next Block Global:来自于 Query Boostingsplit 结果。

    该方法的核心是:

    • Query Generation (初始 block)、Query Boosting (后续blocks)来建模 feature interaction

    • 然后用所生成的 Global Tokens 作为 query 来执行 sequence modeling

    这两步交替执行,从而不断优化。

1.2.1 Query Generation

  1. Input Tokenization:遵循 RankMixer 中的 tokenization 策略,input tokens 可通过 semantic groupingautomatic splitting 两种方式组织。

    • semantic grouping 根据特征的固有含义(如用户、上下文或 behavior 语义)对 tokens 进行划分。

    • automatic splitting 则将所有 features 展平为单个 embedding,并在无显式语义区分的情况下进行均匀拆分。

    实际应用中,鉴于本研究中的 input features 具有明确的语义角色(semantic roles),HyFormer 采用 semantic grouping ,以保留结构化的 inductive bias 并提升模型的可解释性。

  2. Query GenerationQuery Generation 模块将 heterogeneous non-sequential features 转换为用于解码 long behavioral sequencessemantic query tokens 。将所有 non-sequential feature vectors F1,F2,,FMR1×D 拼接后,馈入一个轻量级前馈网络(feed-forward network: FFN)进行映射。此外,通过对 behavioral sequence representations 进行池化操作,得到一个 global sequence-level summary,并将其作为额外的 shared input ,与 non-sequential features 类似地处理。

    queries 通过如下方式来生成:首先融合 non-sequential featurespooled sequence summary ,然后通过一个轻量级投影。

    Q=[FFN1(Global Info),,FFNN(Global Info)]RN×DGlobal Info=Concat(F1,,FM,MeanPool(Seq))R1×(MD+D)

    其中:

    • Dhidden representation 维度,Mnon-sequential features 数量,Nquery tokens 数量。

    • FFN 为轻量级的前馈网络,Seqbehavioral sequence representations

    为保证 serving efficiency,该模块支持 feature selection 和可选的 query compression,在保持 generated queries 数量稳定的同时,为下游解码保留足够的表征能力。

    “该模块支持 feature selection 和可选的 query compression“,这段话如何理解?作者并未说明。

    基于相同的 Global Info 来生成 N 个不同的 query,这类似于 multi-query attention: MQA 的思路。

    在更深的 HyFormer layers 中,queries 不再通过 MLPs 来生成。而是每层将前一层的 Query Boosting outputs 作为 updated queries,以逐步丰富的语义对长序列进行查询。

    在实验章节,作者提到:HyFormerquery 由三个来源生成:global non-sequential featuresmultiple sequences pooling tokensoriginal target features

    因此,query 还包含了 original target features

1.2.2 Query Decoding

  1. Query Decoding 模块负责将 non-sequential features 转换为 semantic queries,并通过 cross attentionlong behavioral sequences 中提取 target-aware information。利用 Sequence Representation Encoding 模块生成的 long sequencelayer-wise key–value representationsQuery Decoding 模块通过 multi-query cross attention 机制,使用 Query Generation 模块输出的 multiple query tokensK/V representation 进行解码。

  2. Sequence Representation EncodingHyFormer 支持多种 sequence encoding 策略,可在模型容量和效率之间实现不同的权衡。给定 behavioral sequence S,每种策略都会生成 layer-wise key–value representations (Kl(s),Vl(s)),用于后续的解码操作。

    • Full Transformer Encoding:在最高建模容量下,采用标准的 Transformer encoder

      Hl=TransformerEncl(S)

      该方式通过 full self-attention 捕获细粒度的 interactions 和长距离的 dependencies

    • LONGER-style Efficient Encoding:为提升 long sequences 的处理效率,将 full self-attention 替换为 cross-attention (在 a compact short sequencefull history 之间):

      Hl=CrossAttn(Sshort,S,S)

      其中:Sshort 为一个紧凑的短的序列(a compact short sequence),它的长度为 LHLS。此处 Sshort 作为 queryS 同时作为 keysvalues

      该方式替代了 full self-attention,将计算复杂度从 O(LS2) 降至 O(LHLS)

      这个 short sequence 如何得到?作者并未说明。读者猜测:利用最近的 LHactions

    • Decoder-style Lightweight Encoding:对于对 latency 要求严苛的场景,通过 attention-free feed-forward 操作转换 sequence representations

      Hl=SwiGLUl(S)

      它以牺牲 contextual capacity 为代价,实现最小的计算成本。

      其中:SwiGLU()SwiGLU 函数:

      SwiGLU(x)=Swish1(Wx+b)(Vx+c)Swishβ(x)=xσ(βx),σ(x)=11+exp(x)

      注意:这里 SwiGLU 函数是 per-token 的,并不是 "Concat-And-SwiGLU"

    在所有变体中,将所生成的 representations 进行线性投影,得到 layer-specific key–value states

    Kl=HlWlK,Vl=HlWlV

    key–value states 在每层重新计算,使 sequence features 能与 decoder depth 协同演化,同时支持灵活的 deployment configurations

    注意:Hl 构成了下一层的 Seq Tokens

  3. Query Decoding via Cross-Attention:给定 sequence-specific query tokens 和对应的 layer-wise key–value representationsHyFormer 通过 cross-attention 执行 Query Decoding。对于第 l 层的每个 behavioral sequence Sdecoded query representations 计算如下:

    Q~l=CrossAttn(Ql,Kl,Vl)

    其中:

    • CrossAttn() 表示标准的 multi-head cross-attention 操作。

    • QlRN×D 为第 l 层使用的 query token

    decoding 步骤使得全局的 non-sequential 的特征能够直接对 long behavioral sequences 执行注意力计算,将上下文信号注入到 sequence-aware query representations 中。decoded query Q~l 随后作为语义接口,馈入后续的 interaction 模块和 boosting 模块。

    注意:在 Figure 1 中,作者对 CrossAttn 的输出叠加了一个 residual connection

1.2.3 Query Boosting

  1. Query Boosting 模块在 query representations 被馈入后续 cross-attention layer 之前,对 query representations 进行增强。decoding 步骤完成后,queries 已编码了 sequence-aware information,但其与静态的 non-sequential heterogeneous features 之间的交互仍未被充分挖掘。Query Boosting 模块通过显式地在 query tokens之间混合信息,并注入额外的 non-sequence-feature signals ,解决这一局限性。

    基于 decoded outputunified query representation 定义为:

    Q=[Q~l,F1,,FM]RT×D

    其中:T=N+MQ~lRN×Dl 层得到的 decoded query tokens,剩余 Mtokensnon-sequential feature embeddings

    Q~l 已经包含了 F1,,FM 的信息。这里进一步融合 F1,,FM 的信息。

  2. 具体而言,boosting 模块采用受 RankMixer 启发的 MLP-Mixer-style 的轻量级 token-mixing 操作,从而增强 decoded queries

    • 首先将每个 query token qtQ 划分为 T 个子空间:

      qt=[qt(1)||qt(2)||||qt(T)],qt(h)RD/T,t=1,2,,T
    • 对于每个子空间索引 h{1,2,,T}MLP-Mixer 通过拼接对应子空间的信息,聚合所有 token positions 的特征:

      q~h=Concat(q1(h),q2(h),,qT(h))RD
    • 整合所有 mixed tokens,得到 token-mixed representation

      Q^=[q~1,q~2,,q~T]RT×D
    • 通过轻量级的 per-toke feed-forward 模块,对 mixed queries 进行进一步优化:

      Q~=PerTokenFFN(Q^)

      其中:PerTokenFFN() 对每个 query token 执行独立的前馈变换,在保留线性计算复杂度的同时,实现子空间特定的优化(subspace-specific refinement)。

    • 最后,引入残差连接(residual connection)以稳定 optimization 过程,并保留原始的 decoded semantics

      Qboost=Q+Q~

    boosted queries 随后馈入下一个 HyFormer layer,使更 deeper layers 能以逐步丰富、更具表达能力的 representationslong behavioral sequences 进行查询。

    注意:在 Figure 1 中,residual connection 是叠加在 Cross Attentionoutput 上。

    注意:Qboost 被拆分为 Global TokenNS Tokens 从而被馈入下一层。

1.2.4 HyFormer Module

  1. HyFormer 模块由多层堆叠构成,每层包含一个 Query Decoding 块和一个 Query Boosting 块。在每层中,semantic queries 通过 cross-attentionlong behavioral sequence 交互;所生成的 sequence-aware representations 经进一步优化后,作为 deeper layers 的输入。

  2. 形式化地,在第 l 层,Query Decoding 块接收 global queries Ql1,并对 layer-wise key–value representations (Kl,Vl) (由 long sequence 派生而来)执行 cross-attention

    Q^l=CrossAttn(Ql1,Kl,Vl)

    decoded queries Q^lnon-sequential tokens 拼接后,馈入 Query Boosting 块,通过轻量级的 token-wise transformation 来增强 query representations

    Q~l=QueryBoost(Concat(Q^l,NS Tokens))

    通过堆叠多层上述结构,HyFormer 逐步优化 semantic queries,使 deeper layers 能以更具表达能力的 representationslong sequence 进行总结。HyFormer 顶层的 output 被馈入下游的 MLPs ,得到最终预测结果,实现了 LRMsheterogeneous non-sequential featureslong behavioral sequences 的高效的、灵活的融合。

    NS Tokens :来自于上一层的 Hl

1.2.5 Multi-Sequence Modeling

  1. 在工业推荐场景中,user behaviors 通常被组织为多个异构序列,例如 video-watch sequenceproduct-purchase sequence。由于实际的 multi-sequences 通常具有不同的特征空间和 semantic representations,我们通过实证发现:MTGROneTrans 采用的简单的 sequence-merge 会导致模型性能显著下降(见 1.3 节)。因此,HyFormer 并未将不同序列合并为单个 unified stream,而是在每个 HyFormer 块中独立地处理每个 behavior sequence,兼顾模型的效率和有效性。

    Figure 2 所示,对于每个序列,构建一组专用的 query tokens,并用于对对应的 sequence representations 执行 Query Decoding 。该设计在 decoding 过程中保留了 sequence-specific semantics,同时通过 query-level token mixing,在后续步骤中处理 cross-sequence interaction ,无需对序列进行显式拼接。

    这种做法比较巧妙。

1.2.6 Training and Deployment Optimization

  1. Long-SequenceGPU Poolinguser long-sequence features 的数据量可能极大,导致显著的 data-transfer 开销(如主机到设备的内存拷贝)和主机端的高内存压力。幸运的是,此类序列中真正 unique feature IDs 数量有限(通常为 total tokens25%)。我们利用这种稀疏性对特征进行去重,大幅降低传输成本和主机内存占用。

    具体而言,在 graph execution 前,将特征存储在 compressed embedding-table 中;执行过程中,构建高性能的前向算子,直接在 GPU 上重构 original sequence features 。在反向传播过程中,配套的反向算子将 sequence features 的梯度聚合为 embedding table 的梯度,随后将这些梯度向上传播,更新 sparse parameters

  2. Asynchronous AllReduce:为缓解 synchronous gradient aggregation 带来的设备空闲时间,本系统启用了 asynchronous AllReduce,使第 k 步的 gradient synchronization 能与第 k+1 步的前向计算和反向计算重叠执行。该设计有效消除了通信空耗,最大化 GPU 的利用率。但这一设计的权衡是,dense parameters 的梯度会引入一步延迟:由于 dense parameters 的梯度需在 asynchronous reduction 完成后才能获取,其更新规则变为:

    Wk=Wk1+gk1

    即,第 k 步的 dense parameter 使用前一步的梯度来更新。

    相比之下,sparse parameters 在本地梯度计算完成后即可立即更新,更新规则为:

    Wk=Wk1+gk

    因此其更新比 dense parameter 领先一步。

    尽管这种混合更新策略导致 dense and sparse parameter states 存在轻微的时间不一致性,但实证结果表明,这种延迟在实际应用中不会降低模型的收敛质量和性能。

1.3 实验

  1. 数据集:我们在 ByteDanceDouyin Search System 中,针对点击率(Click Rate: CTR)预测任务评估模型性能,该场景是真实的大规模工业搜索推荐场景。实验数据集来源于 70 个连续自然日的在线 user interaction logs 的子集,包含 3 billion 条样本。每条样本整合了 user featuresquery featuresdocument featurescross-features 和多个 sequential features。模型中使用的三个主要序列定义如下:

    • long-term sequence:用户的长期 search and click behavior sequence,长度可按需调整,本研究中设置上限为 3000

    • Search sequence :经 Query Search 模块筛选后的用户 top-50 search behavior items

    • Feed sequence:经 Query Search 模块筛选后的用户 top-50 feed behavior items

  2. Baselines:我们将所提模型与多个性能强劲的基线模型进行对比,这些基线模型可分为两种架构范式:传统两阶段模型(Traditional Two-Stage Models )和统一架构模型(Unified-Architecture Models)。

    • Traditional Two-Stage Models:遵循主流的设计思路,将 sequence modelingfeature interaction 分为两个连续的阶段。具体而言,先通过专用的 sequence modeling 模块生成 sequential representations,再将其与其他特征的 token-level representations 进行交叉融合。

      • long-sequence modeling 采用 LONGERFull Transformer 架构。

      • 为捕获 tokenized features 间的交互,采用 RankMixerFull TransformerWukong 等成熟的 feature interaction 架构。

    • Unified-Architecture Models:将 sequential featuresnon-sequential features 均进行令牌化,并在单个 model block 中同时处理,将 sequence modelingheterogeneous feature interaction 整合为一个统一阶段。例如:

      • MTGR:将所有特征令牌化后,通过 Transformer 风格的骨干网络进行联合建模。

      • OneTrans:采用类似的简化设计,以 pyramid-compressed structure 作为骨干网络。

      在本研究的 MTGR/OneTrans 模型实现中,仅在 non-sequential featuressequential features 之间执行 cross-attention 计算,即 MTGR/OneTrans (LONGER),不计算序列内部的 self-attention 。同时,为提升性能并增加 FLOPs,我们也实现了包含序列full self-attentionMTGR/OneTrans 模型,即 MTGR/OneTrans (Full Transformer)

  3. 评估指标:离线评估采用 Query-level AUC,即先计算每个 query 下样本的 AUC,再对所有 queriesAUC 取平均值。同时,我们报告模型的 dense parameters 数量和 training FLOPs,其中 FLOPs 基于 batch size = 2048 来计算。

  4. 实现细节:

    • 为方便实验,推荐模型在离线评估时采用冷启动方式,在线评估时通过 checkpoints 进行预热。

    • 所有基线模型均使用相同的 batch size = 2048optimizer settings

    • 所有 MLP-Mixer 模块的 input token 数量均对齐为 16

    • multi-sequence HyFormer 的实现中,包含 13non-sequential tokens3global tokens (每个序列对应 1global tokens ),tokens 总数为 16

    • 所有模型均采用相同的超参数调优策略,实验在一个 64-GPUs cluster 上完成。

1.3.1 整体性能

  1. 现有方法对比:所提的 HyFormer 架构在所有评估模型中取得了最高的 AUC 值,性能优于传统两阶段模型(记为 BaseArch)和其他 unified-block 模型(记为 UniArch)。结果如 Table 1 所示。

    • 在传统两阶段模型组中,性能随组件选择的不同存在显著差异:

      • feature interaction 方面,RankMixer 的性能始终优于 Self-AttentionWukong

      • sequence modeling 方面,在序列中引入 full self-attention 通常能带来性能提升。值得注意的是,传统两阶段模型中性能最优的组合 —— Full Transformersequence modeling 配合 RankMixerfeature interaction ,仍不如 HyFormer,这源于其固有的局限性:信息单向流动。

      此外,实验结果表明 HyFormer 具有优异的计算效率:尽管取得了最高的准确性,但其训练过程(含前向传播和反向传播)的 total FLOPs 仅为 3.9×1012,远低于大多数对比模型,包括 MTGR 等其他高性能模型。整体性能结果凸显了传统两阶段范式的固有局限性。

    • HyFormerMTGR 等统一架构的实验结果表明,将 sequence modelingfeature interaction 整合为一个连贯的设计,能提升模型的整体有效性。但如 Table 1 所示:

      • MTGR/OneTrans 依赖 Self-Attention 进行 feature interaction。这种方式往往会导致 AUC 下降,且会显著降低 interaction 模块的计算效率。

      • HyFormer 无需采用此类高成本的方案,也无需在 sequence key-value side 进行复杂建模,即可取得最优的准确性,验证了其在 unified block 中迭代式地执行 query decodingquery boosting 这一核心设计原则的有效性。

      此外,MTGR/OneTransGlobal Tokens and Seq Tokens 共同作为 keys,仅将 Global Tokens 作为 queries,这一设计使 Global Tokens 更容易对自身执行注意力计算,而非对 sequence tokens 执行注意力计算。相比之下,HyFormer 采用分离的信息流设计:先将具体的 sequence item information 压缩并融入 Global Tokens ,再在不同的 abstract Global Tokens 间执行交互,该 two-step 过程在各层中反复堆叠。同时,HyFormer 的混合架构为未来的 scaling 提供了更高的灵活性,可独立调整 interaction layers/dimensionssequence modeling layers/dimensions,相比将 feature interaction and sequence modeling 严格绑定在单个标准 attention layer 中的方法,是一种更具适应性的框架。

      对于 MTGR/OneTrans,它在一个 CrossAttention 操作中同时建模 sequence modelingfeature interaction 。而 HyformerQuery Boosting 建模feature interaction ,而 Query Decoding 建模 sequence modeling

  2. 消融研究:Table 2 展示了 HyFormer 性能提升主要贡献因素的消融实验结果。

    • 首先,我们对 query 的组成部分进行消融。HyFormerquery 由三个来源生成:global non-sequential featuresmultiple sequences pooling tokensoriginal target features。实验表明:

      • query 恢复为仅包含原始的 target-feature-only state,会严重限制后续的 deep feature interaction,导致 AUC 下降 0.08%

      • full query 中移除 cross-sequence pooling tokens,也会使 AUC 损失 0.05%,证明 inter-sequence interactionHyFormer 的结构中能产生有意义的性能增益。

    • 其次,我们评估整体架构变更的影响。

      • 恢复基线架构(LONGER + RankMixer,即先 sequential modeling 再独立的 feature interaction )后发现,即使增强了 query information,由于缺乏 deepened interaction,性能提升也受到限制,仅实现了 0.03%AUC 提升(-0.14% vs -0.17%)。

      • 相比之下,在专为 strengthen interaction 设计的 HyFormer 框架中,扩展 query information 能带来显著的 0.08%AUC 提升。

    • 第三,我们在 HyFormer 中对 multi-sequence modeling 策略进行消融实验。处理 multiple sequences 主要有两种范式:

      • 通过维度对齐和拼接,从而将多个序列合并为一个整体并进行联合建模。

      • 保持多个序列分离并独立建模。

      HyFormer 采用后一种方式,为每个序列分配独立的 query tokens。实验发现, sequence merging and query sharing 的方式会导致 AUC 显著下降 0.06%。这一结果体现了 HyFormerexpanding queries and enabling broader feature interaction 方面的优势;此外,sequence merging 会迫使多个序列共享 global tokens,忽略了序列的独特性, generated representations 所捕获的差异化信息远少于 HyFormer 的针对序列的 separate modeling 的方式。我们推测,sequence merging 的这种固有局限性,也是 MTGROneTrans 等模型性能不如 HyFormer 的部分原因。

    综上,HyFormer 架构通过为不同序列分配独立的 tokens,构建了一个通用的 multi-sequence modeling 框架,无需对不同序列的 side informationsparse dimensions 进行强制对齐。该设计不仅在很大程度上保留了序列之间的固有差异,还能为更重要的序列自适应地分配更多 global tokens ,这一点在我们的离线实验中已取得了可量化的性能增益。

1.3.2 Scaling Analysis

  1. 本节分析模型性能随 sequence side informationFLOPs 和参数数量变化的 scaling 特性。如 Table 1 的整体性能所示,在 first performing sequential modeling and then performing heterogeneous feature interaction 的范式下,LONGER + RankMixer 取得了最优性能,也是当前的 production baseline 模型。因此,我们将其作为 scaling 实验中的对照组(BaseArch ),对比 HyFormer 架构的 scaling 性能。

  2. Parameters & FLOPs

    • 我们在 200M1B+ 参数的模型规模范围内,验证了 HyFormer 架构的 scaling law,结果如 Figure 3(a) 所示。可以看到,HyFormer 不仅在初始阶段性能优于基线模型 LONGER + RankMixer,且整体保持了强劲的 scaling 增益,其性能曲线的斜率比基线模型更陡峭。这表明,HyFormerLONGERRankMixeralternating stacked layers 实现了信息的双向流动,使其在相似的参数规模下,能从 increasing depth 中获得比基线模型显著更多的性能增益。

    • 从计算成本( FLOPs)的角度分析 scaling law 时,也能观察到类似的规律。如 Figure 3(b) 所示,AUCFLOPs 的增加稳步提升,呈现出明显的 power-law 趋势。这表明,增加计算资源能使模型处理具备更丰富信息的序列,得益于 initial query 的扩展,以及通过 MLP-Mixerfeature interactionquery 进行的反复增强,最终实现了更显著的 AUC 提升。

    这些结果表明,HyFormer 的架构设计优先考虑了 scaling 效率,通过丰富的 heterogeneous feature interactions,使每个参数能产生更大的性能增益,从而形成了更陡峭的性能缩放曲线。

  3. Sparse Dim:我们还分析了模型性能随 sequence token input dimensionsparse embedding dim )—— 即 sequence side information 丰富度 —— 扩展的变化规律。实验表明,无论序列长度如何,丰富 sequence side informationHyFormer 框架带来的性能增益,始终大于基线框架 LONGER + RankMixer

    Table 3 所示,对于长度为 1000 的序列,将 sparse dimension 从原始的 64 维(包含 item ID, search query textnet classification, and timestamp3side information types )扩展至 224 维(新增 search query ID, author ID, event ID, and playtime ,一共共 7side information types ),基线模型的 AUC 提升了 0.09%,而 HyFormerAUC 提升了 0.12%HyFormer 的性能提升幅度显著更大,这一趋势在实验中的其他序列长度下均保持一致。

    此外,随着序列长度的增加,HyFormer 与传统两阶段模型之间的性能差距逐渐扩大,dimension expansion 带来的额外增益从 1000 序列长度时的 0.03%,增加至 3000 序列长度时的 0.06%

    这些结果表明,扩展 sequence key/value information 能为 HyFormer 框架带来更大的价值,且这一优势随序列长度的增加而更加显著。该优势源于 HyFormer 能将更丰富的 global information 整合到 sequence queries 中,同时其 LONGER 模块和 Mixer 模块之间的信息双向流动,共同实现了更充分的 feature interaction

1.3.3 Online A/B Tests

  1. 本节展示 HyFormer 模型在 Douyin Search 平台的 online A/B test 结果,对照组为性能强劲的现有 RankMixer 基线模型。在线评估采用三个核心指标:人均平均观看时长(Average Watch Time Per User)、人均视频完播数(Video Finish Play Count Per User)和 Query Change Rate 。其中,Query Change Rate 用于量化用户手动将一个 search query 细化为更具体 search query 的概率(例如从 "iPhone" 修改为 "iPhone 17 Pro"),计算方式如下:

    Query Change Rate=NreformNtotal

    其中:Nreform 为发生 query reformulationdistinct user-query pairs 数量,Ntotaldistinct user-query pairs 总数量。该指标可作为用户搜索体验不佳的衡量标准。

    Table 4 所示,online A/B Test 验证了 HyFormer 在核心指标上的显著提升:人均平均观看时长提升 0.293%,人均视频完播数提升 1.111%query change rate 下降 0.236%。这些显著的增益证明了 HyFormer 在十亿级用户的实际平台环境中的实用价值和有效性。

1.4 结论

  1. 本文提出了 HyFormer 架构。与主流的信息单向流动的 "Long Sequence Modeling, Then Feature Interaction" 范式不同,HyFormer 引入 Global Tokens,通过 feature interaction 来增强 query capacity ,重新定义了 long-sequence modeling and feature interaction 的角色。该架构在两个核心组件间交替执行:Query DecodingQuery Boosting。从 sequential modeling 的角度来看,这对应于一个 iterative optimization 过程 —— 先用 Global Tokens 解码 long sequences ,再通过 cross-feature interaction 来增强 Global Tokens

    该设计为更充分的 sequence modeling and feature interaction 提供了一种新颖且有效的框架,同时也为 multi-sequence modeling 提供了灵活的范式。大量的离线和在线实验验证了,从信息单向流动升级为双向的、协同演化的范式具有优越性,同时也为未来工业级 LRMs 提升了 scaling 上限。