《HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction》
工业级大规模推荐模型(large-scale recommendation models: LRMs)面临着如下的挑战:在严苛的效率约束下,联合建模 long-range 用户行为序列与异构的 non-sequential features 。然而,大多数现有架构采用解耦式的流水线:
先通过一个 query-token based sequence compressor(如 LONGER)对 long sequences 进行压缩。
再通过 RankMixer 等 token-mixing 模块与 dense features 进行融合。
这种流水线在一定程度上限制了模型的表征能力与交互灵活性。本文提出 HyFormer,一种统一的 hybrid 的 Transformer 架构,将 long-sequence modeling 与 feature interaction 紧密整合至单一骨干网络中。从序列建模的角度出发,我们重新审视并重新设计了 LRMs 中的 query tokens,将 LRM modeling task 构建为一个交替的 optimization process,该过程整合了两个核心组件:
Query Decoding:将 non-sequential features 扩展为 Global Tokens ,并基于 long behavioral sequences 的 layer-wise key-value representations 执行 long sequence decoding 。
Query Boosting:通过高效的 token mixing 来增强 cross-query and cross-sequence heterogeneous interactions。
这两种互补机制以迭代方式执行,逐层地 refine representations。在十亿级工业数据集上的大量实验表明,在参数数量和浮点运算量(FLOPs)相当的前提下,HyFormer 持续优于性能强劲的 LONGER 和 RankMixer 基线模型,且随着参数数量和 FLOPs 的增加,展现出更优异的 scaling 特性。在高流量生产系统中开展的大规模 online A/B tests 进一步验证了其有效性,相较于已部署的当前 SOTA 模型取得了显著的性能提升。这些结果凸显了 HyFormer 的的实用性和可扩展性,从而作为一个统一的建模框架从而用于工业级 LRMs。
现代工业级大规模推荐模型(large-scale recommendation models: LRMs)运行在日益复杂的环境中,其精准预测依赖于对 long-range 用户行为历史和丰富的异构特征的联合建模。这些异构特征包括:用户画像、上下文信号和交叉特征。随着 user engagement 在更长的时间范围内不断提升,特征空间持续扩展;如何将 long sequential signals 与高维 non-sequential information 有效融合,已成为大规模推荐系统和搜索系统的核心挑战。为应对这一挑战,近期的工业架构在很大程度上趋同于一种分离式的 scaling 范式,将 long sequence modeling 与 feature interaction 相结合。在该范式中, long user behavior sequences 由专用的 sequence transformers 编码,以捕获时序依赖关系(temporal dependencies )和用户兴趣,压缩后的 sequence token(s) 通过 token-mixing or interaction modules与其他异构特征融合,从而实现 cross-feature reasoning 。这种 "Long Sequence Modeling, Then Heterogeneous Feature Interaction" 的流水线已被证明是有效的,并成为现代工业级 LRMs 的 scaling up 的的主流设计选择。
尽管该范式取得了良好的实证性能,但这种主流架构从根本上强制采用了压缩的(compressed)、后期融合的(late-fusion)、以及单向的交互模式(interaction pattern)。随着序列长度和模型容量的不断增加,这种两阶段设计暴露出根本性的局限性,制约了模型的表达能力和可扩展性。
现有架构中的 sequence transformers 在序列压缩过程中,往往依赖过于简化的 query representations 。实际应用中,用于聚合 long behavior sequences 的 query tokens 通常由 candidate-related or global features 的有限子集生成,限制了 modeling long-term user interests 时可利用的上下文信息总量。而直接增加 query tokens 的数量,会在 KV-Cache 和 M-Falcon 机制下导致 serving efficiency 的显著下降。
单层交叉注意力计算复杂度为
其中, 为 query tokens数量,为序列长度, 为特征维度。当直接增加 时,会带来两个直接问题:
实时计算量呈线性暴涨:
的增加会让交叉注意力的实时计算量随 线性上升,直接推高推理延迟。
缓存访存效率大幅降低:
KV-Cache的张量存储在GPU的高带宽显存(HBM)中,query tokens数量增加会导致单次推理的访存次数、访存数据量同步上升,引发显存带宽瓶颈。
sequence-compressed tokens 与异构 non-sequential tokens 之间的交互通常仅发生在模型的后期阶段。在当前范式下,cross-feature reasoning 被推迟至 sequence compression 完成后,导致不同 token types 之间的交互是 shallow 的、且 implicit 的。这种 delayed fusion 限制了模型捕获细粒度依赖关系的能力(这种依赖关系跨多个 behavior sequences 和 heterogeneous feature groups),也使得 early-layer representations 无法从 cross-domain 上下文信息中获益。
由于 interaction 模块仅对 compressed sequence representations 进行操作,increasing model capacity or sequence length 主要优化的是孤立的组件,而非增强 joint representations 。因此,scaling up 模型深度或参数会导致 scaling efficiency 降低:性能随计算预算的增加而提升,但是提升的速率放缓,因为计算资源未能有效转化为更丰富的 joint representations。
这些局限性促使我们重新思考 long-range sequence modeling 与 heterogeneous feature interaction 的融合方式。我们需要一种统一的建模框架,而非将 sequence encoding 和 token mixing 视为两个松散耦合的阶段,以实现 sequential signals 与 non-sequential signals 之间更深度的、更早期的双向交互。
本文提出 HyFormer,一种 hybrid transformer 架构,将 sequence modeling 与 feature interaction 统一在单一骨干网络中。HyFormer 引入一组 global tokens,作为 long behavior sequences 与 heterogeneous features 之间的 a shared semantic interface。通过堆叠式设计,HyFormer 在两种轻量的且具有表达能力的机制间交替执行:
Query Decoding 模块利用 global query tokens,对 long behavioral sequences 的 layer-wise key–value representations 进行注意力计算,使 global context 能直接塑造(shape)sequence representations。
Query Boosting 模块通过高效的 token mixing,进一步强化 cross-query and cross-sequence interactions ,逐层丰富 semantic representations 。
该设计实现了 sequence modeling 与 feature interaction 组件间的信息的双向流动,克服了传统的 decoupled pipelines 的局限性。在十亿级工业数据集上的大量实验表明,在参数量和 FLOPs 相当的前提下,HyFormer 一致地优于性能强劲的 sequence-based and token-mixing baselines。此外,HyFormer 在模型 FLOPs 和参数量方面展现出更优异的 scaling 特性,且在高流量的生产系统中开展的大规模 online A/B tests 中取得了显著的性能提升。
综上,本文的贡献如下:
指出了工业级大规模推荐系统中,主流的 decoupled sequence modeling and feature interaction 范式存在的根本性局限性,并分析了其单向的、后期融合的设计如何制约模型容量和可扩展性。
提出 HyFormer,一种统一的 hybrid transformer 架构,通过 Query Decoding 和 Query Boosting 实现 long-range behavioral sequences 与 heterogeneous features 之间的双向的、layer-wise 的交互,在实际工业场景中取得了 SOTA 的性能和可扩展性。
在十亿级工业数据集上,通过实证验证了所提模型的有效性和优异的 scaling 性能。目前,HyFormer 已在 Bytedance 全面部署,每日服务十亿级用户。
传统推荐范式:现代工业级 LRMs 通常由两个核心组件构成:behavior-sequence modeling 网络和 feature-interaction 网络。在该范式中,user behavior histories 首先由专用的 sequence models 进行编码,其输出随后与 heterogeneous non-sequential features 一起馈入下游的 interaction 模块。
近期的工业系统沿此方向大幅提升了 sequence modeling 的可扩展性。SIM (《Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction》)、ETA (《Efficient long sequential user data modeling for click-through rate prediction》)、TWIN(《TWIN: TWo-stage Interest Network for Lifelong User Behavior Modeling in CTR Prediction at Kuaishou》、《TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou》)、TransAct (《TransAct: Transformer-based Realtime User Action Model for Recommendation at Pinterest》)和 LONGER (《LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders》)等方法,通过高效注意力机制、分层聚合(hierarchical aggregation)、KV caching 和易部署的设计,将 sequence encoders 的处理能力扩展至数百甚至数千个 behaviors。这些研究证明,在大规模流量下,建模 long-range user behaviors 存在明显的 power-law 缩放趋势,但在很大程度上仍保留了将 sequence encoding 与 feature interaction 解耦的两阶段架构。
在 feature-interaction 方面,DeepFM (《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》)、xDeepFM (《xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems》)和 DCNv2 (《DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Syst》)等早期模型能 at scale 地建模低阶的或有界 degree 的 feature crosses ,但随着 interaction depth 的增加,性能提升逐渐趋缓。
Wukong (《Wukong: Towards a scaling law for large-scale recommendation》)和 RankMixer (《RankMixer: Scaling Up Ranking Models in Industrial Recommenders》)等近期的 scaling studies 指出,cross-module expansion 成为工业级模型性能提升的关键驱动力。这些模型代表了当前大规模 feature-interaction 设计的最高水平;但在大多数生产级流水线中,interaction stack 与 sequence encoder 仍处于松散耦合的状态,导致 late fusion,无法实现 heterogeneous signals 的联合优化。
统一的推荐架构:为减少 sequence modeling 与 feature interaction 之间的割裂,近期研究开始探索统一的架构(unified architectures),在单一骨干网络中处理异构的信号。
HSTU (《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》)等分层的生成式架构,通过基于 contextual and candidate signals 执行 sequence transduction,构建了统一的推荐范式。
InterFormer (《InterFormer: Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction》)引入可学习的 interaction tokens,实现信号的双向交换,弥补了 sequence encoders 与 interaction networks 之间的差距。
MTGR (《MTGR: Industrial-Scale Generative Recommendation Framework in Meituan》)进一步推进了统一化设计,将 user, behavior, real-time, and candidate features 重组为 heterogeneous tokens ,并通过一个 Transformer-style backbone 进行编码,使 sequence information 和 cross features 能被一致地建模(be modeled coherently)。
OneTrans (《OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender》)沿袭了 MTGR 的研究方向,使用单一 Transformer 联合捕获 sequence dependencies 和 high-order feature interaction,同时通过 pyramid-compression style 简化了 Transformer 结构,可视为 MTGR 的简化版本。
然而,MTGR 和 OneTrans 将 query tokens 的数量直接等同于所有 non-sequence tokens 的数量,实际应用中会导致 serving efficiency 显著下降(见第 1.3 节)。此外,在工业级 LRMs 中,采用统一的 Transformer 结构建模 feature interaction 通常存在表达能力不足的问题(《RankMixer: Scaling Up Ranking Models in Industrial Recommenders》)。总体而言,统一的架构为打破 sequence models 与 feature-interaction stacks 之间长期存在的分离状态迈出了一步,但如何以最小的架构开销实现完全统一,仍是一个待解的挑战。
问题定义:设 user space 和 item space。对于用户 raw behavioral history 表示为 non-sequential features,包括画像属性、上下文信号和交叉特征。给定 candidate item item
注意:
既表示 user, item,也表示它们关联的non-sequential features。
其中 interaction 是否发生。
模型参数通过历史数据集
其中 LRM 输出的 engagement 概率的预测值。
整体框架:传统的 LRM 架构通常采用流水线设计,先执行 LONGER 等 sequence modeling 操作,再将包含 compressed sequence information 的 query token 用于后续的 RankMixer 等 feature interaction 操作。如前文所述,这种分离式流水线对 sequence modeling 和异构 feature interaction 的建模均存在不足。为克服该局限性,本文提出一种统一的混合框架,通过堆叠的 HyFormer layers,联合 non-sequential (NS) tokens 和 long behavioral sequences。
HyFormer 的整体架构如 Figure 1所示。如图所示,每个 HyFormer layer 整合了两种互补机制:
(1):Query Decoding,通过 MLP-based query generation,将 non-sequential and sequential features 扩展为多个 semantic global tokens(即 sequence queries),并对 long-sequence K/V pairs 执行 cross-attention,使 global information 能直接塑造 representation of sequence tokens。
(2):Query Boosting,采用 MLP-Mixer-style token mixing,强化 decoded queries 与 non-sequence tokens 之间的交互。
通过将 global heterogeneous-feature mixing 与高效的 long-sequence modeling 紧密耦合,所提框架实现了更丰富的 heterogeneous interactions、对 sequential structure 的 deeper utilization;且与现有分离式流水线架构相比,在性能和计算成本上更具优势。
注意,右图中:
Next Block Seq Tokens:就是。
NS Tokens:来自于Query Boosting的split结果。
Next Block Global:来自于Query Boosting的split结果。该方法的核心是:
用
Query Generation(初始block)、Query Boosting(后续blocks)来建模feature interaction。然后用所生成的
Global Tokens作为query来执行sequence modeling。这两步交替执行,从而不断优化。

Input Tokenization:遵循 RankMixer 中的 tokenization 策略,input tokens 可通过 semantic grouping 或 automatic splitting 两种方式组织。
semantic grouping 根据特征的固有含义(如用户、上下文或 behavior 语义)对 tokens 进行划分。
而 automatic splitting 则将所有 features 展平为单个 embedding,并在无显式语义区分的情况下进行均匀拆分。
实际应用中,鉴于本研究中的 input features 具有明确的语义角色(semantic roles),HyFormer 采用 semantic grouping ,以保留结构化的 inductive bias 并提升模型的可解释性。
Query Generation:Query Generation 模块将 heterogeneous non-sequential features 转换为用于解码 long behavioral sequences 的 semantic query tokens 。将所有 non-sequential feature vectors feed-forward network: FFN)进行映射。此外,通过对 behavioral sequence representations 进行池化操作,得到一个 global sequence-level summary,并将其作为额外的 shared input ,与 non-sequential features 类似地处理。
queries 通过如下方式来生成:首先融合 non-sequential features 和 pooled sequence summary ,然后通过一个轻量级投影。
其中:
hidden representation 维度,non-sequential features 数量,query tokens 数量。
behavioral sequence representations 。
为保证 serving efficiency,该模块支持 feature selection 和可选的 query compression,在保持 generated queries 数量稳定的同时,为下游解码保留足够的表征能力。
“该模块支持
feature selection和可选的query compression“,这段话如何理解?作者并未说明。基于相同的
Global Info来生成个不同的 query,这类似于multi-query attention: MQA的思路。
在更深的 HyFormer layers 中,queries 不再通过 MLPs 来生成。而是每层将前一层的 Query Boosting outputs 作为 updated queries,以逐步丰富的语义对长序列进行查询。
在实验章节,作者提到:
HyFormer的query由三个来源生成:global non-sequential features、multiple sequences pooling tokens和original target features。因此,
query还包含了original target features。
Query Decoding 模块负责将 non-sequential features 转换为 semantic queries,并通过 cross attention 从 long behavioral sequences 中提取 target-aware information。利用 Sequence Representation Encoding 模块生成的 long sequence 的 layer-wise key–value representations,Query Decoding 模块通过 multi-query cross attention 机制,使用 Query Generation 模块输出的 multiple query tokens 对 K/V representation 进行解码。
Sequence Representation Encoding:HyFormer 支持多种 sequence encoding 策略,可在模型容量和效率之间实现不同的权衡。给定 behavioral sequence layer-wise key–value representations
Full Transformer Encoding:在最高建模容量下,采用标准的 Transformer encoder :
该方式通过 full self-attention 捕获细粒度的 interactions 和长距离的 dependencies 。
LONGER-style Efficient Encoding:为提升 long sequences 的处理效率,将 full self-attention 替换为 cross-attention (在 a compact short sequence 和 full history 之间):
其中:a compact short sequence),它的长度为 query,keys 和 values。
该方式替代了 full self-attention,将计算复杂度从
这个
short sequence如何得到?作者并未说明。读者猜测:利用最近的个 actions。
Decoder-style Lightweight Encoding:对于对 latency 要求严苛的场景,通过 attention-free feed-forward 操作转换 sequence representations :
它以牺牲 contextual capacity 为代价,实现最小的计算成本。
其中:SwiGLU 函数:
注意:这里
SwiGLU函数是per-token的,并不是"Concat-And-SwiGLU"。
在所有变体中,将所生成的 representations 进行线性投影,得到 layer-specific key–value states:
key–value states 在每层重新计算,使 sequence features 能与 decoder depth 协同演化,同时支持灵活的 deployment configurations。
注意:
构成了下一层的 Seq Tokens。
Query Decoding via Cross-Attention:给定 sequence-specific query tokens 和对应的 layer-wise key–value representations,HyFormer 通过 cross-attention 执行 Query Decoding。对于第 behavioral sequence decoded query representations 计算如下:
其中:
multi-head cross-attention 操作。
query token。
该 decoding 步骤使得全局的 non-sequential 的特征能够直接对 long behavioral sequences 执行注意力计算,将上下文信号注入到 sequence-aware query representations 中。decoded query interaction 模块和 boosting 模块。
注意:在
Figure 1中,作者对CrossAttn的输出叠加了一个residual connection。
Query Boosting 模块在 query representations 被馈入后续 cross-attention layer 之前,对 query representations 进行增强。decoding 步骤完成后,queries 已编码了 sequence-aware information,但其与静态的 non-sequential heterogeneous features 之间的交互仍未被充分挖掘。Query Boosting 模块通过显式地在 query tokens之间混合信息,并注入额外的 non-sequence-feature signals ,解决这一局限性。
基于 decoded output,unified query representation 定义为:
其中:decoded query tokens,剩余 tokens 为 non-sequential feature embeddings 。
已经包含了 的信息。这里进一步融合 的信息。
具体而言,boosting 模块采用受 RankMixer 启发的 MLP-Mixer-style 的轻量级 token-mixing 操作,从而增强 decoded queries。
首先将每个 query token
对于每个子空间索引 MLP-Mixer 通过拼接对应子空间的信息,聚合所有 token positions 的特征:
整合所有 mixed tokens,得到 token-mixed representation :
通过轻量级的 per-toke feed-forward 模块,对 mixed queries 进行进一步优化:
其中:query token 执行独立的前馈变换,在保留线性计算复杂度的同时,实现子空间特定的优化(subspace-specific refinement)。
最后,引入残差连接(residual connection)以稳定 optimization 过程,并保留原始的 decoded semantics :
boosted queries 随后馈入下一个 HyFormer layer,使更 deeper layers 能以逐步丰富、更具表达能力的 representations 对 long behavioral sequences 进行查询。
注意:在
Figure 1中,residual connection是叠加在Cross Attention的output上。注意:
被拆分为 Global Token和NS Tokens从而被馈入下一层。
HyFormer 模块由多层堆叠构成,每层包含一个 Query Decoding 块和一个 Query Boosting 块。在每层中,semantic queries 通过 cross-attention 与 long behavioral sequence 交互;所生成的 sequence-aware representations 经进一步优化后,作为 deeper layers 的输入。
形式化地,在第 Query Decoding 块接收 global queries layer-wise key–value representations long sequence 派生而来)执行 cross-attention:
decoded queries non-sequential tokens 拼接后,馈入 Query Boosting 块,通过轻量级的 token-wise transformation 来增强 query representations:
通过堆叠多层上述结构,HyFormer 逐步优化 semantic queries,使 deeper layers 能以更具表达能力的 representations 对 long sequence 进行总结。HyFormer 顶层的 output 被馈入下游的 MLPs ,得到最终预测结果,实现了 LRMs 中 heterogeneous non-sequential features 与 long behavioral sequences 的高效的、灵活的融合。
NS Tokens:来自于上一层的。
在工业推荐场景中,user behaviors 通常被组织为多个异构序列,例如 video-watch sequence 和 product-purchase sequence。由于实际的 multi-sequences 通常具有不同的特征空间和 semantic representations,我们通过实证发现:MTGR 或 OneTrans 采用的简单的 sequence-merge 会导致模型性能显著下降(见 1.3 节)。因此,HyFormer 并未将不同序列合并为单个 unified stream,而是在每个 HyFormer 块中独立地处理每个 behavior sequence,兼顾模型的效率和有效性。
如 Figure 2 所示,对于每个序列,构建一组专用的 query tokens,并用于对对应的 sequence representations 执行 Query Decoding 。该设计在 decoding 过程中保留了 sequence-specific semantics,同时通过 query-level token mixing,在后续步骤中处理 cross-sequence interaction ,无需对序列进行显式拼接。
这种做法比较巧妙。

Long-Sequence 的 GPU Pooling:user long-sequence features 的数据量可能极大,导致显著的 data-transfer 开销(如主机到设备的内存拷贝)和主机端的高内存压力。幸运的是,此类序列中真正 unique feature IDs 数量有限(通常为 total tokens 的 25%)。我们利用这种稀疏性对特征进行去重,大幅降低传输成本和主机内存占用。
具体而言,在 graph execution 前,将特征存储在 compressed embedding-table 中;执行过程中,构建高性能的前向算子,直接在 GPU 上重构 original sequence features 。在反向传播过程中,配套的反向算子将 sequence features 的梯度聚合为 embedding table 的梯度,随后将这些梯度向上传播,更新 sparse parameters。
Asynchronous AllReduce:为缓解 synchronous gradient aggregation 带来的设备空闲时间,本系统启用了 asynchronous AllReduce,使第 gradient synchronization 能与第 GPU 的利用率。但这一设计的权衡是,dense parameters 的梯度会引入一步延迟:由于 dense parameters 的梯度需在 asynchronous reduction 完成后才能获取,其更新规则变为:
即,第 dense parameter 使用前一步的梯度来更新。
相比之下,sparse parameters 在本地梯度计算完成后即可立即更新,更新规则为:
因此其更新比 dense parameter 领先一步。
尽管这种混合更新策略导致 dense and sparse parameter states 存在轻微的时间不一致性,但实证结果表明,这种延迟在实际应用中不会降低模型的收敛质量和性能。
数据集:我们在 ByteDance 的 Douyin Search System 中,针对点击率(Click Rate: CTR)预测任务评估模型性能,该场景是真实的大规模工业搜索推荐场景。实验数据集来源于 70 个连续自然日的在线 user interaction logs 的子集,包含 3 billion 条样本。每条样本整合了 user features、query features、document features、cross-features 和多个 sequential features。模型中使用的三个主要序列定义如下:
long-term sequence:用户的长期 search and click behavior sequence,长度可按需调整,本研究中设置上限为 3000。
Search sequence :经 Query Search 模块筛选后的用户 top-50 search behavior items 。
Feed sequence:经 Query Search 模块筛选后的用户 top-50 feed behavior items。
Baselines:我们将所提模型与多个性能强劲的基线模型进行对比,这些基线模型可分为两种架构范式:传统两阶段模型(Traditional Two-Stage Models )和统一架构模型(Unified-Architecture Models)。
Traditional Two-Stage Models:遵循主流的设计思路,将 sequence modeling 和 feature interaction 分为两个连续的阶段。具体而言,先通过专用的 sequence modeling 模块生成 sequential representations,再将其与其他特征的 token-level representations 进行交叉融合。
long-sequence modeling 采用 LONGER 或 Full Transformer 架构。
为捕获 tokenized features 间的交互,采用 RankMixer 、Full Transformer 和 Wukong 等成熟的 feature interaction 架构。
Unified-Architecture Models:将 sequential features 和 non-sequential features 均进行令牌化,并在单个 model block 中同时处理,将 sequence modeling 和 heterogeneous feature interaction 整合为一个统一阶段。例如:
MTGR:将所有特征令牌化后,通过 Transformer 风格的骨干网络进行联合建模。
OneTrans:采用类似的简化设计,以 pyramid-compressed structure 作为骨干网络。
在本研究的 MTGR/OneTrans 模型实现中,仅在 non-sequential features 和 sequential features 之间执行 cross-attention 计算,即 MTGR/OneTrans (LONGER),不计算序列内部的 self-attention 。同时,为提升性能并增加 FLOPs,我们也实现了包含序列full self-attention 的 MTGR/OneTrans 模型,即 MTGR/OneTrans (Full Transformer) 。
评估指标:离线评估采用 Query-level AUC,即先计算每个 query 下样本的 AUC,再对所有 queries 的 AUC 取平均值。同时,我们报告模型的 dense parameters 数量和 training FLOPs,其中 FLOPs 基于 batch size = 2048 来计算。
实现细节:
为方便实验,推荐模型在离线评估时采用冷启动方式,在线评估时通过 checkpoints 进行预热。
所有基线模型均使用相同的 batch size = 2048 和 optimizer settings。
所有 MLP-Mixer 模块的 input token 数量均对齐为 16。
在 multi-sequence HyFormer 的实现中,包含 13 个 non-sequential tokens 和 3 个 global tokens (每个序列对应 1 个 global tokens ),tokens 总数为 16。
所有模型均采用相同的超参数调优策略,实验在一个 64-GPUs cluster 上完成。
现有方法对比:所提的 HyFormer 架构在所有评估模型中取得了最高的 AUC 值,性能优于传统两阶段模型(记为 BaseArch)和其他 unified-block 模型(记为 UniArch)。结果如 Table 1 所示。
在传统两阶段模型组中,性能随组件选择的不同存在显著差异:
在 feature interaction 方面,RankMixer 的性能始终优于 Self-Attention 和 Wukong。
在 sequence modeling 方面,在序列中引入 full self-attention 通常能带来性能提升。值得注意的是,传统两阶段模型中性能最优的组合 —— Full Transformer 的 sequence modeling 配合 RankMixer 的 feature interaction ,仍不如 HyFormer,这源于其固有的局限性:信息单向流动。
此外,实验结果表明 HyFormer 具有优异的计算效率:尽管取得了最高的准确性,但其训练过程(含前向传播和反向传播)的 total FLOPs 仅为 MTGR 等其他高性能模型。整体性能结果凸显了传统两阶段范式的固有局限性。
HyFormer 和 MTGR 等统一架构的实验结果表明,将 sequence modeling 与 feature interaction 整合为一个连贯的设计,能提升模型的整体有效性。但如 Table 1 所示:
MTGR/OneTrans 依赖 Self-Attention 进行 feature interaction。这种方式往往会导致 AUC 下降,且会显著降低 interaction 模块的计算效率。
而 HyFormer 无需采用此类高成本的方案,也无需在 sequence key-value side 进行复杂建模,即可取得最优的准确性,验证了其在 unified block 中迭代式地执行 query decoding 和 query boosting 这一核心设计原则的有效性。
此外,MTGR/OneTrans 将 Global Tokens and Seq Tokens 共同作为 keys,仅将 Global Tokens 作为 queries,这一设计使 Global Tokens 更容易对自身执行注意力计算,而非对 sequence tokens 执行注意力计算。相比之下,HyFormer 采用分离的信息流设计:先将具体的 sequence item information 压缩并融入 Global Tokens ,再在不同的 abstract Global Tokens 间执行交互,该 two-step 过程在各层中反复堆叠。同时,HyFormer 的混合架构为未来的 scaling 提供了更高的灵活性,可独立调整 interaction layers/dimensions 和 sequence modeling layers/dimensions,相比将 feature interaction and sequence modeling 严格绑定在单个标准 attention layer 中的方法,是一种更具适应性的框架。
对于
MTGR/OneTrans,它在一个CrossAttention操作中同时建模sequence modeling和feature interaction。而Hyformer,Query Boosting建模feature interaction,而Query Decoding建模sequence modeling。

消融研究:Table 2 展示了 HyFormer 性能提升主要贡献因素的消融实验结果。
首先,我们对 query 的组成部分进行消融。HyFormer 的 query 由三个来源生成:global non-sequential features、 multiple sequences pooling tokens 和 original target features。实验表明:
将 query 恢复为仅包含原始的 target-feature-only state,会严重限制后续的 deep feature interaction,导致 AUC 下降 0.08%。
从 full query 中移除 cross-sequence pooling tokens,也会使 AUC 损失 0.05%,证明 inter-sequence interaction 在 HyFormer 的结构中能产生有意义的性能增益。
其次,我们评估整体架构变更的影响。
恢复基线架构(LONGER + RankMixer,即先 sequential modeling 再独立的 feature interaction )后发现,即使增强了 query information,由于缺乏 deepened interaction,性能提升也受到限制,仅实现了 0.03% 的 AUC 提升(-0.14% vs -0.17%)。
相比之下,在专为 strengthen interaction 设计的 HyFormer 框架中,扩展 query information 能带来显著的 0.08% 的 AUC 提升。
第三,我们在 HyFormer 中对 multi-sequence modeling 策略进行消融实验。处理 multiple sequences 主要有两种范式:
通过维度对齐和拼接,从而将多个序列合并为一个整体并进行联合建模。
保持多个序列分离并独立建模。
HyFormer 采用后一种方式,为每个序列分配独立的 query tokens。实验发现, sequence merging and query sharing 的方式会导致 AUC 显著下降 0.06%。这一结果体现了 HyFormer 在 expanding queries and enabling broader feature interaction 方面的优势;此外,sequence merging 会迫使多个序列共享 global tokens,忽略了序列的独特性, generated representations 所捕获的差异化信息远少于 HyFormer 的针对序列的 separate modeling 的方式。我们推测,sequence merging 的这种固有局限性,也是 MTGR 和 OneTrans 等模型性能不如 HyFormer 的部分原因。
综上,HyFormer 架构通过为不同序列分配独立的 tokens,构建了一个通用的 multi-sequence modeling 框架,无需对不同序列的 side information 或 sparse dimensions 进行强制对齐。该设计不仅在很大程度上保留了序列之间的固有差异,还能为更重要的序列自适应地分配更多 global tokens ,这一点在我们的离线实验中已取得了可量化的性能增益。

本节分析模型性能随 sequence side information、 FLOPs 和参数数量变化的 scaling 特性。如 Table 1 的整体性能所示,在 first performing sequential modeling and then performing heterogeneous feature interaction 的范式下,LONGER + RankMixer 取得了最优性能,也是当前的 production baseline 模型。因此,我们将其作为 scaling 实验中的对照组(BaseArch ),对比 HyFormer 架构的 scaling 性能。
Parameters & FLOPs:
我们在 200M 至 1B+ 参数的模型规模范围内,验证了 HyFormer 架构的 scaling law,结果如 Figure 3(a) 所示。可以看到,HyFormer 不仅在初始阶段性能优于基线模型 LONGER + RankMixer,且整体保持了强劲的 scaling 增益,其性能曲线的斜率比基线模型更陡峭。这表明,HyFormer 中 LONGER 和 RankMixer 的 alternating stacked layers 实现了信息的双向流动,使其在相似的参数规模下,能从 increasing depth 中获得比基线模型显著更多的性能增益。
从计算成本( FLOPs)的角度分析 scaling law 时,也能观察到类似的规律。如 Figure 3(b) 所示,AUC 随 FLOPs 的增加稳步提升,呈现出明显的 power-law 趋势。这表明,增加计算资源能使模型处理具备更丰富信息的序列,得益于 initial query 的扩展,以及通过 MLP-Mixer 的 feature interaction 对 query 进行的反复增强,最终实现了更显著的 AUC 提升。
这些结果表明,HyFormer 的架构设计优先考虑了 scaling 效率,通过丰富的 heterogeneous feature interactions,使每个参数能产生更大的性能增益,从而形成了更陡峭的性能缩放曲线。

Sparse Dim:我们还分析了模型性能随 sequence token input dimension (sparse embedding dim )—— 即 sequence side information 丰富度 —— 扩展的变化规律。实验表明,无论序列长度如何,丰富 sequence side information 为 HyFormer 框架带来的性能增益,始终大于基线框架 LONGER + RankMixer 。
如 Table 3 所示,对于长度为 1000 的序列,将 sparse dimension 从原始的 64 维(包含 item ID, search query
textnet classification, and timestamp 等 3 种 side information types )扩展至 224 维(新增 search query ID, author ID, event ID, and playtime ,一共共 7 种 side information types ),基线模型的 AUC 提升了 0.09%,而 HyFormer 的 AUC 提升了 0.12%。HyFormer 的性能提升幅度显著更大,这一趋势在实验中的其他序列长度下均保持一致。
此外,随着序列长度的增加,HyFormer 与传统两阶段模型之间的性能差距逐渐扩大,dimension expansion 带来的额外增益从 1000 序列长度时的 0.03%,增加至 3000 序列长度时的 0.06%。
这些结果表明,扩展 sequence key/value information 能为 HyFormer 框架带来更大的价值,且这一优势随序列长度的增加而更加显著。该优势源于 HyFormer 能将更丰富的 global information 整合到 sequence queries 中,同时其 LONGER 模块和 Mixer 模块之间的信息双向流动,共同实现了更充分的 feature interaction。

本节展示 HyFormer 模型在 Douyin Search 平台的 online A/B test 结果,对照组为性能强劲的现有 RankMixer 基线模型。在线评估采用三个核心指标:人均平均观看时长(Average Watch Time Per User)、人均视频完播数(Video Finish Play Count Per User)和 Query Change Rate 。其中,Query Change Rate 用于量化用户手动将一个 search query 细化为更具体 search query 的概率(例如从 "iPhone" 修改为 "iPhone 17 Pro"),计算方式如下:
其中:query reformulation 的 distinct user-query pairs 数量,distinct user-query pairs 总数量。该指标可作为用户搜索体验不佳的衡量标准。
如 Table 4 所示,online A/B Test 验证了 HyFormer 在核心指标上的显著提升:人均平均观看时长提升 0.293%,人均视频完播数提升 1.111%,query change rate 下降 0.236%。这些显著的增益证明了 HyFormer 在十亿级用户的实际平台环境中的实用价值和有效性。

本文提出了 HyFormer 架构。与主流的信息单向流动的 "Long Sequence Modeling, Then Feature Interaction" 范式不同,HyFormer 引入 Global Tokens,通过 feature interaction 来增强 query capacity ,重新定义了 long-sequence modeling and feature interaction 的角色。该架构在两个核心组件间交替执行:Query Decoding 和 Query Boosting。从 sequential modeling 的角度来看,这对应于一个 iterative optimization 过程 —— 先用 Global Tokens 解码 long sequences ,再通过 cross-feature interaction 来增强 Global Tokens。
该设计为更充分的 sequence modeling and feature interaction 提供了一种新颖且有效的框架,同时也为 multi-sequence modeling 提供了灵活的范式。大量的离线和在线实验验证了,从信息单向流动升级为双向的、协同演化的范式具有优越性,同时也为未来工业级 LRMs 提升了 scaling 上限。