2026_HyFormer

一、 HyFormer [2026]

《HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction》

工业级大规模推荐模型（large-scale recommendation models: LRMs）面临着如下的挑战：在严苛的效率约束下，联合建模 long-range 用户行为序列与异构的 non-sequential features 。然而，大多数现有架构采用解耦式的流水线：
- 先通过一个 query-token based sequence compressor（如 LONGER）对 long sequences 进行压缩。
- 再通过 RankMixer 等 token-mixing 模块与 dense features 进行融合。
这种流水线在一定程度上限制了模型的表征能力与交互灵活性。本文提出 HyFormer，一种统一的 hybrid 的 Transformer 架构，将 long-sequence modeling 与 feature interaction 紧密整合至单一骨干网络中。从序列建模的角度出发，我们重新审视并重新设计了 LRMs 中的 query tokens，将 LRM modeling task 构建为一个交替的 optimization process，该过程整合了两个核心组件：
- Query Decoding：将 non-sequential features 扩展为 Global Tokens ，并基于 long behavioral sequences 的 layer-wise key-value representations 执行 long sequence decoding 。
- Query Boosting：通过高效的 token mixing 来增强 cross-query and cross-sequence heterogeneous interactions。
这两种互补机制以迭代方式执行，逐层地 refine representations。在十亿级工业数据集上的大量实验表明，在参数数量和浮点运算量（FLOPs）相当的前提下，HyFormer 持续优于性能强劲的 LONGER 和 RankMixer 基线模型，且随着参数数量和 FLOPs 的增加，展现出更优异的 scaling 特性。在高流量生产系统中开展的大规模 online A/B tests 进一步验证了其有效性，相较于已部署的当前 SOTA 模型取得了显著的性能提升。这些结果凸显了 HyFormer 的的实用性和可扩展性，从而作为一个统一的建模框架从而用于工业级 LRMs。
现代工业级大规模推荐模型（large-scale recommendation models: LRMs）运行在日益复杂的环境中，其精准预测依赖于对 long-range 用户行为历史和丰富的异构特征的联合建模。这些异构特征包括：用户画像、上下文信号和交叉特征。随着 user engagement 在更长的时间范围内不断提升，特征空间持续扩展；如何将 long sequential signals 与高维 non-sequential information 有效融合，已成为大规模推荐系统和搜索系统的核心挑战。为应对这一挑战，近期的工业架构在很大程度上趋同于一种分离式的 scaling 范式，将 long sequence modeling 与 feature interaction 相结合。在该范式中， long user behavior sequences 由专用的 sequence transformers 编码，以捕获时序依赖关系（temporal dependencies ）和用户兴趣，压缩后的 sequence token(s) 通过 token-mixing or interaction modules与其他异构特征融合，从而实现 cross-feature reasoning 。这种 "Long Sequence Modeling, Then Heterogeneous Feature Interaction" 的流水线已被证明是有效的，并成为现代工业级 LRMs 的 scaling up 的的主流设计选择。
尽管该范式取得了良好的实证性能，但这种主流架构从根本上强制采用了压缩的（compressed）、后期融合的（late-fusion）、以及单向的交互模式（interaction pattern）。随着序列长度和模型容量的不断增加，这种两阶段设计暴露出根本性的局限性，制约了模型的表达能力和可扩展性。
- 现有架构中的 sequence transformers 在序列压缩过程中，往往依赖过于简化的 query representations 。实际应用中，用于聚合 long behavior sequences 的 query tokens 通常由 candidate-related or global features 的有限子集生成，限制了 modeling long-term user interests 时可利用的上下文信息总量。而直接增加 query tokens 的数量，会在 KV-Cache 和 M-Falcon 机制下导致 serving efficiency 的显著下降。
  $O (N \times L \times D)$ $N$ query tokens $L$ $D$ $N$ 时，会带来两个直接问题：
  - $N$ $N$ 线性上升，直接推高推理延迟。
  - 缓存访存效率大幅降低：KV-Cache 的张量存储在 GPU 的高带宽显存（HBM）中，query tokens 数量增加会导致单次推理的访存次数、访存数据量同步上升，引发显存带宽瓶颈。
- sequence-compressed tokens 与异构 non-sequential tokens 之间的交互通常仅发生在模型的后期阶段。在当前范式下，cross-feature reasoning 被推迟至 sequence compression 完成后，导致不同 token types 之间的交互是 shallow 的、且 implicit 的。这种 delayed fusion 限制了模型捕获细粒度依赖关系的能力（这种依赖关系跨多个 behavior sequences 和 heterogeneous feature groups），也使得 early-layer representations 无法从 cross-domain 上下文信息中获益。
- 由于 interaction 模块仅对 compressed sequence representations 进行操作，increasing model capacity or sequence length 主要优化的是孤立的组件，而非增强 joint representations 。因此，scaling up 模型深度或参数会导致 scaling efficiency 降低：性能随计算预算的增加而提升，但是提升的速率放缓，因为计算资源未能有效转化为更丰富的 joint representations。
这些局限性促使我们重新思考 long-range sequence modeling 与 heterogeneous feature interaction 的融合方式。我们需要一种统一的建模框架，而非将 sequence encoding 和 token mixing 视为两个松散耦合的阶段，以实现 sequential signals 与 non-sequential signals 之间更深度的、更早期的双向交互。
本文提出 HyFormer，一种 hybrid transformer 架构，将 sequence modeling 与 feature interaction 统一在单一骨干网络中。HyFormer 引入一组 global tokens，作为 long behavior sequences 与 heterogeneous features 之间的 a shared semantic interface。通过堆叠式设计，HyFormer 在两种轻量的且具有表达能力的机制间交替执行：
- Query Decoding 模块利用 global query tokens，对 long behavioral sequences 的 layer-wise key–value representations 进行注意力计算，使 global context 能直接塑造（shape）sequence representations。
- Query Boosting 模块通过高效的 token mixing，进一步强化 cross-query and cross-sequence interactions ，逐层丰富 semantic representations 。
该设计实现了 sequence modeling 与 feature interaction 组件间的信息的双向流动，克服了传统的 decoupled pipelines 的局限性。在十亿级工业数据集上的大量实验表明，在参数量和 FLOPs 相当的前提下，HyFormer 一致地优于性能强劲的 sequence-based and token-mixing baselines。此外，HyFormer 在模型 FLOPs 和参数量方面展现出更优异的 scaling 特性，且在高流量的生产系统中开展的大规模 online A/B tests 中取得了显著的性能提升。
综上，本文的贡献如下：
- 指出了工业级大规模推荐系统中，主流的 decoupled sequence modeling and feature interaction 范式存在的根本性局限性，并分析了其单向的、后期融合的设计如何制约模型容量和可扩展性。
- 提出 HyFormer，一种统一的 hybrid transformer 架构，通过 Query Decoding 和 Query Boosting 实现 long-range behavioral sequences 与 heterogeneous features 之间的双向的、layer-wise 的交互，在实际工业场景中取得了 SOTA 的性能和可扩展性。
- 在十亿级工业数据集上，通过实证验证了所提模型的有效性和优异的 scaling 性能。目前，HyFormer 已在 Bytedance 全面部署，每日服务十亿级用户。

1.1 相关工作

传统推荐范式：现代工业级 LRMs 通常由两个核心组件构成：behavior-sequence modeling 网络和 feature-interaction 网络。在该范式中，user behavior histories 首先由专用的 sequence models 进行编码，其输出随后与 heterogeneous non-sequential features 一起馈入下游的 interaction 模块。
- 近期的工业系统沿此方向大幅提升了 sequence modeling 的可扩展性。SIM （《Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction》）、ETA （《Efficient long sequential user data modeling for click-through rate prediction》）、TWIN（《TWIN: TWo-stage Interest Network for Lifelong User Behavior Modeling in CTR Prediction at Kuaishou》、《TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou》）、TransAct （《TransAct: Transformer-based Realtime User Action Model for Recommendation at Pinterest》）和 LONGER （《LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders》）等方法，通过高效注意力机制、分层聚合（hierarchical aggregation）、KV caching 和易部署的设计，将 sequence encoders 的处理能力扩展至数百甚至数千个 behaviors。这些研究证明，在大规模流量下，建模 long-range user behaviors 存在明显的 power-law 缩放趋势，但在很大程度上仍保留了将 sequence encoding 与 feature interaction 解耦的两阶段架构。
- 在 feature-interaction 方面，DeepFM （《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》）、xDeepFM （《xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems》）和 DCNv2 （《DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Syst》）等早期模型能 at scale 地建模低阶的或有界 degree 的 feature crosses ，但随着 interaction depth 的增加，性能提升逐渐趋缓。
  Wukong （《Wukong: Towards a scaling law for large-scale recommendation》）和 RankMixer （《RankMixer: Scaling Up Ranking Models in Industrial Recommenders》）等近期的 scaling studies 指出，cross-module expansion 成为工业级模型性能提升的关键驱动力。这些模型代表了当前大规模 feature-interaction 设计的最高水平；但在大多数生产级流水线中，interaction stack 与 sequence encoder 仍处于松散耦合的状态，导致 late fusion，无法实现 heterogeneous signals 的联合优化。
统一的推荐架构：为减少 sequence modeling 与 feature interaction 之间的割裂，近期研究开始探索统一的架构（unified architectures），在单一骨干网络中处理异构的信号。
- HSTU （《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》）等分层的生成式架构，通过基于 contextual and candidate signals 执行 sequence transduction，构建了统一的推荐范式。
- InterFormer （《InterFormer: Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction》）引入可学习的 interaction tokens，实现信号的双向交换，弥补了 sequence encoders 与 interaction networks 之间的差距。
- MTGR （《MTGR: Industrial-Scale Generative Recommendation Framework in Meituan》）进一步推进了统一化设计，将 user, behavior, real-time, and candidate features 重组为 heterogeneous tokens ，并通过一个 Transformer-style backbone 进行编码，使 sequence information 和 cross features 能被一致地建模（be modeled coherently）。
- OneTrans （《OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender》）沿袭了 MTGR 的研究方向，使用单一 Transformer 联合捕获 sequence dependencies 和 high-order feature interaction，同时通过 pyramid-compression style 简化了 Transformer 结构，可视为 MTGR 的简化版本。
然而，MTGR 和 OneTrans 将 query tokens 的数量直接等同于所有 non-sequence tokens 的数量，实际应用中会导致 serving efficiency 显著下降（见第 1.3 节）。此外，在工业级 LRMs 中，采用统一的 Transformer 结构建模 feature interaction 通常存在表达能力不足的问题（《RankMixer: Scaling Up Ranking Models in Industrial Recommenders》）。总体而言，统一的架构为打破 sequence models 与 feature-interaction stacks 之间长期存在的分离状态迈出了一步，但如何以最小的架构开销实现完全统一，仍是一个待解的挑战。

1.2 方法

$\mathcal U$ $\mathcal I$ 分别为 user spaceitem space $u\in \mathcal U$ raw behavioral history $\mathcal S=\left[i_1^{(u)},\cdots,i_K^{(u)}\right]$ $i_t^{(u)}\in \mathcal I$ $u$ 表示伴随的 non-sequential featurescandidate item $v\in \mathcal I$ $u$ item $v$ 发生交互的概率：
$P (y = 1 ∣ S, u, v) \in [0, 1]$
$u,v$ 既表示 user, item，也表示它们关联的 non-sequential features。
$y\in \{0,1\}$ 表示 interaction 是否发生。
$\mathcal D=\{(\mathcal S, u, v,y)\}$ 训练得到，优化目标为最小化标准的二元交叉熵损失：
$L = - \frac{1}{| D |} \sum_{(S, u, v, y) \in D} [y \log \hat{y} + (1 - y) \log (1 - \hat{y})]$
$\hat y = f_\theta(\mathcal S, u, v)$ 表示 LRM 输出的 engagement 概率的预测值。
整体框架：传统的 LRM 架构通常采用流水线设计，先执行 LONGER 等 sequence modeling 操作，再将包含 compressed sequence information 的 query token 用于后续的 RankMixer 等 feature interaction 操作。如前文所述，这种分离式流水线对 sequence modeling 和异构 feature interaction 的建模均存在不足。为克服该局限性，本文提出一种统一的混合框架，通过堆叠的 HyFormer layers，联合 non-sequential (NS) tokens 和 long behavioral sequences。
HyFormer 的整体架构如 Figure 1所示。如图所示，每个 HyFormer layer 整合了两种互补机制：
- (1)：Query Decoding，通过 MLP-based query generation，将 non-sequential and sequential features 扩展为多个 semantic global tokens（即 sequence queries），并对 long-sequence K/V pairs 执行 cross-attention，使 global information 能直接塑造 representation of sequence tokens。
- (2)：Query Boosting，采用 MLP-Mixer-style token mixing，强化 decoded queries 与 non-sequence tokens 之间的交互。
通过将 global heterogeneous-feature mixing 与高效的 long-sequence modeling 紧密耦合，所提框架实现了更丰富的 heterogeneous interactions、对 sequential structure 的 deeper utilization；且与现有分离式流水线架构相比，在性能和计算成本上更具优势。
注意，右图中：
- Next Block Seq Tokens $\mathbf H_l$ 。
- NS Tokens：来自于 Query Boosting 的 split 结果。
- Next Block Global：来自于 Query Boosting 的 split 结果。
该方法的核心是：
- 用 Query Generation （初始 block）、Query Boosting （后续blocks）来建模 feature interaction。
- 然后用所生成的 Global Tokens 作为 query 来执行 sequence modeling 。
这两步交替执行，从而不断优化。

1.2.1 Query Generation

Input Tokenization：遵循 RankMixer 中的 tokenization 策略，input tokens 可通过 semantic grouping 或 automatic splitting 两种方式组织。
- semantic grouping 根据特征的固有含义（如用户、上下文或 behavior 语义）对 tokens 进行划分。
- 而 automatic splitting 则将所有 features 展平为单个 embedding，并在无显式语义区分的情况下进行均匀拆分。
实际应用中，鉴于本研究中的 input features 具有明确的语义角色（semantic roles），HyFormer 采用 semantic grouping ，以保留结构化的 inductive bias 并提升模型的可解释性。
Query Generation：Query Generation 模块将 heterogeneous non-sequential features 转换为用于解码 long behavioral sequences 的 semantic query tokensnon-sequential feature vectors $\mathbf F_1,\mathbf F_2,\cdots,\mathbf F_M\in \mathbb R^{1\times D}$ 拼接后，馈入一个轻量级前馈网络（feed-forward network: FFN）进行映射。此外，通过对 behavioral sequence representations 进行池化操作，得到一个 global sequence-level summary，并将其作为额外的 shared input ，与 non-sequential features 类似地处理。
queries 通过如下方式来生成：首先融合 non-sequential features 和 pooled sequence summary ，然后通过一个轻量级投影。
$\begin{matrix} Q = [{FFN}_{1} (Global Info), \dots, {FFN}_{N} (Global Info)] \in R^{N \times D} \\ Global Info = Concat (F_{1}, \dots, F_{M}, MeanPool (Seq)) \in R^{1 \times (M D + D)} \end{matrix}$
其中：
- $D$ hidden representation $M$ non-sequential features $N$ 为 query tokens 数量。
- $\text{FFN}$ $\text{Seq}$ 为 behavioral sequence representations 。
为保证 serving efficiency，该模块支持 feature selection 和可选的 query compression，在保持 generated queries 数量稳定的同时，为下游解码保留足够的表征能力。
“该模块支持 feature selection 和可选的 query compression“，这段话如何理解？作者并未说明。
Global Info $N$ 个不同的 query，这类似于 multi-query attention: MQA 的思路。
在更深的 HyFormer layers 中，queries 不再通过 MLPs 来生成。而是每层将前一层的 Query Boosting outputs 作为 updated queries，以逐步丰富的语义对长序列进行查询。
在实验章节，作者提到：HyFormer 的 query 由三个来源生成：global non-sequential features、 multiple sequences pooling tokens 和 original target features。
因此，query 还包含了 original target features。

1.2.2 Query Decoding

Query Decoding 模块负责将 non-sequential features 转换为 semantic queries，并通过 cross attention 从 long behavioral sequences 中提取 target-aware information。利用 Sequence Representation Encoding 模块生成的 long sequence 的 layer-wise key–value representations，Query Decoding 模块通过 multi-query cross attention 机制，使用 Query Generation 模块输出的 multiple query tokens 对 K/V representation 进行解码。
Sequence Representation Encoding：HyFormer 支持多种 sequence encodingbehavioral sequence $\mathcal S$ layer-wise key–value representations $\left(\mathbf K_l^{(s)}, \mathbf V_l^{(s)}\right)$ ，用于后续的解码操作。
- Full Transformer Encoding：在最高建模容量下，采用标准的 Transformer encoder ：
  $H_{l} = {TransformerEnc}_{l} (S)$
  该方式通过 full self-attention 捕获细粒度的 interactions 和长距离的 dependencies 。
- LONGER-style Efficient Encoding：为提升 long sequences 的处理效率，将 full self-attention 替换为 cross-attention （在 a compact short sequence 和 full history 之间）：
  $H_{l} = CrossAttn (S_{short}, S, S)$
  $\mathcal S_\text{short}$ a compact short sequence $L_H \ll L_{\mathcal S}$ $\mathcal S_\text{short}$ query $\mathcal S$ 同时作为 keys 和 values。
  full self-attention $\mathcal O(L_{\mathcal S}^2)$ $\mathcal O(L_H L_{\mathcal S})$ 。
  short sequence $L_H$ 个 actions 。
- Decoder-style Lightweight Encoding：对于对 latency 要求严苛的场景，通过 attention-free feed-forward 操作转换 sequence representations ：
  $H_{l} = {SwiGLU}_{l} (S)$
  它以牺牲 contextual capacity 为代价，实现最小的计算成本。
  $\text{SwiGLU}(\cdot)$ 为 SwiGLU 函数：
  $\begin{matrix} SwiGLU (\vec{x}) = {Swish}_{1} (W \vec{x} + \vec{b}) ⊙ (V \vec{x} + \vec{c}) \\ {Swish}_{β} (\vec{x}) = \vec{x} ⊙ σ (β \vec{x}), σ (x) = \frac{1}{1 + \exp (- x)} \end{matrix}$
  注意：这里 SwiGLU 函数是 per-token 的，并不是 "Concat-And-SwiGLU" 。
在所有变体中，将所生成的 representations 进行线性投影，得到 layer-specific key–value states：
$K_{l} = H_{l} W_{l}^{K}, V_{l} = H_{l} W_{l}^{V}$
key–value states 在每层重新计算，使 sequence features 能与 decoder depth 协同演化，同时支持灵活的 deployment configurations。
$\mathbf H_l$ 构成了下一层的 Seq Tokens 。
Query Decoding via Cross-Attention：给定 sequence-specific query tokens 和对应的 layer-wise key–value representations，HyFormer 通过 cross-attentionQuery Decoding $l$ behavioral sequence $\mathcal S$ ， decoded query representations 计算如下：
${\tilde{Q}}_{l} = CrossAttn (Q_{l}, K_{l}, V_{l})$
其中：
- $\text{CrossAttn}(\cdot)$ 表示标准的 multi-head cross-attention 操作。
- $\mathbf Q_l\in \mathbb R^{N\times D}$ $l$ 层使用的 query token。
该 decoding 步骤使得全局的 non-sequential 的特征能够直接对 long behavioral sequences 执行注意力计算，将上下文信号注入到 sequence-aware query representationsdecoded query $\tilde{\mathbf Q}_l$ 随后作为语义接口，馈入后续的 interaction 模块和 boosting 模块。
注意：在 Figure 1 中，作者对 CrossAttn 的输出叠加了一个 residual connection。

1.2.3 Query Boosting

Query Boosting 模块在 query representations 被馈入后续 cross-attention layer 之前，对 query representations 进行增强。decoding 步骤完成后，queries 已编码了 sequence-aware information，但其与静态的 non-sequential heterogeneous features 之间的交互仍未被充分挖掘。Query Boosting 模块通过显式地在 query tokens之间混合信息，并注入额外的 non-sequence-feature signals ，解决这一局限性。
基于 decoded output，unified query representation 定义为：
$Q = [{\tilde{Q}}_{l}, F_{1}, \dots, F_{M}] \in R^{T \times D}$
$T=N + M$ $\tilde{\mathbf Q}_l\in \mathbb R^{N\times D}$ $l$ decoded query tokens $M$ 个 tokens 为 non-sequential feature embeddings 。
$\tilde{\mathbf Q}_l$ $\mathbf F_1,\cdots, \mathbf F_M$ $\mathbf F_1,\cdots, \mathbf F_M$ 的信息。
具体而言，boosting 模块采用受 RankMixer 启发的 MLP-Mixer-style 的轻量级 token-mixing 操作，从而增强 decoded queries。
- query token $\mathbf{\vec q}_t\in \mathbf Q$ $T$ 个子空间：
  ${\vec{q}}_{t} = [{\vec{q}}_{t}^{(1)} | | {\vec{q}}_{t}^{(2)} | | \dots | | {\vec{q}}_{t}^{(T)}], {\vec{q}}_{t}^{(h)} \in R^{D / T}, t = 1, 2, \dots, T$
- $h\in \{1,2,\cdots,T\}$ ，MLP-Mixer 通过拼接对应子空间的信息，聚合所有 token positions 的特征：
  ${\tilde{\vec{q}}}_{h} = Concat ({\vec{q}}_{1}^{(h)}, {\vec{q}}_{2}^{(h)}, \dots, {\vec{q}}_{T}^{(h)}) \in R^{D}$
- 整合所有 mixed tokens，得到 token-mixed representation ：
  $\hat{Q} = [{\tilde{\vec{q}}}_{1}, {\tilde{\vec{q}}}_{2}, \dots, {\tilde{\vec{q}}}_{T}] \in R^{T \times D}$
- 通过轻量级的 per-toke feed-forward 模块，对 mixed queries 进行进一步优化：
  $\tilde{Q} = PerTokenFFN (\hat{Q})$
  $\text{PerTokenFFN}(\cdot)$ 对每个 query token 执行独立的前馈变换，在保留线性计算复杂度的同时，实现子空间特定的优化（subspace-specific refinement）。
- 最后，引入残差连接（residual connection）以稳定 optimization 过程，并保留原始的 decoded semantics ：
  $Q_{boost} = Q + \tilde{Q}$
boosted queries 随后馈入下一个 HyFormer layer，使更 deeper layers 能以逐步丰富、更具表达能力的 representations 对 long behavioral sequences 进行查询。
注意：在 Figure 1 中，residual connection 是叠加在 Cross Attention 的 output 上。
$\mathbf Q_\text{boost}$ 被拆分为 Global Token 和 NS Tokens 从而被馈入下一层。

1.2.4 HyFormer Module

HyFormer 模块由多层堆叠构成，每层包含一个 Query Decoding 块和一个 Query Boosting 块。在每层中，semantic queries 通过 cross-attention 与 long behavioral sequence 交互；所生成的 sequence-aware representations 经进一步优化后，作为 deeper layers 的输入。
$l$ 层，Query Decodingglobal queries $\mathbf Q_{l-1}$ layer-wise key–value representations $\left(\mathbf K_l, \mathbf V_l\right)$ （由 long sequence 派生而来）执行 cross-attention：
${\hat{Q}}_{l} = CrossAttn (Q_{l - 1}, K_{l}, V_{l})$
decoded queries $\hat{\mathbf Q}_l$ 与 non-sequential tokens 拼接后，馈入 Query Boosting 块，通过轻量级的 token-wise transformation 来增强 query representations：
${\tilde{Q}}_{l} = QueryBoost (Concat ({\hat{Q}}_{l}, NS Tokens))$
通过堆叠多层上述结构，HyFormer 逐步优化 semantic queries，使 deeper layers 能以更具表达能力的 representations 对 long sequence 进行总结。HyFormer 顶层的 output 被馈入下游的 MLPs ，得到最终预测结果，实现了 LRMs 中 heterogeneous non-sequential features 与 long behavioral sequences 的高效的、灵活的融合。
NS Tokens $\mathbf H_l$ 。

1.2.5 Multi-Sequence Modeling

在工业推荐场景中，user behaviors 通常被组织为多个异构序列，例如 video-watch sequence 和 product-purchase sequence。由于实际的 multi-sequences 通常具有不同的特征空间和 semantic representations，我们通过实证发现：MTGR 或 OneTrans 采用的简单的 sequence-merge 会导致模型性能显著下降（见 1.3 节）。因此，HyFormer 并未将不同序列合并为单个 unified stream，而是在每个 HyFormer 块中独立地处理每个 behavior sequence，兼顾模型的效率和有效性。
如 Figure 2 所示，对于每个序列，构建一组专用的 query tokens，并用于对对应的 sequence representations 执行 Query Decoding 。该设计在 decoding 过程中保留了 sequence-specific semantics，同时通过 query-level token mixing，在后续步骤中处理 cross-sequence interaction ，无需对序列进行显式拼接。
这种做法比较巧妙。

1.2.6 Training and Deployment Optimization

Long-Sequence 的 GPU Pooling：user long-sequence features 的数据量可能极大，导致显著的 data-transfer 开销（如主机到设备的内存拷贝）和主机端的高内存压力。幸运的是，此类序列中真正 unique feature IDs 数量有限（通常为 total tokens 的 25%）。我们利用这种稀疏性对特征进行去重，大幅降低传输成本和主机内存占用。
具体而言，在 graph execution 前，将特征存储在 compressed embedding-table 中；执行过程中，构建高性能的前向算子，直接在 GPU 上重构 original sequence features 。在反向传播过程中，配套的反向算子将 sequence features 的梯度聚合为 embedding table 的梯度，随后将这些梯度向上传播，更新 sparse parameters。
Asynchronous AllReduce：为缓解 synchronous gradient aggregationasynchronous AllReduce $k$ gradient synchronization $k+1$ 步的前向计算和反向计算重叠执行。该设计有效消除了通信空耗，最大化 GPU 的利用率。但这一设计的权衡是，dense parameters 的梯度会引入一步延迟：由于 dense parameters 的梯度需在 asynchronous reduction 完成后才能获取，其更新规则变为：
$W_{k} = W_{k - 1} + g_{k - 1}$
$k$ 步的 dense parameter 使用前一步的梯度来更新。
相比之下，sparse parameters 在本地梯度计算完成后即可立即更新，更新规则为：
$W_{k} = W_{k - 1} + g_{k}$
因此其更新比 dense parameter 领先一步。
尽管这种混合更新策略导致 dense and sparse parameter states 存在轻微的时间不一致性，但实证结果表明，这种延迟在实际应用中不会降低模型的收敛质量和性能。

1.3 实验

数据集：我们在 ByteDance 的 Douyin Search System 中，针对点击率（Click Rate: CTR）预测任务评估模型性能，该场景是真实的大规模工业搜索推荐场景。实验数据集来源于 70 个连续自然日的在线 user interaction logs 的子集，包含 3 billion 条样本。每条样本整合了 user features、query features、document features、cross-features 和多个 sequential features。模型中使用的三个主要序列定义如下：
- long-term sequence：用户的长期 search and click behavior sequence，长度可按需调整，本研究中设置上限为 3000。
- Search sequence ：经 Query Search 模块筛选后的用户 top-50 search behavior items 。
- Feed sequence：经 Query Search 模块筛选后的用户 top-50 feed behavior items。
Baselines：我们将所提模型与多个性能强劲的基线模型进行对比，这些基线模型可分为两种架构范式：传统两阶段模型（Traditional Two-Stage Models ）和统一架构模型（Unified-Architecture Models）。
- Traditional Two-Stage Models：遵循主流的设计思路，将 sequence modeling 和 feature interaction 分为两个连续的阶段。具体而言，先通过专用的 sequence modeling 模块生成 sequential representations，再将其与其他特征的 token-level representations 进行交叉融合。
  - long-sequence modeling 采用 LONGER 或 Full Transformer 架构。
  - 为捕获 tokenized features 间的交互，采用 RankMixer 、Full Transformer 和 Wukong 等成熟的 feature interaction 架构。
- Unified-Architecture Models：将 sequential features 和 non-sequential features 均进行令牌化，并在单个 model block 中同时处理，将 sequence modeling 和 heterogeneous feature interaction 整合为一个统一阶段。例如：
  - MTGR：将所有特征令牌化后，通过 Transformer 风格的骨干网络进行联合建模。
  - OneTrans：采用类似的简化设计，以 pyramid-compressed structure 作为骨干网络。
  在本研究的 MTGR/OneTrans 模型实现中，仅在 non-sequential features 和 sequential features 之间执行 cross-attention 计算，即 MTGR/OneTrans (LONGER)，不计算序列内部的 self-attention 。同时，为提升性能并增加 FLOPs，我们也实现了包含序列full self-attention 的 MTGR/OneTrans 模型，即 MTGR/OneTrans (Full Transformer) 。
评估指标：离线评估采用 Query-level AUC，即先计算每个 query 下样本的 AUC，再对所有 queries 的 AUC 取平均值。同时，我们报告模型的 dense parameters 数量和 training FLOPs，其中 FLOPs 基于 batch size = 2048 来计算。
实现细节：
- 为方便实验，推荐模型在离线评估时采用冷启动方式，在线评估时通过 checkpoints 进行预热。
- 所有基线模型均使用相同的 batch size = 2048 和 optimizer settings。
- 所有 MLP-Mixer 模块的 input token 数量均对齐为 16。
- 在 multi-sequence HyFormer 的实现中，包含 13 个 non-sequential tokens 和 3 个 global tokens （每个序列对应 1 个 global tokens ），tokens 总数为 16。
- 所有模型均采用相同的超参数调优策略，实验在一个 64-GPUs cluster 上完成。

1.3.1 整体性能

现有方法对比：所提的 HyFormer 架构在所有评估模型中取得了最高的 AUC 值，性能优于传统两阶段模型（记为 BaseArch）和其他 unified-block 模型（记为 UniArch）。结果如 Table 1 所示。
- 在传统两阶段模型组中，性能随组件选择的不同存在显著差异：
  - 在 feature interaction 方面，RankMixer 的性能始终优于 Self-Attention 和 Wukong。
  - 在 sequence modeling 方面，在序列中引入 full self-attention 通常能带来性能提升。值得注意的是，传统两阶段模型中性能最优的组合 —— Full Transformer 的 sequence modeling 配合 RankMixer 的 feature interaction ，仍不如 HyFormer，这源于其固有的局限性：信息单向流动。
  此外，实验结果表明 HyFormertotal FLOPs $3.9\times 10^{12}$ ，远低于大多数对比模型，包括 MTGR 等其他高性能模型。整体性能结果凸显了传统两阶段范式的固有局限性。
- HyFormer 和 MTGR 等统一架构的实验结果表明，将 sequence modeling 与 feature interaction 整合为一个连贯的设计，能提升模型的整体有效性。但如 Table 1 所示：
  - MTGR/OneTrans 依赖 Self-Attention 进行 feature interaction。这种方式往往会导致 AUC 下降，且会显著降低 interaction 模块的计算效率。
  - 而 HyFormer 无需采用此类高成本的方案，也无需在 sequence key-value side 进行复杂建模，即可取得最优的准确性，验证了其在 unified block 中迭代式地执行 query decoding 和 query boosting 这一核心设计原则的有效性。
  此外，MTGR/OneTrans 将 Global Tokens and Seq Tokens 共同作为 keys，仅将 Global Tokens 作为 queries，这一设计使 Global Tokens 更容易对自身执行注意力计算，而非对 sequence tokens 执行注意力计算。相比之下，HyFormer 采用分离的信息流设计：先将具体的 sequence item information 压缩并融入 Global Tokens ，再在不同的 abstract Global Tokens 间执行交互，该 two-step 过程在各层中反复堆叠。同时，HyFormer 的混合架构为未来的 scaling 提供了更高的灵活性，可独立调整 interaction layers/dimensions 和 sequence modeling layers/dimensions，相比将 feature interaction and sequence modeling 严格绑定在单个标准 attention layer 中的方法，是一种更具适应性的框架。
  对于 MTGR/OneTrans，它在一个 CrossAttention 操作中同时建模 sequence modeling 和 feature interaction 。而 Hyformer，Query Boosting 建模feature interaction ，而 Query Decoding 建模 sequence modeling 。
消融研究：Table 2 展示了 HyFormer 性能提升主要贡献因素的消融实验结果。
- 首先，我们对 query 的组成部分进行消融。HyFormer 的 query 由三个来源生成：global non-sequential features、 multiple sequences pooling tokens 和 original target features。实验表明：
  - 将 query 恢复为仅包含原始的 target-feature-only state，会严重限制后续的 deep feature interaction，导致 AUC 下降 0.08%。
  - 从 full query 中移除 cross-sequence pooling tokens，也会使 AUC 损失 0.05%，证明 inter-sequence interaction 在 HyFormer 的结构中能产生有意义的性能增益。
- 其次，我们评估整体架构变更的影响。
  - 恢复基线架构（LONGER + RankMixer，即先 sequential modeling 再独立的 feature interaction ）后发现，即使增强了 query information，由于缺乏 deepened interaction，性能提升也受到限制，仅实现了 0.03% 的 AUC 提升（-0.14% vs -0.17%）。
  - 相比之下，在专为 strengthen interaction 设计的 HyFormer 框架中，扩展 query information 能带来显著的 0.08% 的 AUC 提升。
- 第三，我们在 HyFormer 中对 multi-sequence modeling 策略进行消融实验。处理 multiple sequences 主要有两种范式：
  - 通过维度对齐和拼接，从而将多个序列合并为一个整体并进行联合建模。
  - 保持多个序列分离并独立建模。
  HyFormer 采用后一种方式，为每个序列分配独立的 query tokens。实验发现， sequence merging and query sharing 的方式会导致 AUC 显著下降 0.06%。这一结果体现了 HyFormer 在 expanding queries and enabling broader feature interaction 方面的优势；此外，sequence merging 会迫使多个序列共享 global tokens，忽略了序列的独特性， generated representations 所捕获的差异化信息远少于 HyFormer 的针对序列的 separate modeling 的方式。我们推测，sequence merging 的这种固有局限性，也是 MTGR 和 OneTrans 等模型性能不如 HyFormer 的部分原因。
综上，HyFormer 架构通过为不同序列分配独立的 tokens，构建了一个通用的 multi-sequence modeling 框架，无需对不同序列的 side information 或 sparse dimensions 进行强制对齐。该设计不仅在很大程度上保留了序列之间的固有差异，还能为更重要的序列自适应地分配更多 global tokens ，这一点在我们的离线实验中已取得了可量化的性能增益。

1.3.2 Scaling Analysis

本节分析模型性能随 sequence side information、 FLOPs 和参数数量变化的 scaling 特性。如 Table 1 的整体性能所示，在 first performing sequential modeling and then performing heterogeneous feature interaction 的范式下，LONGER + RankMixer 取得了最优性能，也是当前的 production baseline 模型。因此，我们将其作为 scaling 实验中的对照组（BaseArch ），对比 HyFormer 架构的 scaling 性能。
Parameters & FLOPs：
- 我们在 200M 至 1B+ 参数的模型规模范围内，验证了 HyFormer 架构的 scaling law，结果如 Figure 3(a) 所示。可以看到，HyFormer 不仅在初始阶段性能优于基线模型 LONGER + RankMixer，且整体保持了强劲的 scaling 增益，其性能曲线的斜率比基线模型更陡峭。这表明，HyFormer 中 LONGER 和 RankMixer 的 alternating stacked layers 实现了信息的双向流动，使其在相似的参数规模下，能从 increasing depth 中获得比基线模型显著更多的性能增益。
- 从计算成本（ FLOPs）的角度分析 scaling law 时，也能观察到类似的规律。如 Figure 3(b) 所示，AUC 随 FLOPs 的增加稳步提升，呈现出明显的 power-law 趋势。这表明，增加计算资源能使模型处理具备更丰富信息的序列，得益于 initial query 的扩展，以及通过 MLP-Mixer 的 feature interaction 对 query 进行的反复增强，最终实现了更显著的 AUC 提升。
这些结果表明，HyFormer 的架构设计优先考虑了 scaling 效率，通过丰富的 heterogeneous feature interactions，使每个参数能产生更大的性能增益，从而形成了更陡峭的性能缩放曲线。
Sparse Dim：我们还分析了模型性能随 sequence token input dimension （sparse embedding dim ）—— 即 sequence side information 丰富度 —— 扩展的变化规律。实验表明，无论序列长度如何，丰富 sequence side information 为 HyFormer 框架带来的性能增益，始终大于基线框架 LONGER + RankMixer 。
如 Table 3 所示，对于长度为 1000 的序列，将 sparse dimension 从原始的 64 维（包含 item ID, search query textnet classification, and timestamp 等 3 种 side information types ）扩展至 224 维（新增 search query ID, author ID, event ID, and playtime ，一共共 7 种 side information types ），基线模型的 AUC 提升了 0.09%，而 HyFormer 的 AUC 提升了 0.12%。HyFormer 的性能提升幅度显著更大，这一趋势在实验中的其他序列长度下均保持一致。
此外，随着序列长度的增加，HyFormer 与传统两阶段模型之间的性能差距逐渐扩大，dimension expansion 带来的额外增益从 1000 序列长度时的 0.03%，增加至 3000 序列长度时的 0.06%。
这些结果表明，扩展 sequence key/value information 能为 HyFormer 框架带来更大的价值，且这一优势随序列长度的增加而更加显著。该优势源于 HyFormer 能将更丰富的 global information 整合到 sequence queries 中，同时其 LONGER 模块和 Mixer 模块之间的信息双向流动，共同实现了更充分的 feature interaction。

1.3.3 Online A/B Tests

本节展示 HyFormer 模型在 Douyin Search 平台的 online A/B test 结果，对照组为性能强劲的现有 RankMixer 基线模型。在线评估采用三个核心指标：人均平均观看时长（Average Watch Time Per User）、人均视频完播数（Video Finish Play Count Per User）和 Query Change Rate 。其中，Query Change Rate 用于量化用户手动将一个 search query 细化为更具体 search query 的概率（例如从 "iPhone" 修改为 "iPhone 17 Pro"），计算方式如下：
$Query Change Rate = \frac{N_{reform}}{N_{total}}$
$N_\text{reform}$ 为发生 query reformulationdistinct user-query pairs $N_\text{total}$ 为 distinct user-query pairs 总数量。该指标可作为用户搜索体验不佳的衡量标准。
如 Table 4 所示，online A/B Test 验证了 HyFormer 在核心指标上的显著提升：人均平均观看时长提升 0.293%，人均视频完播数提升 1.111%，query change rate 下降 0.236%。这些显著的增益证明了 HyFormer 在十亿级用户的实际平台环境中的实用价值和有效性。

1.4 结论

本文提出了 HyFormer 架构。与主流的信息单向流动的 "Long Sequence Modeling, Then Feature Interaction" 范式不同，HyFormer 引入 Global Tokens，通过 feature interaction 来增强 query capacity ，重新定义了 long-sequence modeling and feature interaction 的角色。该架构在两个核心组件间交替执行：Query Decoding 和 Query Boosting。从 sequential modeling 的角度来看，这对应于一个 iterative optimization 过程 —— 先用 Global Tokens 解码 long sequences ，再通过 cross-feature interaction 来增强 Global Tokens。
该设计为更充分的 sequence modeling and feature interaction 提供了一种新颖且有效的框架，同时也为 multi-sequence modeling 提供了灵活的范式。大量的离线和在线实验验证了，从信息单向流动升级为双向的、协同演化的范式具有优越性，同时也为未来工业级 LRMs 提升了 scaling 上限。