2026_MixFormer

一、MixFormer [2026]

《MixFormer: Co-Scaling Up Dense and Sequence in Industrial Recommenders》

随着工业推荐系统进入 scaling 驱动的发展阶段，Transformer 架构因其向更大容量和更长序列的 scaling models 的能力而愈发具有吸引力。然而，现有基于 Transformer 的推荐模型在结构上仍然存在割裂—— sequence modeling 与 feature interaction 被实现为独立的模块，且各自拥有独立的参数化方案。这种设计引入了一个根本性的 co-scaling 挑战：在有限的计算资源预算下，模型容量必须在 dense feature interaction 与 sequence modeling 之间进行次优的分配。本文提出MixFormer，一种专为推荐系统定制的统一的 Transformer 风格的架构，能够在单一骨干网络内联合建模 sequential behaviors 与 feature interaction。通过统一的参数化方式，MixFormer 能够在 dense capacity 和 sequence length 两个维度上实现有效的 co-scaling，从而缓解了 decoupled designs 中观察到的 trade-off 问题。此外，这种一体化架构促进了 sequential representations 与 non-sequential representations 之间的深层交互，使得高阶特征语义（high-order feature semantics）能够直接参与 sequence aggregation 过程，进而增强整体表达能力。为确保工业实用性，我们进一步引入了一种 user-item decoupling 策略进行效率优化，显著降低了冗余计算和推理延迟。在大规模工业数据集上的广泛实验表明，MixFormer 持续展现出优越的准确性与效率。此外，在两个生产级推荐系统—— Douyin 和 Douyin Lite ——上进行的大规模在线 A/B test 显示，user engagement 指标（包括 active days 和 in-app usage duration ）均获得了一致的提升。
Transformer 架构已成为现代工业推荐系统中基础性的建模范式。凭借其强大的表征能力和高度的并行性，Transformer 在大规模user behavior modeling 和复杂 feature interaction learning 方面尤为有效。与此同时，推荐系统已进入一个规模化驱动（scaling-driven）的发展阶段，在此阶段，性能提升越来越依赖于扩展数据量和模型容量，而非依赖于手工设计的特征或针对特定任务的启发式方法。在这种发展态势下，模型架构不再是次要的设计选择（design choice），而是主要决定因素：它决定了额外计算资源能够多高效地转化为可衡量的性能提升。
目前，Transformer 在推荐系统中的应用主要沿着两个互补但又相对独立的方向展开。
- 一个研究方向聚焦于 sequence modeling，利用 Transformer 捕获 user behavior sequences 中的长程时序依赖关系（long-range temporal dependencies）。
- 另一个研究方向则强调高阶 feature interaction，采用 Transformer 风格的架构对 heterogeneous dense features 之间的复杂关系进行建模。
尽管这两个方向各自都展现了强大的实证收益和良好的 scaling 趋势，但它们隐含地假设了 sequence modeling 和 feature interaction 可以孤立地进行优化。随着推荐系统向更长的用户历史、更丰富的特征空间和更大的模型容量不断 scale，这一假设正变得愈发脆弱。
从系统级视角来看，在有限的计算预算下联合地 scaling sequence modeling 和 dense feature interaction，会暴露出一项根本性的架构压力。sequential Transformer 的计算成本随着序列长度的增加而迅速增长，而 dense Transformer 的规模则主要随特征维度和模型宽度变化。当这两个组件各自独立进行参数化和优化时，它们会竞争共享的计算预算和参数预算，从而导致相互冲突的 scaling 激励（scaling incentives）。
- 将更多容量分配给 sequence 组件可以改善时序建模（temporal modeling ）能力，但会不成比例地增加计算成本，从而实质上抑制了 dense feature interaction 的 scaling 潜力。
- 反之，优先 scaling dense 部分则会限制模型利用 long-range behavioral signals 的能力。
因此，在强制参数分离的架构下，实现 sequence 组件与 dense 组件全局最优的 co-scaling，在结构上变得难以协调。
现有的大多数方法通过层次堆叠（hierarchical stacking）或并行拼接（parallel concatenation）的方式，将一个 sequence Transformer 和一个 dense Transformer 组合起来应对这一挑战。
- 在 hierarchical stacking中，sequence Transformer 的 output 被视为 dense Transformer 的一个 input feature。
- 而 parallel concatenation 是将两个组件直接拼接。
尽管这些范式设计的简洁性，但它们保留了 sequence parameters 与 non-sequence parameters 之间的严格分离，导致跨组件交互受限且优化过程割裂。更重要的是，这种分离从根本上制约了 co-scaling 行为：sequence module 迅速增长的计算开销主导了资源分配决策，阻碍了 dense component 按比例 scaling，从而导致在现实部署约束下的全局性能次优。
在本文中，我们认为，在大规模推荐系统中实现有效的 co-scaling，需要一种根本不同的架构原则： sequence modeling 与 feature interaction 必须在单一参数空间内统一，并在整个网络中进行联合优化。为此，我们提出 MixFormer ——一种完全统一的 Transformer 风格的大型推荐模型，它采用一组共享的参数来同时对 sequence 和 dense feature interaction 进行建模。通过消除严格的参数边界，MixFormer 使得 sequential and non-sequential co-modeling 能够相互增强，允许高阶 feature semantics 直接参与 sequential aggregation，同时保留细粒度的 behavioral signals。这种统一的参数化方式从根本上解决了 parameter allocation 的困境，并为 co-scaling 奠定了连贯一致的基础。
此外，为使 unified scaling 在工业环境中切实可行，我们引入了一种 user-item decoupling 策略，利用 request-level batching 技术来复用计算结果，从而显著提升计算效率。该机制是在有限资源预算下 scaling unified Transformer architectures 的关键因素，有效地提升了可在生产系统中部署的模型容量和序列长度的上限。
综上所述，本文的贡献包含以下三个方面：
- 我们提出 MixFormer，一种用于推荐系统的完全统一的 Transformer 架构，它在单一参数空间内联合建模 sequence dynamics 和 dense feature interaction，解决了现有混合设计的结构局限性，并实现了有效的 global co-scaling。
- 我们引入了一种 user-item decoupling 策略，用于 request-level computation sharing and reduction，使得 unified Transformer scaling 在大规模工业环境中成为可能。
- 在大规模工业数据集上的广泛实验表明，MixFormer 实现了更优的准确性和效率，并且在增加模型容量和序列长度时展现出更有利的 co-scaling behavior。

1.1 相关工作

sequence modeling ：对 user behavior sequences 进行建模是推荐系统中的一个基础性问题，因为它能够捕获用户的动态且不断演变的兴趣。
- 早期且具代表性的方法侧重于使用 target-attention-based 的架构来建模用户近期的行为，包括 DIN（《Deep Interest Network for Click-Through Rate Prediction》）、DIEN （《Deep interest evolution network for click-through rate prediction》）和 BST （《Behavior sequence transformer for e-commerce recommendation in Alibaba》）。这些方法通常通过关注近期有限窗口内的行为来强调用户的短期兴趣。然而，这样的短序列往往不足以充分刻画用户的长期偏好。
- 为解决这一局限，SIM（《Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction》）引入了面向 extremely long sequence modeling 的检索式范式。具体而言，SIM 采用了一个两阶段框架，包括一个用于检索 relevant historical behaviors 的 General Search Unit: GSU 、以及一个用于对 retrieved subsequence 进行建模的 Extract Search Unit: ESU。
- 在此范式基础上，后续工作进一步对 SIM 进行了优化，如实现端到端训练（《End-to-end user behavior retrieval in click-through rateprediction mode》）、采用基于 BM25 算法来增强检索策略（《Learning to Retrieve User Behaviors for Click-through Rate Estimation》），以及通过一致性保持（consistency-preserving）机制改进 GSU 模块（《TWIN: TWo-stage Interest Network for Lifelong User Behavior Modeling in CTR Prediction at Kuaishou》），等等。
- 随着 GPU 硬件和 large-scale training 基础设施的快速发展，近期研究重新审视了端到端的 long sequence modeling。Longer （《LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders》）提出了一种 hierarchical attention architecture，以降低长序列上 self-attention 机制的二次方复杂度。同时，GR （《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》）和 MTGR（《MTGR: Industrial-Scale Generative Recommendation Framework in Meituan》）通过采用 Transformer-decoder-style 架构，将 CTR prediction 重新构建为生成式任务。
然而，现有的 sequence modeling 方法主要集中于 sequential signals 本身，这可能导致 query expressiveness 能力不足以及细粒度 behavioral information 的丢失。
feature interaction：feature interaction 长期以来一直是推荐系统的核心研究课题，旨在通过组合 heterogeneous input features 来构建 high-order representations。
- 因子分解机（Factorization Machines）（《Factorization Machines》）是最早显式地建模二阶 feature interactions 的方法之一。
- 随后出现了大量扩展方法，利用神经网络探索 higher-order interactions 和 implicit cross features。然而，最近的研究表明，许多现有的神经交互模型（neural interaction models）难以有效扩展到工业级场景。为解决这一挑战，人们提出了 WuKong （《Wukong: towards a scaling law for large-scale recommendation》）作为 large-scale feature interaction backbone，展示了强大的 scalability 和表达能力。
- 在此基础上，RankMixer （《RankMixer: Scaling Up Ranking Models in Industrial Recommenders》）进一步引入了一种高效、Transformer 风格的架构，专为大规模工业 ranking 系统设计。
- 尽管取得了成功，但这些 feature interaction 方法通常将 sequential features 视为 compressed or static representations。因此，interaction 模块所产生的高阶特征与 sequence modeling 过程脱节，限制了 sequential representations 的表达能力。
- 工业推荐系常采用 hierarchical stacking 或 parallel combination 范式来结合 sequential modules 和 non-sequential modules。最近，OneTrans （《OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender》）试图通过在 Transformer backbone 中使用 designed attention masks 和独立参数，将 sequential features 和 non-sequential features 建模为 heterogeneous token sequence，从而统一两者。然而，平方复杂度引入了严重的计算开销，而分离的参数导致了 dense capacity 和 sequence length 的 co-scaling 挑战。

1.2 方法

MixFormer 是专为多任务推荐系统设计的高效的 decoder-only Transformerinput layer $L$ 个 MixFormer blocks 、以及若干 task networks 构成。input layer 负责 feature embedding 与 split ：首先将 user, item, and context featuresembedding vector $N$ 个 heads。整体架构如 Figure 1 所示。
核心思想：不停地 refine query representation，然后采用 cross-attention 。但是有个缺点：在每一层，它都是使用原始的用户行为序列，可能没有很好地捕获序列之间的时序依赖性。因此，它重点聚焦于 feature interaction modeling，即 《InterFormer: Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction》 中提到的：sequence modeling -> feature interaction modeling 的单向流动，不是最优的。
整体思想类似于 《Make It Long, Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin》 的 single-query cross-attention model: STCA。

1.2.1 Feature Embedding and Splitting

Input features 可划分为两类：sequential features 与 non-sequential features。
- sequential features 表征用户的 historical interaction sequence，由用户对 items 按时间顺序产生的 actions 构成。每个 action 均通过 item id 、action typetime step $t$ 处的 action，我们采用专用的 embedding layers 对其各组成特征进行嵌入，并将 resulting vectorsaction representation $\mathbf{\vec s}_t\in \mathbb R^D$ $T$ 的 user behavior sequence 可表示为：
  $S = [{\vec{s}}_{1}, {\vec{s}}_{2}, \dots, {\vec{s}}_{T}]$
  该序列作为模型的 sequential input。
- non-sequential features 包含 user features、item featurescontextual features $\mathcal F_\text{ns} = \{f_1,f_2,\cdots,F_M\}$ non-sequential features $f_i$ 首先通过 feature-specific embedding tabledense embedding vector $\mathbf{\vec e}_i\in \mathbb R^{d_i}$ 。随后将这些 embeddings 拼接为单个复合表征（composite representation）：
  ${\vec{e}}_{ns} = [{\vec{e}}_{1} ∥ {\vec{e}}_{2} ∥ \dots ∥ {\vec{e}}_{M}] \in R^{D_{ns}}$
  $D_\text{ns} = \sum_{i=1}^M d_i$ 表示所有 non-sequential features 的总的 embedding 维度。 non-sequential features 随后作为整个 backbone 的 query input。
在标准 Transformer decoder 中，attention 模块（self-attention 或 cross-attention）被拓展为 multi-head 形式，即：将 queryTransformer $\mathbf{\vec e}_\text{ns}$ feature heads $\mathbf{\vec e}_\text{ns}$ $N$ $d= D_\text{ns}/N$ $D$ 维向量：
${\vec{x}}_{j} = W_{j} {\vec{e}}_{ns} [d (j - 1) : d j], j = 1, 2, \dots, N$
$W_j\in \mathbb R^{D\times d}$ $\mathbf{\vec x}_j$ $j$ 个 non-sequential feature head。
$\mathbf X = \left[\mathbf{\vec x}_1,\cdots, \mathbf{\vec x}_N\right]\in \mathbb R^{N\times D}$ 作为 MixFormer 模块的 non-sequential input head。
与将所有特征压缩为单个 head 相比，将 embedding 空间划分为多个 heads 能够保留 representation 的多样性，使模型在不引入过多结构复杂度的前提下捕获 heterogeneous feature semantics。此外，下文将介绍的 MixFormer 模块中的三个核心模块（Query Mixer、Cross Attention 、Output Fusion ）均采用 multi-head 设计。因此，non-sequential feature multi-head 设计为下游模块提供了灵活且计算高效的接口，使高阶 feature interactions 能在后续阶段与 sequence modeling 无缝融合。

1.2.2 MixFormer Block

MixFormer 采用与 Transformer decoder 结构一致的 Transformer 风格的架构。每个 MixFormer 模块包含三个核心组件：Query Mixer 、Cross Attention 与 Output Fusion，这三者在设计思想上分别对应标准 Transformer decoder block 中的 Self-Attention、Cross-Attention 与 Feed-Forward Network: FFN。该设计在保留 Transformer-based 架构表达能力的同时，针对大规模工业推荐系统进行了 customized operations 的适配。
Query Mixer：self-attention 在大语言模型中效果显著，在这类模型中所有 tokens 均被嵌入到统一的语义空间，且 token-to-token similarity 可通过内积运算可靠建模。然而受 RankMixer （《Scaling Up Ranking Models in Industrial Recommenders》）启发，在推荐场景中 query 来源于高度异构的 feature fields，包括 user attributes、item attributes 以及 contextual signals。这些特征源自不同的语义空间，且通常对应规模极大、高度稀疏的 ID domains。在这种异构性下，通过 inner-product similarity 计算 attention weights 本身就缺乏可靠性，因为很难在不同特征空间之间建立有意义的 alignment。因此，self-attention 不仅无法持续提升建模效果，还会引入巨大计算开销。
为此，我们受前人工作（《MLP-mixer: an all-MLP architecture for vision》、《Scaling Up Ranking Models in Industrial Recommenders》）启发，采用轻量且硬件友好的 Query Mixer 模块替代 self-attention。与 multi-head self-attention 模块类似，Query Mixer 可实现 cross-head 之间的信息交互，却无需依赖 similarity-based attention，使其更适合在严格的效率约束下对异构特征进行建模。
input query $\mathbf X = \left[\mathbf{\vec x}_1,\mathbf{\vec x}_2,\cdots, \mathbf{\vec x}_N\right]\in \mathbb R^{N\times D}$ 。则 Query Mixer 定义为：
$\begin{matrix} P = [{\vec{p}}_{1}, {\vec{p}}_{2}, \dots, {\vec{p}}_{N}] = HeadMixing (Norm (X)) + X \\ {\vec{q}}_{i} = {SwiGLUFFN}_{i} (Norm ({\vec{p}}_{i})) + {\vec{p}}_{i} \end{matrix}$
其中：
- $\text{HeadMixing}(\cdot)$ $\mathbf X$ reshape $\mathbb R^{N\times N\times \frac{D}{N}}$ $\mathbb{R}^{N\times D}$ ，如 Figure 1 所示。该操作能够以无参数的方式实现高效的 cross-head 信息交换。
- $\text{Norm}(\cdot)$ 为 Normalization 操作。
  在 Transformer 中，通常采用轻量级的 RMSNorm。
- $\text{SwiGLUFFN}_i(\cdot)$ 的定义为：
  $\begin{matrix} Swish (z)_{β} = z \times sigmoid (β z) Swish (z) = Swish (z)_{1} = \frac{z}{1 + \exp (- z)} \\ SwiGLU (\vec{x}) = {FC}_{down} (Swish ({FC}_{gate} (\cdot)) ⊙ {FC}_{up} (\cdot)) \\ {FC}_{i} (\vec{x}) = W_{i} \vec{x} + {\vec{b}}_{i}, i \in {up, gate, down} \end{matrix}$
  这个定义拷贝自 TokenMixer-Large 的论文。
值得注意的是，FFN 针对每个 head 独立地实例化，以显式地考虑特征的异质性，这被命名为 per-head FFN。在先前的工作（《RankMixer: Scaling Up Ranking Models in Industrial Recommenders》）中，该设计已被证明在保持良好效率的同时具备强大的表达能力。
Cross Attention：尽管 similarity-based self-attention 在建模异构 non-sequential features 时并非最优选择，但它仍然是将 structured query representations 与 sequential behavioral signals 对齐的有效机制。在 MixFormer 中，Cross Attention 模块被设计用于在 Query Mixer 所生成的高阶 feature representations 的指导下聚合 user sequencesQuery Mixer $N$ 个 output headscross attention $N$ 个 heads，其中每个 head 作为一个语义上专门化的 sub-query，聚焦于 non-sequential features 的不同子空间。这种设计使得用户偏好的不同方面能够以解耦但又协调的方式关注 behavioral sequences，避免了为 query splitting 引入额外的投影矩阵，并降低了 head collapse 的风险。
我们首先将 behavioral sequenceaction $\mathbf{\vec h}_t$ ，以与 query input 对齐，该变换通过一个 per-layer SwiGLU-activated FFN 完成，随后将其投影为 key 和 value：
$\begin{matrix} {\vec{h}}_{t} = {SwiGLUFFN}^{(l)} (Norm ({\vec{s}}_{t})) + {\vec{s}}_{t} \in R^{N D} \\ {\vec{h}}_{t}^{i} = {\vec{h}}_{t} [i D : (i + 1) D)] \in R^{D} \\ {\vec{k}}_{t}^{i} = W_{k}^{i} {\vec{h}}_{t}^{i}, {\vec{v}}_{t}^{i} = W_{v}^{i} {\vec{h}}_{t}^{i} \end{matrix}$
其中：
- $\text{SwiGLUFFN}^{(l)}(\cdot)$ $l$ 个 MixFormer block 中的 SwiGLUFFN。
- $\mathbf {W}_k^i,\mathbf{W}_v^i\in \mathbb{R}^{D\times D}$ $i$ 个 head 对应的 key 投影矩阵和 value 投影矩阵。
与 Transformer decoder 中依赖 shared hiddens 的标准 cross-attention 机制不同，这些 per-layer SwiGLUFFN 在每一层独立地参数化，使模型能够随深度逐步提炼（refine）sequence representations。
“与 Transformer decoder 中依赖 shared hiddens 的标准 cross-attention 机制不同”，不知道作者这句话什么意思。实际上 Transformer 中，层与层之间的参数是独立的，并不是共享的。
$i$ 个 query head 的输出计算如下：
${\vec{z}}_{i} = \sum_{t = 1}^{T} softmax (\frac{{\vec{q}}_{i}^{⊤} {\vec{k}}_{t}^{i}}{\sqrt{D}}) {\vec{v}}_{t}^{i} + {\vec{q}}_{i}, i = 1, \dots, N$
representations $\left\{\mathbf{\vec z}_1,\cdots, \mathbf{\vec z}_N\right\}$ 捕获了以特征为条件的 summaries of the user sequence，并作为 aggregated sequential outputs 从而用于后续的 fusion。
Output Fusion：在从 Query Mixer 获得高阶 non-sequential representations，并从 Cross Attention 模块获得 feature-conditioned sequential aggregations 之后，Output Fusion layer 对这些信号执行深度集成，以产生 final representations。
cross-attention output $\mathbf{\vec z}_{i}$ 既包含 non-sequential information，也包含与相应 high-order query head 对齐的 sequential information。然而，由于 query head 的异质性以及 previous modules 中引入的残差连接， a shared feed-forward transformation 不足以充分捕获 head-specific interactions。
因此，我们采用 a per-head SwiGLU-activated Feed-Forward Network 来独立地进一步细化每个 representation。形式上，Output Fusion 定义为：
${\vec{o}}_{i} = {SwiGLUFFN}_{i} (Norm ({\vec{z}}_{i})) + {\vec{z}}_{i}, i = 1, \dots, N$
$\text{SwiFLUFFN}_i(\cdot)$ 表示一个 head-specific SwiGLUFFN。
这种设计使得 MixFormer 能够在显式考虑特征异质性（feature heterogeneity）的同时，对 sequential signals 与 non-sequential signals 执行深度的非线性融合。通过对每个 head 应用独立的变换，模型保留了 head-level specialization，并避免了 heterogeneous feature subspaces 之间的表征干扰（representational interference），从而得到更具表达力和更稳定的 representations。该 output 随后作为下一个 MixFormer block 的 input，实现了渐进式的统一 feature interaction and sequence modeling。
值得注意的是，Output Fusion 和 Query Mixer 中的 per-head FFNs 同时服务于 sequential features 和 non-sequential features，形成了一种统一的参数化范式，解决了在组合两个独立模块时参数分配的难题。

1.2.3 User-Item Decoupling

Request Level Batching: RLB 已成为提升推荐系统训练与推理效率的有效范式，它通过在单次 request 内对多个 targets 共享用户侧计算，从而实现计算成本的大幅削减。然而，original unified MixFormer 中 mixed user-item computations 限制了 RLB 的应用。为解决此问题，我们提出了 User-Item decoupled MixFormer 变体，即 UI-MixFormer，如 Figure 2 所示。
Feature Decoupling：我们将 non-sequential features 划分为不相交的用 user-sideitem-side $N_{U}$ $N_{G}$ 个 heads 中，作为 MixFormertotal head number $N_{U}$ $N_{G}$ 根据 embedding 维度计算：
$N_{G} = ⌊ \frac{D_{ns}^{G}}{D_{ns}} \times N ⌋, N_{U} = N - N_{G}$
$D_\text{ns}^G$ 是 item-side non-sequential featuresembedding $N_{U}:N_{G}$ 设置为 1:1。
Query Mixer with Mask：由于 HeadMixing 操作跨越 distinct heads 进行，其 output 不再保持纯粹的 user-side representation，这使得通过 RLB 进行加速变得不可行。受 Self-Attention 中 causal masks 的启发，我们为 Mixformer 中的单向的 user-to-item fusion 设计了一个 mask。如 Figure 2 所示，为确保 user-side headsrequest $\mathbf {M}\in \mathbb{R}^{N\times D}$ 去除 user side heads 中的 item-side signals，该矩阵定义为：
$\begin{matrix} M [i, j] = {\begin{cases} 0, & i < N_{U} and j \geq N_{U} \times \frac{D}{N} \\ 1, & otherwise \end{cases} \end{matrix}$
$\mathbf {M}$ 与 the output of original HeadMixing operation 进行逐元素乘法，即可得到一个 user-item decoupled HeadMixing module，从而得到一个具有显式 user-item decoupling 特性的 query mixer：
${HeadMixing}_{decouple} (\cdot) = M ⊙ HeadMixing (\cdot)$
与双塔架构相比，所提方法保留了从 user side 到 item side 的信息传播，从而确保了 user-item feature interaction 的有效建模。
值得注意的是，user historical behaviors 的 sequential features 同样适用于 request-level sharing。因此，user-side heads and sequences 之间 cross-attention computation 所产生的计算开销可以被大幅削减。这一观察进一步凸显了将 sequence modeling 和 feature interaction 整合到 a unified backbone 中的统一建模范式的优点。

1.3 实验

数据集：我们在从 Douyin 推荐系统收集的大规模离线数据集上进行实验。该数据集涵盖连续两周的时间跨度，包含数万亿条 user-item interaction 记录。每条样本关联超过 300 个特征，这些特征可大致分为 non-sequential features 和 sequential features。
- non-sequential features 包括源自 user profiles 、item attributes 和上下文信息的 categorical, numerical, and cross features。
- sequential features 对应用户的历史行为，其中每个 action 由 item id、action type 、时间戳和 side attributes 表示。
评估指标：我们从准确性和效率两个角度评估模型性能。
- 对于准确性评估，我们将任务建模为 CTR Prediction 任务。我们采用 AUC 和 user-level AUC: UAUC 作为主要评估指标，因为它们广泛用于工业推荐系统中以评估排序质量和 user-level 一致性。
- 对于效率评估，我们报告模型参数量和 FLOPs，它们作为计算复杂度的代理指标，能够反映模型在真实系统中的 scalability 和部署成本。
Baselines：我们将 MixFormer 与两类 SOTA 的基线模型进行比较。
- 1) Stacked methods：此类方法首先将 sequential features 聚合成一个紧凑的 representation，然后将其馈入专门的 feature interaction 模块。
  - 对于 sequence modeling，我们采用了多种变体，包括简单的 target attention: TA 和 SOTA 的 Stacked Target Cross Attention: STCA 架构（《Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin》）。
  - 对于 feature interaction，我们考虑了几种代表性方法，包括 DLRM （原始 MLP ）、DCNv2 （《DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems》）、Wukong（《Wukong: towards a scaling law for large-scale recommendation》）、DHEN（《DHEN: A Deep and Hierarchical Ensemble Network for Large-Scale Click-Through Rate Prediction》）和 RankMixer（《RankMixer: Scaling Up Ranking Models in Industrial Recommenders》）。
  "A --> B" 表示将 A 模块的输出作为 B 模块的输入。
- 2) Parallel methods ：此类方法将 non-sequential module 和 sequential module 并行拼接，其中两个模块的参数相互独立。我们选择 RankMixer⊕ STCA 和 OneTrans （《OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender》）作为此类别的代表性基线。
  "A⊕B" 表示将 A 模块的输出和 B 模块的输出拼接后馈入 task networks。
- 对于 MixFormer，我们进行了两种规模的实验，分别记为 MixFormer-small 和 MixFormer-medium。
实现细节：
- 所有实验均在数百个 GPU 上采用 hybrid distributed training framework 进行，其中 sparse part 异步更新，dense part 同步更新。
- optimizer hyperparameters 在所有模型中保持一致。对于 dense part，我们使用学习率为 0.01 的 RMSProp optimizer；对于 sparse part，使用 Adagrad optimizer。
- 所有实验的 batch size 均设为 1500。
- MixFormer-small $N = 16$ $L = 4$ $D = 386$ MixFormer-medium $N = 16$ $L = 4$ $D = 768$ 。

与 baselines 的对比：为证明所提统一模型在准确性和效率方面的性能，我们将 MixFormer 与 SOTA 的方法进行比较，包括 hierarchical stacked methods 和两种代表性方法。结果如 Table 1 所示，从中我们得出以下结论：
- SOTA 的 sequence modeling 和 feature interaction 方法，如 STCA 和 RankMixer，始终以明显优势优于其他架构（包括 TA、DCN 和 Wukong）。这一结果实证验证了 Transformer-style 架构在 capturing complex dependencies 和 modeling large-scale user behavior patterns 方面的有效性，凸显了其在工业推荐系统中的优势。
- 在 comparable sub-structure configurations 下，堆叠式设计范式和并行式设计范式仅表现出微小的性能差异。这一观察表明，当两个组件分别参数化时， sequence modeling 和 feature interaction 之间的交互仍然相对较浅。因此，仅仅修改连接模式不足以产生显著的性能提升，表明需要更深度地整合两个模块，以充分发挥其互补优势。
- 得益于统一的架构，所提的 MixFormer 持续优于所有基线方法。提升主要来源于 feature interaction 组件和 sequence modeling 组件之间的参数共享，这促进了 enhanced cross-module representation learning。值得注意的是，在与最强基线 STCA + RankMixer 相当的参数预算下，MixFormer 在两个任务上均实现了显著的 AUC 提升。此外，采用 User–Item Decoupling 的效率优化的变体大幅降低了计算开销，实现了约 36% 的 FLOPs 减少，同时保持了几乎相同的性能。
Ablation Study：为验证 MixFormer 中所提出的每个模块的有效性，我们通过替换或删除某些设计进行了一系列实验，具体如下：
- [QM] wo HM：删除 Query Mixer 中的 HeadMixing。
- [QM] HM --> SA ：将 Query Mixer 中的 HeadMixing 替换为 SelfAttention 模块。
- [QM] wo FFN：删除 Query Mixer 中的 per-head FFN。
- [CA] PL-FFN --> FFN：将 CrossAttention 中 action projection 的 per-layer FFN 替换为 a shared FFN。
- [OF] PFFN --> FFN：将 Output Fusion 中的 per-head SwiGLUFFN 替换为 a head-shared SwiGLUFFN。
- Pre-RN --> Post-LN ：将每个 block 中的 pre-RMSNorm 替换为 post-LayerNorm。
  Pre-RN 替换为 Post-LN，仅仅带来万分之一的 auc loss。
消融结果如 Figure 3 所示。
- 结果表明，Query Mixer 中的 HeadMixing 和 per-head FFN 对性能提升贡献显著，这凸显了在构建用于 sequence modeling 的 queries 时，high-order feature representations 的重要性。
- 值得注意的是，将 HeadMixing 替换为计算成本更高的 self-attention 并未带来可观的性能增益，这实证验证了在处理推荐系统中 heterogeneous heads 时，零成本的 HeadMixing 的效率与有效性。
- 此外，结果表明，在 cross-attention blocks 内，使用 per-layer FFNs 能够在 various layers 产生更具区分度的 representations，在不增加计算成本的前提下提升模型表达能力。
- 在输出端，将 standard FFN 升级为 per-head FFN 进一步增强了模型在 heterogeneous heads 上的表达能力，且未增加FLOPs，带来了明显的性能提升。
总体而言，这些结果表明，为推荐系统量身定制的这些 refinements 在有效性和效率两方面均取得了良好的提升。
注意，下图中第一行、第二行的 TM 实际上是 HM。
Scaling Analysis：为评估所提模型的 co-scaling 能力，我们通过在 fixed inputs （即，固定序列长度）下 scaling dense parameters，以及在 fixed model size 下增加序列长度，来评估其性能。
- Scaling of Dense：由于 sequence modeling 的计算成本对 sequence length 高度敏感，仅基于参数量来比较 dense scaling behavior 对于 non-sequential models 是不公平的。实践中，serving 成本主要由 FLOPs 决定；因此，Figure 4 报告了 AUC gain 随 FLOPs 变化的函数关系。我们比较了一个 SOTA 的序列模型 STCA（带轻量级 DCNv2 head）、一个 non-sequential RankMixer 模型（带单层 Target Attention ）、以及它们按 1:1 FLOPs 比例的组合。
  - 在固定序列长度的设置下，scaling RankMixer 比 scaling the sequential component 带来更大的边际 AUC gains，这突显了在序列长度固定时 target-item feature interaction 的重要性。
  - combined baseline 模型在两者之间呈现出明显的trade-off。
  - 相比之下，MixFormer 得益于其统一的参数化方式以及 sequential components 与 non-sequential components之间的深度交互，实现了更大的截距和具有竞争力的 scaling 斜率。因此，MixFormer 在不同的 FLOPs 预算下均持续优于其他设计。
- Scaling of Sequence：从另一角度，我们考察了在固定 dense parameter budget 下，不同方法的 sequence-length scaling behavior。为公平起见，我们选取了在序列长度为 512 时 FLOPs 相当的若干模型配置（在 Figure 4 中以圆圈突出显示）。随后，我们遵循 《Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin》 的方法，将输入序列长度扩展至 {512, 2,048, 8,192, 10,000} 进行 behavior sequences 评估。结果如 Figure 5 所示。
  - 有趣的是，序列长度的 scaling 趋势与 dense scaling 呈现出相反的模式。为序列组件分配更多计算的 sequential models（如 STCA ），比 non-sequential models 从更长序列中获益更多，这与 《Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin》 中的观察结果一致。
  - 值得注意的是，MixFormer 受益于其在 sequential components 与 non-sequential components 上的统一参数化，实现了与 SOTA 的 STCA 相当的 scaling 斜率。
总体而言，我们观察到，具有独立参数化的 sequential and non-sequential components 的模型面临着明显的 co-scaling trade-off。在有限的计算预算下，此类模型必须谨慎地在 non-sequential modules（ FLOPs 效率更高）与 sequential modules （从 sequence-length scaling 中获益更多）之间分配容量。相比之下，凭借其一体化的参数设计，MixFormer 在 dense scaling 和 sequence scaling 两方面均展现出 SOTA 的 scaling 行为，进一步验证了该架构的有效性。
Serving Latency Anaysis：我们还进行了 serving latency 测试以验证 user-item decoupling 策略的效率。如 Figure 6 所示：
- 当与 Request Level Batching 结合使用时，user-item decoupled MixFormer 实现了超过 30% 的 serving speedup。
- 此外，随着 ranking 阶段待预测 candidate items 数量的增加，GPU 利用率趋于饱和，这进一步加剧了计算瓶颈。幸运的是，我们的 user-item decoupling 设计能够在单次 request 内对多个 candidate items 共享 user-side computation。这导致 decoupled MixFormer 的 latency growth 远低于原始模型，从而在 large candidate sizes 下提升了 serving 效率。
Online A/B Tests：为验证 MixFormer 作为 co-scaling 推荐模型框架的普适性，我们在 personalised ranking 的核心场景——两个 Apps 的 feed recommendation ——中进行了在线实验。对于 Feed Recommendation，我们监测以下关键性能指标：
- Active Days ：是实验期间每用户的平均活跃天数，可作为 DAU 增长的替代指标。
- Duration：衡量 App 内累计停留时间。
- Finish/Like/Comment ：用户的完整播放次数、点赞数和评论数。
我们与先前基线模型——参数量超过 1 Billion 的 stacked STCA --> RankMixer ——进行了在线 A/B 测试对比实验。在 Feed Recommendation 上为期两周的 A/B 测试结果观察如 Table 2 所示，且提升幅度仍在持续增长，表明收益尚未达到饱和。

1.4 结论

本文提出了一种专为推荐系统设计的新型 Transformer-style 的统一架构。所提模型将现代推荐系统的两个核心组成部分—— sequence modeling 和 feature interaction ——整合到一个单一的、统一的参数化框架中，实现了高效且易于 co-scalable 的设计。此外，我们引入了实质性的 user-item decoupling 优化，显式地利用 request-level computation reduction来提高计算效率。
大量实验表明，与强基线模型相比，所提架构持续实现了更优的有效性和效率。我们进一步分析了模型在 FLOPs 和序列长度上的 scaling 效应，并在工业环境中进行了大规模在线 A/B 测试，为模型在真实推荐系统中的 co-scaling 潜力和实际有效性提供了有力证据。