一、UniMixer [2026]

《UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems》

  1. 近年来,推荐模型的 scaling laws 受到越来越多的关注,它决定了推荐系统性能与参数、计算量(FLOPs)之间的关系。当前,实现推荐模型 scaling 的主流架构主要有三种,分别是 attention-based 方法、TokenMixer-based 方法以及 factorization-machine-based 方法,这些方法在设计理念与架构结构上存在本质差异。本文提出一种面向推荐系统的统一的 scaling 架构—— UniMixer,旨在提升 scaling 效率,并构建一个统一了主流 scaling blocks 的理论框架。通过将 rule-based TokenMixer 转化为等价的参数化结构,我们构建了一个通用的参数化的 feature mixing 模块,使 token mixing 模式可在模型训练过程中被优化和被学习。同时,通用的参数化的 token mixing 移除了 TokenMixer 中要求 heads 数量与 tokens 数量相等的约束。此外,我们为推荐系统建立了统一的 scaling module 设计框架,打通了 attention-based 方法、TokenMixer-based 方法、以及 factorization-machine-based 方法之间的联系。为进一步提升 scaling ROI,我们设计了轻量级 UniMixing 模块—— UniMixing-Lite,在大幅压缩模型参数与计算成本的同时显著提升模型性能。scaling curves 如下图所示。本文通过大量离线与在线实验验证了 UniMixer 优异的 scaling 能力。

  2. 大语言模型(Large language models: LLMs)展现出一个令人瞩目的现象:随着模型规模、数据量与计算资源的增加,性能稳步提升,这一现象被称为 scaling lawsLLMs 中显著的性能 scaling 效果启发了推荐系统领域,研究者开始探索适配推荐任务的scaling 框架。近年来,研究人员尝试设计 scaling 模块并多层堆叠,以提升 ranking 模型复杂度,从而实现模型性能与模型规模、计算成本(如参数、FLOPs )之间的 scaling laws

    推荐系统基于大量的 multi-fielduser and item features,预测用户行为,为用户展示最相关的内容,提升用户对推荐结果的 positive engagements。这些 multi-field features 通常包含 categorical featuresdense features,具备更动态的 embedding representations,可从多视角捕获信息。与自然语言处理(natural language processing: NLP)领域不同(在 NLP 中,所有 tokens 共享一个统一的 embedding space),推荐任务的 feature space 天然具有异构性(heterogeneous)。因此,learning heterogeneous features interactions 是推荐领域与 NLP 领域的根本区别。

    得益于 TransformerLLMs 中的巨大成功,一个自然的思路是修改 Transformer 模块以适配推荐任务,因为直接将Transformer 模块作为推荐系统 scaling lawsfundamental block 通常不可行。为解决 heterogeneous feature interaction problem,当前推荐模型的主流 scaling 架构可分为三类:attention-based 方法、TokenMixer-based 方法以及 factorization-machine-based 方法。

    • attention-based 方法为每个 input token 构建 token-specific query, key, and value projections。如 HiFormer《Hiformer: Heterogeneous feature interactions learning with transformers for recommender systems》)、FAT《From scaling to structured expressivity: Rethinking transformers for ctr prediction》)、HHFT《Hhft: Hierarchical heterogeneous feature transformer for recommendation systems》) 等等。

    • attention-based 方法不同,TokenMixer-based 方法采用 rule-based token mixing 操作实现 heterogeneous feature interactions,避免计算两个 heterogeneous semantic spaces 之间的内积相似度。如 RankMixer《Rankmixer: Scaling up ranking models in industrial recommenders》)、TokenMixer-Large《Tokenmixer-large: Scaling up large ranking models in industrial recommenders》)等等。

    • factorization-machine-based方法则通过引入因子分解机(Factorization Machine: FM)模块,建模每层 input embeddings 之间的 feature interactions。如 Wukong《Wukong: Towards a scaling law for large-scale recommendation》)、Kunlun《Kunlun: Establishing scaling laws for massive-scale recommendation systems through unified architecture design》)等等。

    这些框架基于完全不同的 scaling blocks 来构建,却均具备模型性能 scaling up 的能力。这引发了一个根本性问题:我们能否为推荐系统构建一个统一的 scaling module,融合现有主流 scaling components 的优势?

    为打通这些 scaling modules 间的联系,我们首先为 rule-based TokenMixer 操作建立 parameterized formulation。通过进一步优化计算流程,我们推导出计算成本更低的 UniMixing 模块。基于该设计与实验结果,我们提出一个统一的理论框架,整合推荐系统主流的 scaling modules。此外,我们设计了轻量级的 UniMixer 模块,结合现有主流 scaling blocks 的优势,实现最优的参数效率与计算效率。我们希望该统一架构能助力推荐系统领域迎来属于自己的 "attention moment"

    本文主要贡献总结如下:

    • 通过对 rule-based TokenMixer 进行等价的参数化,揭示其 feature interaction 模式。

    • 提出统一的 scaling 框架 UniMixer,打通 attention-based 方法、TokenMixer-based 方法、FM-based 方法之间的差异与联系。通过优化计算流程,UniMixer 显著降低训练与推理阶段的计算复杂度与 GPU 内存消耗。

    • 为进一步减少模型参数与计算成本,设计轻量级的 UniMixing 模块—— UniMixing-Lite,可同时利用 attention-based 架构与 TokenMixer-based 架构的优势,实现更优的 scaling 效率。

    • 开展大量离线与在线实验,证明 UniMixer 具备优异的 scaling 能力。

1.1 相关工作

  1. 当前,面向大规模推荐系统建立 scaling laws 的建模范式主要有三种:attention-based 方法、TokenMixer-based 方法、以及 FM-based方法。

  2. Attention-Based Framework:近年来,推荐系统领域将 Transformer 适配用于 CTR prediction。该范式的核心挑战是弥合token sequence 的异构性与语言建模假设的 sequential compositionality 之间的差距。

    • 为此,《Hiformer: Heterogeneous feature interactions learning with transformers for recommender systems》提出 heterogeneous attention layer 解决 heterogeneous feature interaction 问题,并设计 HiFormer,将 heterogeneous tokens 展平为 a single vector representation,显式建模高阶交互。

    • 此外,Field-Aware Transformers: FAT 通过 factorized contextual alignmentcross-field modulation,将 field-aware interaction 的先验知识注入 attention 机制,进一步建立 CTR prediction 的经验 scaling law《From scaling to structured expressivity: Rethinking transformers for ctr prediction》)。

    • HHFT 通过交替使用 heterogeneous Transformer blocks(保留 domain-specific semantics )与 HiFormer blocks (学习高阶交互),验证了这些 scaling 特性(《Hhft: Hierarchical heterogeneous feature transformer for recommendation systems》)。

    • 此外,在 dynamic user behavior modeling 中,HSTUV1/V2MARMOneTransClimberHyformerLLaTTE 等方法利用 attention 机制捕获长程时序依赖。

    这些方法凸显了统一 feature interactionsequential behavior modeling 以实现更鲁棒 scaling laws 的潜力。

  3. TokenMixer-Based Framework:尽管 attention 机制具备强大的 feature interaction表达能力,但 attention score computation 的二次复杂度会带来高昂的计算成本。受计算机视觉领域 MLP-Mixer《Mlp-mixer: An all-mlp architecture for vision》)成功的启发,工业级推荐系统出现了向 token-mixing 架构的范式转变,诞生了 RankMixer《Rankmixer: Scaling up ranking models in industrial recommenders》)、Lemur《Lemur: Large scale end-to-end multimodal recommendation》)、TokenMixer-Large《Tokenmixer-large: Scaling up large ranking models in industrial recommenders》)等先进模型。

    • 例如,RankMixer 用静态的、无参数的 token-mixing 操作替代 dynamic attention,在保持相当的 FLOPs 的同时,实现了有竞争力的 CTR 预测性能。

    • 在此基础上,TokenMixer-Large 通过引入辅助的 residual connections 与定制的 loss functions,将该架构扩展至 13 Billion 参数规模,在 various model dimensions 上展现出良好的 scaling laws

    尽管如此,当前 token-mixing 算子的设计仍高度依赖经验规则,缺乏与传统 FM-based 方法或 attention-based 方法的严谨理论桥梁。

  4. FM-Based FrameworkFM-based 的开创性方法采用低阶 pairwise modeling 来实现推荐系统的 feature interactions《Factorization machines》),后续经过 Field-aware FMs 来泛化(《Field-aware factorization machines for ctr prediction》),可捕获 field-specific and context-sensitive interactions。这类模型具备高可解释性与高效性,但固有地受限于低阶交互能力。

    为解决该局限,DeepFM《Deepfm: a factorization-machine based neural network for ctr prediction》)、AutoInt《Autoint: Automatic feature interaction learning via self-attentive neural networks》)、DCN《Deep & cross network for ad click predictions》《Dcn v2: Improved deep & cross network and practical lessons for web-scale ctr prediction》)等多种神经网络扩展方法,融合 MLPtransformer attention 以捕获高阶交互。

    近期,Wukong《Wukong: Towards a scaling law for large-scale recommendation》)通过堆叠 FM-style interaction blocks with linear compression,展现出良好的 scaling 特性。

    然而,FM-based 方法对显式低阶交互的依赖,仍限制了模型在参数量与 FLOPs 扩大时的性能提升,这与 LLMs 中观察到的 predictive scaling laws 形成对比。

1.2 预备知识

  1. 考虑一类判别式推荐任务,如 rating 预测、点击率(click-through rate: CTR)预测、点击后转化率(post-click conversion rate: CVR)预测等,这类任务通常被建模为监督学习问题。数据集定义为 D={(x1,y1),,(xi,yi),,(xN,yN)},其中:

    • xi=[xi(1),xi(2),,xi(F)]RF 包含 Ffeature fields。通常,输入特征 x={xC,xD} 分为 categorical features xCdense features xD,用 |C||D| 分别表示 categorical features 数量与 dense features 数量。

    • yi 为第 i 个样本的标签,yi0,1对应二分类问题,yiR 对应回归问题。

    • N 为样本数量。

  2. 对于 CTR predictionCVR prediction 任务,核心目标是建立模型从而预测 clickconversion 的概率 Pr(yi=1xi)。推荐系统中学到的 embedding representations 更具动态性。与语言模型 input tokens 不同,推荐系统中的 feature spaces 天然具有异构性。因此,直接将大语言模型所用的 Transformer 架构迁移至推荐建模并不合适。

    迄今为止,推荐领域的 scaling laws 主要通过三类 foundational blocks 及其变体实现。

  3. Heterogeneous Attention LayerHeterogeneous-attention-based 架构通常采用 field-specific query, key, and value projections 来实现 heterogeneous feature interaction。给定 input hidden states X=[x1;;xT]RT×Dheterogeneous attention layer 的公式如下:

    Qh=[WQ1hx1WQThxT]RT×d,Kh=[WK1hx1WKThxT]RT×d,Vh=[WV1hx1WVThxT]RT×d

    其中:WQih,WKih,WVihRD×d分别为 query, key, and value projectionstoken-specific weights

    这里 Theterogeneous tokens 数量,hhead 编号。

    multi-head heterogeneous attention layer 的输出计算如下:

    Oh=softmax(QhKhd)VhRT×d

    multi-head heterogeneous attention 的输出进行拼接后,通过线性投影使 output 维度与 input X 对齐。

  4. TokenMixerTokenMixer-based 框架采用无参数的、基于规则的 mixing 操作实现 feature interaction。给定 input hidden states X=[x1;;xT]RT×DTokenMixer 首先将每个 input token xt 均匀切分为 Hheads

    [xt(1)xt(2)xt(H) ]=SplitHead(xt)

    其中 xt(h)RD/H 为第 hhead

    然后,第 htoken sh 为:

    sh=concat(x1(h),x2(h),,xT(h))R(TD/H)

    TokenMixer 的输出可以公式化为:

    S=[s1sH]RH×(TD/H)

    其中:其中要求 HT 相等,使得输入 X 与输出 S 的维度一致。

  5. WukongWukong-based 的模型将一个因子分解机块(Factorization Machine Block: FMB)的输出与一个线性投影层的输出进行拼接,以提升 interaction component

    FMB(X)=reshape(MLP(LN(flatten(FM(X))))),FM(X)=XXYLCB(X)=WX

    其中:

    • WRn×T,YRT×r 为可学习的投影矩阵,Y 用于降低存储 interaction matrix XX 的内存需求。

    • LN()Layer Normalization

  6. 本文聚焦于为推荐系统建立一个统一的结构基础,融合当前 scaling blocks 的优势,进一步提升 scaling ROI

1.3 UniMixer

  1. 本文构建了用于推荐系统 scaling 的统一模块—— UniMixer block,在统一理论框架下整合了 attention-based 模块、TokenMixer-based 模块、Wukong-based 模块等推荐系统主流 scaling 模块。如 Figure 2 所示,整体架构包含 feature tokenizationM 个带 Siamese norm and Sparse-Pertoken MoEUniMixer blocks。通过对 rule-based TokenMixer 进行参数化,我们打通了 attention-based 方法、TokenMixer-based 方法、Wokong-based 方法之间的联系,使所提出的 UniMixer 同时具备这些方法的优势。此外,我们开发了一个轻量级 UniMixing 模块,进一步压缩模型参数与计算成本,同时显著提升模型性能。

1.3.1 Feature Tokenization

  1. 根据 input feature fieldssemantic categories,首先将 input features x 划分为 N 个不相交的 feature domains

    x=[xU(1),,xU(nU)User Profile,xI(1),,xI(nI)Item Features,xB(1),,xB(nB)Behavior Sequence,xQ(1),,xQ(nQ)Query Features,]

    每个 feature domain 通过 embedding layers 转化为不同维度的 embedding vectors

    en=Embedding(xn)Rddomain

    其中:xnfeature domain 内某个 featureone-hot embeddingddomain 为该 feature domain 对应的 embedding 维度。

    将所有 obtained feature domain embeddings 拼接为一个 embedding 向量 e=[e1,e2,,eN]。与 RankMixer 类似,我们将 embedding 向量 e 均匀切分为合适数量的 blocks,再通过 token-specific linear layer 将每个 block 投影为 token embedding

    xi=Wiproje(d×i):(d×i+d)+biprojRD

    其中:WiprojRD×d,biprojRD 为第 iblock 的待学习的参数。d 为每个 block 的维度。

    按列堆叠 xi 即可得到 input hidden states XRT×D

    • 如果不按照 feature domains 来组织 e,而是随机组织,那么结果会怎样?可以做实验来验证。

    • “将 embedding 向量 e 均匀切分为合适数量的 blocks“,这一步其实就是 sparsify 操作,参考论文 SSRNet《Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation》)。

    • 注意:这里要求 TD ,并且 T 能整除 D 。这也是为什么需要拆分为 blocks,而不是采用原始的 feature-level embedding 的原因。

1.3.2 UniMixer Block

  1. Heterogeneous Feature Interactions:如 ”预备知识“ 章节所述,heterogeneous attention 通过采用 token-specific query, key, and value weights,解决两个 heterogeneous semantic spacesfeature interaction 问题。然而,通过内积相似度得到的 attention pattern 通常带有对角占优先验(diagonally dominant prior)。在训练初期,权重矩阵 WQh,WKh 被随机初始化,attention weights (即 QhKh)的大小很大程度上由 input token values X 主导,易导致 attention weights 集中在少数 tokens 上,如 Figure 3(a) 所示。

    Figure 3(a) 可见,heterogeneous attentionattention weights 尖锐且稀疏,给梯度反向传播带来风险,导致 query and key weights 训练困难,甚至可能停滞(如 Figure 3(a)heterogeneous attentionattention weights 的第 10 行与第 15 行)。同时,在大规模 heterogeneous feature inputs 下,这类 attention 模式可能导致 feature interactions 趋同,即 attention scores 极小且缺乏区分度,可能产生噪声信号,掩盖关键 feature interaction 模式。

    另一方面,无参数的、基于规则的 TokenMixer 操作缺乏可学习性与场景适应性,可能导致 heterogeneous feature interactions 不足或错误。此外,要求 T=H 进一步限制了 heterogeneous feature interaction 模式的选择。通过深入分析 TokenMixer 操作,我们得到一些有趣的发现,使 TokenMixer 操作参数化成为可能。如 Figure 3(b) 所示,我们发现:TokenMixer 操作可视为置换矩阵(permutation matrixWpermflattened input embedding flatten(X)R(TD)的乘积,公式如下:

    TokenMixer(X)=reshape(Wpermflatten(X))

    其中:WpermR(TD)×(TD) 为一个大型置换矩阵,附录 A 给出具体数值示例。

    一个自然的思路是通过参数化置换矩阵 Wperm,使 rule-based TokenMixer 具备可学习性与可优化性。但 O(T2D2) 的计算复杂度与 O(T2D2) 的参数数量难以接受。通过观察,我们总结出 TokenMixer 置换矩阵 Wperm 的关键特性。

    • 可压缩性:置换矩阵 Wperm 可等价分解为两个更小矩阵的克罗内克积(Kronecker product),即 Wperm=GI。其中 IRDT×DTDT 阶单位矩阵,GRT2×T2T2 阶方阵,符号 代表克罗内克积运算。

      克罗内克积 AB :把矩阵 A 的每个元素,整体乘以整个矩阵 B,按位置拼成新大矩阵。例如:

      A=[a1,1a1,2a2,1a2,2],B=[b1,1b1,2b2,1b2,2],AB=[a1,1Ba1,2Ba2,1Ba2,2B]

      .

    • 双随机性:置换矩阵 Wperm 的任意行、列元素求和结果均为 1,满足行和、列和归一特性。

    • 稀疏性:该置换矩阵的每一行、每一列仅有唯一一个非零元素。

    • 对称性:若维度参数 TH 相等,则置换矩阵 Wperm 为对称矩阵,满足 Wperm=(Wperm) ;若二者不等,则置换矩阵 Wperm 为非对称矩阵。

    这里有一个前提:要求 DT 并且 D 能被 T 整除。Tinput hidden statestokens 数量,Dinput hidden states 的维度。

    根据 TokenMixer 置换矩阵的特性,通过参数化矩阵 GItoken mixing 的参数数量大幅降低,即 O(T4+(DT)2),其中 T 通常远小于 D。此外,TokenMixer 参数化仍面临三大挑战:

    • 直接用参数化的 GI 来重构 Wperm,在模型训练与推理过程中仍会产生 size[TD,TD] 的中间变量,对 GPU 内存要求极高。

      因为需要生成 Wperm=GI

    • 如何保证学到的参数满足双随机性、稀疏性与对称性。

    • 如何设计融合了现有 scaling 模块的优势的 unified recommendation scaling module,为推荐系统建立更优的 scaling 效率。

  2. Unified Token Mixing Module:受 Figure 3 启发,unified token mixing module 不再使用 TD,而是定义置换矩阵中的 block numblock sizeblock size 记为 Bblock num(L//B)2,其中 Linput embedding 维度(即,e=[e1,e2,,eN] 的维度),可被 block size B 所整除。

    换成前面的符号,即:L=T×D

    Gparameterized weights 记为 WGR(L//B)×(L//B)。考虑置换矩阵的稀疏性并实现充分的 heterogeneous feature interactions,我们为 WG 的每一行分配 distinct parameterized weight WBiRB×B,一共 L//B 行。该操作使每个 block 具备不同的 feature interaction 模式,通过学习参数矩阵 WGWBi,可得到交互模式更丰富的置换矩阵 Wperm ,公式如下:

    UniMixing(X)=reshape((WG{WBi}i=1L//B)flatten(X),1,L)

    其中:为广义克罗内克积(generalized Kronecker product)。

    WG{WBi}i=1L//B 和经典的克罗内克积不同,它的物理含义为:

    WG{WBi}i=1L//B=[WG,1,1WB1WG,1,2WB2WG,1,L//BWBL//BWG,2,1WB1WG,2,2WB2WG,2,L//BWBL//BWG,L//B,1WB1WG,L//B,2WB2WG,L//B,L//BWBL//B]

    即:每一列采用不同的 WBi

    也可以对 WG 的每个元素采用不同的 WBi,j 。此时会引起参数爆炸,以及过拟合。

    接下来优化 UniMixing(X) 的计算流程,显著降低计算成本与 GPU 内存需求。

    • 首先将 embedding vector flatten(X) 均匀切分为 L//B 个向量,每个向量的 sizeB,表示如下:

      [x1x2xLB]=Split(flatten(X),LB)RB×(L//B)
    • 然后将 block weights WBiRB×B与对应 block-wise vectors x(i)RB 分别相乘,得到 local feature interaction vector

      H=[x1WB1x2WB2xL//BWBL//B]RB×(L//B)reshape(H,L//B,B)=[x1WB1x2WB2xL//B WBL//B]R(L//B)×B
    • 最后,UniMixing 模块的输出为:

      UniMixing(X)=reshape(WGreshape(H,L//B,B),1,L)

      reshape(H,L//B,B)R(L//B)×B ,而 WGR(L//B)×(L//B) ,因此二者可以执行矩阵乘法。

    与直接使用 reconstructed matrix Wperm 相比,该操作将计算成本从 O(L2) 降至 O(L2/B+LB),并避免计算过程中产生大型中间变量。这个计算流程优化的证明见附录 B。根据优化后的公式,WBi 控制 block 内的交互模式,WG 控制 block 之间的交互模式。对于维度为 Lembedding inputs,不再要求 T=H。与 TokenMixer 操作相比,UniMixing 模块具备更多样的 local and global feature mixing patterns and interaction scales,同时保留优势:它是可学习的、可优化的。

    为保证学到的置换矩阵满足双随机性,采用 Sinkhorn-Knopp 迭代,通过指数算子(exponent operator)使 WGWBi 的所有元素为正,再交替缩放 rows and columns 使其和为 1,进行迭代归一化。此外,引入温度系数控制参数矩阵的稀疏性。最后,用(WG+WG)/2(WBi+WBi)/2 实现参数矩阵的对称约束。最终约束权重如下:

    W~G=WG+WG2,W~Bi=WBi+WBi2WG=Sinkhorn-Knopp(W~Gτ),WBi=Sinkhorn-Knopp(W~Biτ)

    τ 较大(如 1.0)时:除法后元素差异被缩小,指数运算后分布比较均匀,最终的双随机矩阵元素值差异不大(接近均匀分布)。当 τ 较小(如 0.05)时:除法放大了元素之间的原始差异,指数运算后大的元素更大,小的元素更小,最终的双随机矩阵变得尖锐:少数元素接近 1,其余接近 0。在极限情况下(τ0),矩阵趋近于一个硬置换矩阵(每行每列只有一个 1,其余为 0)。

    实验章节表明:τ 需要采用一个较小的值。

    其中 τ 为温度系数。

    Sinkhorn‑Knopp 迭代(也称 Sinkhorn 缩放算法)是一种将任意正矩阵转化为双随机矩阵(doubly stochastic matrix)的经典数值方法。所谓双随机矩阵,是指一个方阵满足:所有元素非负(通常为正)、每行之和为 1、每列之和也为 1

    算法基本步骤:给定一个初始的正矩阵 ARn×n,ai,j>0Sinkhorn‑Knopp 迭代通过交替缩放行和列,使其逼近一个双随机矩阵:

    • 重复迭代直到收敛(或固定次数):

      • 行归一化:将每一行除以其行和,使每行和为 1

      • 列归一化:将每一列除以其列和,使每列和为 1

    经过足够多的迭代后,矩阵 A 收敛到一个唯一的双随机矩阵(当 A 为正且连通时)。实际实现时,通常使用指数算子先对原始矩阵元素取指数(exp),以保证元素为正,然后再应用上述缩放迭代。

    随后用残差连接与归一化模块处理 UniMixing block 的输出:

    O=RMSNorm(X+UniMixing(X))

    .

  3. A Unified Perspective of Heterogeneous Feature Interaction:观察 Vh 的公式与 reshape(H,L//B,B) 的公式,我们发现若将 blocks 数量 L//B 设为 T,且 WVihWBi 的维度相同,则 reshape(H,L//B,B)=Vh。这意味着在 WVi=WBi 的条件下,UniMixerlocal interaction projection 等价于 value projection of the heterogeneous attention layer。另一方面,WG 的维度与作用和 attention weights 相同;此外, WG 需要满足双随机性、稀疏性与对称性。

    Wukongfeature interaction 基于 FM 组件。FMB(X) 的表达式可改写为:

    FMB(X)=reshape(MLP(LN(flatten((XI)(XI)Y))))

    其中:I 为合适维度的单位矩阵。现在我们聚焦核心的 feature interaction 模块(XI)(XI)Y。在 attention 模块中,当WQ=IWK=I,且 value 矩阵不依赖 hidden state input X(即 Vh=WV=Y)时,attention 机制退化为 FM 模块。因此,attention-based 机构、TokenMixer-based 架构与 Wukong-based 架构可统一于单一理论框架:

    UniMixing(X)=reshape(G(X,WG)Global Mixing Pattern[x1WB1xL//BWBL//B]Local Mixing Pattern,1,L)

    其中:G(X,WG)heterogeneous feature interaction projection,衡量 token-to-token/block-to-blockinteraction 强度。

    为便于分析各类方法的差异与联系,我们考虑 single-head attention setting。在统一理论框架下(即,UniMixing(X)),各类方法的差异总结于 Table 1。对于 self-attentionheterogeneous attentionFMglobal mixing pattern G(X,WG) 通过计算两个 tokens 的内积相似度得到;而 TokenMixerglobal mixing patterninput token embedding 无关。

  4. UniMixing-Lite:如 Figure 3 所示,block 粒度越细(即,B 越小),local interaction parameter matrices WBi 的数量越多(即,L//B 越大),global interaction parameter matrix WG 越大,导致了冗余的 local interaction patterns。同时,更大的 global interaction matrixreducing the number of parameters 上的效率较低。因此,基于 UniMixing block,我们设计了一个轻量级的 UniMixing 模块—— UniMixing-Lite,从而进一步减少 module parameters 与计算成本,提升模型的 scaling 效率。

    为解决 local interaction pattern 的冗余性问题,我们引入一个 basis-composed module,动态地生成 block-specific local mixing weight。定义 WBibasis matrices 的集合为 {Z}=1b,这些 basis matrices 上的 block-specific weight vectors{ωi}i=1L//B,其中 bbasis local mixing weight 的数量,ωi=[ω1i,,ωbi]。此外,我们对 global interaction parameter WG 采用低秩近似,从而进一步提升效率。则 UniMixing-Lite 模块可表示为:

    UniMixing-Lite(X)=reshape(Wrreshape([x1WB1xLBWBLB],LB,B),1,L)O=RMSNorm(X+UniMixing-Lite(X))

    其中:

    • Wr=Sinkhorn-Knopp(AGBG)AGR(L//B)×r,BGRr×(L//B)rWG 低秩近似(low-rank approximation )的秩。

    • WB=Sinkhorn-Knopp(=1bωiZ)

    UniMixing-Lite 模块同时保留了 TokenMixer 的低参数的 global interaction pattern 、以及 attention 的针对heterogeneous featureslocal interaction 能力,可同时利用 attention-based 方法与 token-mixer-based 方法的优势。

    同时对 WGWBi 进行简化。

  5. Pertoken SwiGLU:在 UniMixing block 之后,与 TokenMixer-Large 类似,我们引入 pertoken SwiGLU 来建模不同 tokens 之间的 feature heterogeneity。对于每个 input token xiSwiGLU 公式如下:

    pSwiGLU(oi)=Wdowni((Wupioi+bupi)Swish(Wgateioi+bgatei))+bdowni

    其中:

    • Wupi,WgateiRB×(nB)WdowniR(nB)×Bbupi,bgateiR(nB)bdowniRBn 为一个超参数。

    • oi 为第 itokenUniMixing output

1.3.3 SiameseNorm

  1. 当前 RankMixer 架构缺乏针对 deep architectures 的专门设计,主要体现在 model depthscaling 效果有限。尽管TokenMixer-Large 尝试通过在 block 内加入 interval residualsauxiliary loss 来解决该问题,但未触及根本。为实现model depth 增加时的训练稳定性与性能提升,我们将孪生归一化( SiameseNorm )引入 UniMixer 架构,如 Figure 2 所示。如相关工作所述(《Siamesenorm: Breaking the barrier to reconciling pre/post-norm》),SiameseNorm 通过在每层引入两个耦合流(coupled streams),解决预归一化(Pre-Norm)与后归一化(Post-Norm)的矛盾。本节将这两个耦合流记为 XiYi,由 input embeddings 初始化 X0=Y0=X。对于第 blockSiameseNorm 执行如下更新:

    Y~=RMSNorm(Y),O=UniMixer(X+Y~)X+1=RMSNorm(X+O),Y+1=Y+O

    Yi 执行的是 pre-normXi 执行的是 post-norm

    对于第 MUniMixer block,我们融合 XY 从而生成 final representation,公式如下:

    Xoutput=XM+RMSNorm(YM)

    根据离线实验表面,PostNorm -> SiameseNorm 能带来 0.027%AUC 提升。因此,它并不是核心设计。

1.3.4 UniMixer 训练策略

  1. 为使parameter matrices WGWBi 具备稀疏性,我们引入温度系数来控制其稀疏程度。但温度越小,权重越稀疏,同时会导致梯度稀疏、微弱甚至不稳定,使训练困难,optimization 陷入局部最优。另一方面,我们的实验表明 weight parameters 的稀疏性对模型性能有显著正向影响,如 Table 3 所示。因此,该稀疏性不可或缺。

    常用方法是在训练过程中采用线性温度退火(linear temperature annealing):从较高初始温度(如 τ=1.0)开始,随 training iterations 次数增加,线性退火至 τ=0.05,公式如下:

    τj=max{τstartjJ×(τstartτend),τend}

    其中:

    • τj 为第 j 次迭代的温度系数,τstartτend 分别为初始温度与最终温度。

    • J 为温度退火的迭代范围。

    数据量不足时,线性退火可能导致高温阶段探索不充分,或低温阶段优化效果不佳。为解决该问题,可先用较高温度系数(如τ=1.0)冷启动训练模型;模型训练充分后,降低温度系数(如 τ=0.05),以高温模型权重为 initialization,重新训练低温模型。

    根据实验部分的描述,训练策略对 UniMixer 模型性能的影响最大。众所周知,dnn 模型的训练策略、模型架构都对最终模型性能产生重大影响。那么,UniMixer 的优秀性能是来自于它的训练策略,还是来自于它的模型架构?

1.4 实验

  1. 本节开展大量实验,对比所提出的 UniMixer 架构与 SOTA 方法的性能,并回答以下问题:

    • Q1UniMixer 架构的 scaling 效率是否优于 SOTA 架构?

    • Q2:所提出的方法在 different settings of global and local mixing pattern 下性能如何变化?

    • Q3:轻量级模块 UniMixing-Lite 是否进一步提升 scaling 效率?

    • Q4:部署至真实在线系统后,UniMixer/UniMixing-Lite 是否在 A/B 测试中提升业务指标?

  2. 数据集与评估指标:我们采用 Kuaishou 的广告投放场景的真实训练数据集日志,建模用户留存(user retention),开展离线与在线评估。数据集包含一年收集的超 0.7 billion 的用户样本,涵盖数值特征、ID 特征、交叉特征、序列特征等数百个 heterogeneous features。二元标签(User Retention = 1/0 )表示 users’ first activation 的次日是否返回 Kuaishou application。推荐模型的 scaling evaluation 的指标采用行业常用的 AUCUAUCUser-Level AUC)以评估模型性能,用dense parameter 数量、FLOPsMFU 来评估模型效率。

  3. 基线与实验细节:将本文的 2-blocks/4-blocks UniMixer/UniMixing-Lite 架构与以下代表性 SOTA 框架对比,按建模范式分类:

    • Attention-Based 架构:Heterogeneous Attention《Hiformer: Heterogeneous feature interactions learning with transformers for recommender systems》)、HiFormer《Hiformer: Heterogeneous feature interactions learning with transformers for recommender systems》)、FAT《From scaling to structured expressivity: Rethinking transformers for ctr prediction》),采用 field-specific query, key, and value projections 实现heterogeneous feature interaction

    • TokenMixer-Based 框架:RankMixer《Rankmixer: Scaling up ranking models in industrial recommenders》)、TokenMixer-Large《Tokenmixer-large: Scaling up large ranking models in industrial recommenders》),采用 rule-based token mixing operation 实现 feature interaction

    • FM-Based 框架:Wukong《Wukong: Towards a scaling law for large-scale recommendation》),将 outputs of a FMB and a linear projection layer 拼接起来,从而提升 interaction component

    所有实验在由 40 GPUs 组成的 a hybrid distributed training framework 下进行。所有模型使用一致的 optimizer hyperparametersdense and sparse parts 均用 Adam 优化,学习率设为 0.001

1.4.1 Performance Comparison (for Q1)

  1. 采用参数约 100 millionSOTA scaling architecturesUniMixerUniMixing-Lite 对比,探索其 scaling lawsheterogeneous attention 架构作为 base modelTable 2 展示本文模型与 SOTA 模型的主要性能结果。可以看到:

    • 在更小的参数预算与计算成本下,UniMixerUniMixing-Lite 架构在多个指标上均显著优于其他 SOTA 模型。

      TokenMixer-Large 的效果还不如 RankMixer?有点奇怪。

    此外,该广告投放场景中,除 UniMixer/UniMixing-Lite 外,RankMixer 性能优于所有其他 SOTA 模型。因此,我们选择该最强的 SOTA 模型与 UniMixer/UniMixing-Lite 进行 scaling laws 的对比。所有模型在相同数据集、一致超参数下进行训练,其参数量与 FLOPsscaling curvesFigure 4 所示。可以看到:

    • number of parameters/FLOPs 增加,三个模型的 AUC 均呈现清晰的 power-law 趋势。

    • UniMixer-Lite 实现最优的 scaling 效率,提升斜率更陡。

    根据 Figure 4RankMixerUniMixerUniMixing-LiteAUCParameters/FLOPs 的良好的 scaling laws 公式如下:

    ΔAUCRankMixer=0.002718×Params0.116043,ΔAUCRankMixer=0.002022×Params0.116635ΔAUCUniMixer=0.003032×Params0.131973,ΔAUCUniMixer=0.002058×Params0.125702ΔAUCUniMixer-Lite=0.003767×Params0.141903,ΔAUCUniMixer-Lite=0.002338×Params0.135327

    scaling laws 中的两个常数里,scaling exponent 常数对性能增长影响最大,是 scaling 效率的主导因素。UniMixer-Lite 展现出最强的 scaling 效率,在参数量与 FLOPs 上均取得最大的 scaling exponentscaling coefficient,说明其从 increased model capacity 中获益最大。

1.4.2 Ablation Studies (for Q2)

  1. 为探索 global and local mixing weights 的特性,以及 UniMixer 中各模块对 AUC gains 的贡献,我们对多种 UniMixer 变体开展消融实验,测量其相对 full UniMixer modelAUC 变化。所有变体在相似设置下训练。结果如 Table 3 所示,移除任意模块或违反参数约束(parameter constraints)均会导致性能下降,其中 low temperature coefficientmodel warm-up 对整体性能影响最显著。

    model warm-up 就是正文章节提到的线性温度退火.

1.4.3 Performance of the UniMixing-Lite Module (for Q3)

  1. 根据 Figure 4scaling 趋势可见,本文 UniMixing-Lite 架构具备最优的参数效率与计算效率。本节开展实验,探究基矩阵集合 {Z}=1b 的不同数量 b、不同的秩 rAG,BG 的秩),以及不同 UniMixer block 数量的影响。如 Table 4 所示:

    • 随基矩阵数量 bAG,BG 的秩 r 的增加,模型性能相应提升。

    • 但在参数效率方面,增加基矩阵数量 b 比增加秩 r 带来更高的 AUC gain

    注意:RankMixer 的层数越多,效果反而下降了。

  2. 为观察低秩近似 AGBG 与带 Sinkhorn–Knopp 操作的基矩阵 {Z}=1b 对重构 global and local mixing matrices 的影响,在2-blocks-UniMixer-Lite 架构中,我们可视化温度系数 τ=1τ=0.05 时,第一个 UniMixer blockreconstructed global matrix WG 与前六个 local mixing matrices WBi,如 Figure 5 所示。input embedding 维度为 768block 大小为 B = 6,因此 WGR128×128WBiR6×6,其中 AGR128×16BGR16×128

    Figure 5 可见,尽管模块中使用了低秩近似与 basis matricesSinkhorn–Knopp 操作仍能保证矩阵接近满秩。此外,对比Figure 5(a)(b) and (c)(d),更低的温度系数下的 global and local mixing matricesinteraction distributions 比更高的温度系数下更尖锐。由消融实验结果可知,WGWBi 的稀疏性使模型性能大幅提升。

  3. 另一方面,由 Table 4 可见,随 UniMixer 的深度的增加,所提出的模型持续呈现清晰的 scaling-up 趋势,而 RankMixer 随深度的增加出现性能下降。UniMixing-Lite with 2 blocks and 4 blocksscaling curvesFigure 6 所示,说明沿 depth 缩放比沿 width 缩放更高效。

1.4.4 Online A/B Test Results (for Q4)

  1. 为验证所提出的 UniMixer 架构的在线性能,我们将 UniMixerUniMixing-Lite 部署至 Kuaishou 的多个广告投放场景。在线A/B 测试中,以 30 天观察窗口内的累计活跃天数(Cumulative Active Days: CAD)衡量 user engagement(排除 installation day,即 day 0)。在多个场景中,D1-D30CAD 平均提升超 15%

    没有详细的图表来说明?base model 是啥?有没有上线?这些都没讲。

1.5 结论

  1. 本文为推荐系统的 scaling laws 建立了一个统一的 scaling 框架,打通了 attention-based 方法、TokenMixer-based 方法与FM-based 方法的联系,使融合各自优势成为可能。从得到的 scaling laws 可见,与 SOTA 架构相比,本文的 UniMixing-Lite 实现了最优的参数效率与计算效率。我们已将该架构部署至 Kuaishou 的多个场景,取得显著的离线与在线收益。

    本工作不再孤立看待推荐系统中现有的 scaling 模块(如 Heterogeneous AttentionTokenMixerWukong),而是建立统一理论框架,为推荐系统的 scaling design 提供指导。我们相信该统一架构能助力推荐系统领域迎来属于自己的 "attention moment"。这个统一模块,UniMixer,是专为推荐领域设计的 fundamental block,其适用性可进一步扩展至 user behavior sequence modeling 任务与 generative recommendation 任务。

二、附录

2.1 附录 A:TokenMixer 等价变换数值示例

  1. 给定如下 input hidden state XR2×6,其中 xi 为标量:

    X=[x1x2x3x4x5x6x7x8x9x10x11x12]

    input hidden state X 经过 TokenMixer 操作后被变换为:

    TokenMixer(X)=[x1x2x3x7x8x9x4x5x6x10x11x12]

    TokenMixer 的输出可以被展平为一个向量:

    flatten(TokenMixer(X))=[x1,x2,x3,x7,x8,x9,x4,x5,x6,x10,x11,x12]

    另一方面,向量 flatten(X) 可以通过乘以一个 R12×12 的矩阵被变换为 flatten(TokenMixer(X)),可写作:

    [100.000.000.000010.000.000.000001.000.000.000...+...+...+...000.000.100.000000.000.010.000000.000.001.000...+...+...+...000.100.000.000000.010.000.000000.001.000.000...+...+...+...000.000.000.100000.000.000.010000.000.000.001]Wperm[x1x2x3x4x5x6x7x8x9x10x11x12]flatten(X)=[x1x2x3x7x8x9x4x5x6x10x11x12]flatten(TokenMixer(X))

    根据上式,本数值例子中的 TokenMixer 操作被等价变换为矩阵乘法形式。此外,置换矩阵 WpermR12×12 可以被等价分解为下面两个小矩阵的克罗内克积(Kronecker product):

    Wperm=[1000001001000001]Global Mixing Matrix[100010001]Local Mixing Matrix

    .

2.2 附录 B:UniMixing 模块的计算流程优化

  1. 定义 WGR(L//B)×(L//B)WBiRB×B 如下:

    WG=[w(1,1)Gw(1,L//B)Gw(L//B,1)Gw(L//B,L//B)G],WBi=[v(1,1)iv(1,B)iv(B,1)iv(B,B)i]

    其中 w(i,j)v(i,j) 均为标量。

    根据公式 [x1x2xL//B]=Split(flatten(X),LB)flatten(X) 被均匀切分为 L//B 个向量,重写为:

    flatten(X)=[x1x2xL//B]

    其中:xiR1×B 是维度为 B 的行向量。

    根据 UniMixing 的原始表达式 UniMixing(X)=reshape((WG{WBi}i=1L//B)flatten(X),1,L),项 (WG{WBi}i=1L//B)flatten(X) 可以被重写为:

    (WG{WBi}i=1L//B)flatten(X)=[w(1,1)GWB1w(1,L//B)GWBL//Bw(L//B,1)GWB1w(L//B,L//B)GWBL//B][x1xL/B]=[w(1,1)GWB1x1++w(1,L//B)GWBL//BxL/Bw(L//B,1)GWB1x1++w(L//B,L//B)GWBL//BxL//B]RL×1

    另一方面,我们可以得到下面的表达式:

    WGreshape([x1(WB1)xL//B(WBL//B)],LB,B)=[w(1,1)Gw(1,L//B)Gw(L//B,1)Gw(L//B,L//B)G][x1(WB1)xL//B(WBL//B)]=[w(1,1)Gx1(WB1)++w(1,L//B)GxL//B(WBL//B)w(L//B,1)Gx1(WB1)++w(L//B,L//B)GxL//B(WBL//B)]R(L//B)×B

    上式中的元素满足:

    w(i,1)GWB1x1++w(i,L//B)GWBL//BxL//B=(w(i,1)Gx1(WB1)++w(i,L//B)GxL//B(WBL//B))

    因此有:

    (WG{WBi}i=1L//B)flatten(X)=reshape(WGreshape([x1(WB1)xL//B(WBL//B)],LB,B),L,1)

    由于 WBi(WBi) 都是可学习参数,参数的转置不会影响模型。因此,computation pipeline optimization 后的 UniMixing 模块可以写作:

    UniMixing(X)=reshape(WGreshape([x1(WB1)xL//B(WBL//B)],LB,B),1,L)

    .