2026_SSRNet

一、SSRNet [2026]

《Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation》

最近在 scaling large models 方面的进展促使推荐系统增加模型深度和模型容量，以更好地利用海量的 behavioral data。然而，推荐系统的 inputs 是高维的且极其稀疏的，简单地 scaling dense backbones（例如，deep MLPs）往往会导致收益递减甚至性能下降。我们对工业级 CTR 模型的分析揭示了一种 implicit connection sparsity 的现象：大多数学到的 connection weights 趋向于零，而只有一小部分保持显著。这表明 dense connectivity 与 sparse recommendation data 之间存在结构性的不匹配；通过迫使模型处理大量 low-utility connections 而非 valid signals，dense architecture 本身成为了 effective pattern modeling 的主要瓶颈。我们提出了 SSR（Explicit Sparsity for Scalable Recommendation），这是一个将 sparsity 显式地融入架构的框架。SSR 采用了一种 multi-view 的 "filter-then-fuse" 机制，将 inputs 分解为多个并行的视图，从而进行 dimension-level sparse filtering，随后进行 dense fusion。具体来说，我们通过两种策略实现 sparsity：
- Static Random Filter：通过 fixed dimension subsets 来实现高效的 structural sparsity。
- Iterative Competitive Sparse: ICS：这是一种可微的动态机制，采用受生物学启发的竞争来自适应地保留 high-response dimensions。
在三个公共数据集和来自全球电商平台 AliExpress 的十亿级工业数据集上的实验表明，SSR 在相似的预算下优于 SOTA 的基线模型。关键在于，SSR 表现出卓越的 scalability，在 dense models 达到饱和之处实现了持续的性能提升。代码可从 https://github.com/Atticus666/SSRNet 获取。
深度学习推荐系统（Deep learning recommender systems: DLRS）是许多 online services 的核心排序引擎。受大语言模型成功的启发，我们研究推荐模型是否表现出类似的 scaling 特性，即随着模型容量和数据规模共同增长，模型性能也随之提升。在实践中，主流的工业级 CTR 骨干网络，如 Wide&Deep （《Wide & deep learning for recommender systems》）和 DLRM （《Deep learning recommendation model for personalization and recommendation systems》），仍然相对较浅，通常只有 3-4 层。简单地 scale up 这些 dense MLP-based 的架构的尝试常常导致收益递减甚至性能下降，正如先前研究所报道的那样。这意味着对 dense 架构进行朴素的 scaling 并非最优选择。
一个根本性问题在于：dense connectivity 与 sparse recommendation data 之间的不匹配。与具有自然的空间局部性或序列局部性的图像或文本不同，recommendation inputs 由数百个 heterogeneous feature fields 组成，对于任何给定的样本，只有一小部分子集是相关的（《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》、《Deep learning for click-through rate estimation》）。如 Figure 1 所示，生产环境中的 CTR 模型学到的权重表现出极端的 implicit sparsity：92% 的 connections 被抑制到接近零，80% 的权重质量（weight mass）集中在仅 4% 的维度上。这证实了 dense architecture 本身成为了 effective scaling 的瓶颈，我们将在后续章节提供详细的分析和理论基础。
基于这一见解，我们提出了 Explicit Sparsity for Scalable Recommendation: SSR，这是一个为在 sparse recommendation data 上进行 scaling 而量身定制的框架。SSR 引入了一种从 implicit weight suppression 到 explicit signal filtering 的范式转变，建立在一个简单原则之上：先筛选，后融合（first filter, then fuse）。它在进行 dense nonlinear fusion 之前执行显式的 dimension-level sparse filtering。我们通过两种互补策略实现 sparsity：
- 静态随机筛选器（Static Random Filter: SSR-S）：通过 fixed dimension subsets 以 zero FLOP 成本实现高效的 structural sparsity。
- 迭代式竞争稀疏（Iterative Competitive Sparse: ICS/SSR-D ）：这是一种可微的动态机制，基于样本上下文来引入 sparsity 以自适应地筛选 dimensions 。
与依赖于 soft attention （《FiBiNET: combining feature importance and bilinear feature interaction for click-through rate prediction》）或 post-hoc pruning （《Autofis: Automatic feature interaction selection in factorization models for click-through rate prediction》）的现有方法不同（这些方法保持全连接图 fully connected graph ，因此无法在大规模场景下阻止噪声），SSR 强制执行 explicit sparsity，从源头上阻止噪声传播（noise propagation），从而为 scaling 提供更清晰的梯度流（gradient flow）。本文的主要贡献总结如下：
- 我们分析了在 sparse data 上 scaling dense MLPs 的问题，强调 implicit weight suppression 无法阻止噪声，并在 Figure 1 中提供了 strong sparse connection 的证据。
- 我们提出了 SSR，将范式从 implicit weight suppression 转变为 explicit signal filtering。它在 dense interaction 之前实现 explicit sparsity 以隔离噪声，确保 expanded capacity 专用于 valid signals。
- 我们引入了两种策略来实现 explicit sparsity，
  - Static Random Filter：用于高效的 structural sparsity。
  - ICS：一种可微的动态筛选机制，从而能够实现 input-adaptive sparsification 以捕获复杂的依赖关系。
- 在三个公共数据集和一个来自 AliExpress 的十亿级工业数据集上的实验表明，SSR 在相当的计算预算下达到了更高的准确性，并在 scaling size 时表现出更稳定的改进。

1.1 相关工作

我们回顾了三个方面的相关工作，作为 SSR 框架的背景：特征交互建模（feature interaction modeling）、稀疏性驱动的架构（sparsity-driven architectures）、和动态选择机制（dynamic selection mechanisms）。
From Global Dense to Sparse Filtering：捕获高维稀疏特征之间的非线性依赖关系是推荐系统的基础。早期的模型，如因子分解机（Factorization Machines ），显式地处理了二阶交互。在深度学习时代，架构通常分为三类：
- 混合模型（例如，Wide&Deep 《Wide & deep learning for recommender systems》、DeepFM 《DeepFM: a factorization-machine based neural network for CTR prediction》）结合线性组件和非线性组件以平衡 memorization 和 generalization。
- 自注意力机制（例如，AutoInt 《Autoint: Automatic feature interaction learning via self-attentive neural networks》 、AFN 《Adaptive factorization network: Learning adaptive-order feature interactions》）利用 multi-head attention 从而用于 high-order correlations。
- 隐式模型（例如，DCN v2 《Dcn v2: Improved deep & cross network and practical lessons for web-scale learning to rank systems》、RankMixer 《Rankmixer: Scaling up ranking models in industrial recommender》）依赖深度堆叠的 fully connected layers 来捕获交互。
然而，这些全局稠密的架构与固有的 data sparsity 之间存在根本性的不匹配。尽管像 IntentGC（《Intentgc: a scalable graph convolution framework fusing heterogeneous information for recommendation》）这样的 Graph Neural Networks: GNN 试图通过利用 graph topology 来指导 interactions 以解决 sparsity 问题，但在工业环境中它们通常会带来与 graph construction 和 neighbor sampling 相关的成本。
类似地，self-attention模型（例如，AutoInt 《Autoint: Automatic feature interaction learning via self-attentive neural networks》）理论上可以捕获细粒度的相关性。然而，标准的 Softmax 操作产生严格为正的权重，本质上是保留了一个全连接图（fully connected graph）。尽管人们已经提出了 Sparse Attention 机制（《Generating long sequences with sparse transformers》）来限制感受野（receptive fields），但它们通常会引入复杂的 indexing 开销。相比之下，SSR 采用了 "filter-then-fuse" 的范式。SSR 不依赖繁重的 graph structures 或复杂的 sparse attention indices，而是采用显式的 signal filtering。通过将 inputs 分解为并行视图（parallel views）并在 fusion前阻断噪声，SSR 使模型能够有效 scale up，避免了 dense baselines 中观察到的饱和现象。
From Pruning to Structural Sparsity：为了减轻高维特征的计算负担，explicit sparsity 已成为一个活跃的研究方向。传统方法主要分为两类：
- Feature Selection：它剪枝冗余的字段，例如 AutoFIS（《Autofis: Automatic feature interaction selection in factorization models for click-through rate prediction》）。
- Mixture-of-Experts: MOE：它使用 conditional routing 来扩展容量，例如 MMOE（《Modeling task relationships in multi-task learning with multi-gate mixture-of-experts》）、PLE（《Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations》）。
这些方法存在局限性。
- Feature Selection 通常遵循 "model-then-prune" 的逻辑——试图在 dense interactions 已经发生后再移除冗余。
- MoE 模型虽然增加了容量，但面临路由坍缩（routing collapse）和负载均衡（load balancing）的挑战。
最近的进展已转向固有的 sparsity。例如，最近的研究（《Dynamic sparse learning: A novel paradigm for efficient recommendation》）提出了一种 Dynamic Sparse Learning 范式，从头开始训练 sparse models，有效避免了 redundancy of post-hoc pruning。类似地，后续研究（《Scalable approximate nonsymmetric autoencoder for collaborative filtering》）利用 sparse approximate inverses 来增强 collaborative filtering autoencoders 的 scalability。
SSR 与传统的 post-hoc pruning 和 soft attention 不同，它引入了一种 hard-filtering 范式。SSR 不是 "learning then deleting"，也不是通过严格为正的权重来保留噪声，而是从一开始就实现了一种 "learn-while-filtering" 的机制。最重要的是，通过强制执行截断（zero-weight connections），SSR 实现了 signal isolation 从而阻隔 noise propagation 。
From Gating to Global Inhibition：为了实现 input-aware adaptivity，动态机制是必不可少的。现有工作已经探索了多种技术来动态地处理 data sparsity。
- MaskNet（《Masknet: Introducing feature-wise multiplication to CTR ranking models by instance-guided mask》）和 LHUC （《Learning hidden unit contributions for unsupervised speaker adaptation of neural network acoustic models》）引入了 Instance-Aware Masks，通过 element-wise gating 来突出 informative features。
- 其他方法利用 Locality-Sensitive Hashing （《Improved LSH for privacy-aware and robust recommender system with sparse data in edge environment》）在 edge environments 中进行高效检索，或采用 embedding compression （《The Future is Sparse: Embedding Compression for Scalable Retrieval in Recommender Systems》）来为 scalable retrieval 生成 sparse activations。
然而，大多数现有方法依赖于 independent gating 或 static projections，其中 feature selection decisions 是局部进行的或通过简单的点积实现。SSR 通过提出 Iterative Competitive Sparse: ICS 机制来推进这一领域。ICS 将 feature selection 建模为一个受生物学全局抑制（biological global inhibition）所启发的动态系统。它引入了竞争机制，其中 dominant features 抑制较弱的邻居，而不是 independent gating 。这使得 SSR 能够学习一个鲁棒的、全局的 selection 策略，该策略能够根据 input context 进行迭代式的自适应。

1.2 动机与理论基础

在介绍 SSR 框架之前，我们提供支撑我们 design choices 的分析和理论动机。

1.2.1 为什么 Dense MLPs 不适合 Recommendation

Recommendation inputs 与语言数据或视觉数据有根本不同。它们维度高但极其稀疏，每个实例通常只激活 a large feature space 中的一小部分 informative dimensions （《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》）。与图像或文本（其 inputs 表现出自然的空间局部性或序列局部性，CNN 和 Transformer 等架构利用了这一点）不同。Recommendation inputs 由数百个 heterogeneous feature fields 组成，例如 user profiles、item attributes、contextual signals 和 behavioral sequences，这些字段被拼接成一个 no inherent adjacency 或 no ordering among dimensions 的扁平向量。对于特定的 impression 或 purchase，只有少数 contextual signals 和 historical preferences 是真正相关的，而绝大多数字段对于该特定样本是弱相关的。这种 sparsity pattern 意味着模型的有效响应（例如，weight mass）集中在 input dimensions 的很小一部分上。
相比之下，全连接层（fully connected layer ）通过将每个 output 神经元与所有 input dimensions 耦合，强制执行全局稠密连接性（globally dense connectivity ）。这迫使模型处理大量的低效用连接（low-utility connections），从而稀释了 valid signals，并使得 optimizer 负担了 suppressing noise 而非 learning complex patterns 的任务（《Autoint: Automatic feature interaction learning via self-attentive neural networks》）。我们认为这构成了 inductive bias 的错位：dense connectivity 假设所有 dimension pairs 都是等可能性地交互，而数据表现出高度集中的、subset-based 的交互。
为了支持这一分析，我们可视化了一个在线工业级 CTR 模型中全连接层学到的权重（Figure 1）。该模型在没有任何 sparsity-inducing 约束（例如，L2 regularization）的情况下进行训练。尽管其设计是 dense 的，但学到的权重表现出高度稀疏的运行模式：超过 92%connections $< 10^{-3}$ ），并且 80% 的 weight mass 集中在 top 4% 的 input dimensions 上。虽然这证实了由 data distribution 所驱动的强 sparsity preference，但这种 implicit suppression 是低效的：许多权重仅仅被驱动到接近零，这既不能消除噪声的干扰，也不能提供 signal filtering 的机制。使这种 sparsity 显式化（即：将其从 implicit 的训练副产品转变为可控的架构设计），是克服 scaling 瓶颈的关键。然而，什么构成噪声因用户而异，因此所有样本共享的 static sparse structure 忽略了 recommendation 的 context dependence 。为了有效地 scale up，我们需要 structural 和 dynamic, sample-conditional 的 sparsity。

1.2.2 Sparsity as Inductive Bias Alignment

从 inductive bias 的角度来看，模型架构隐式地编码了关于其 input data 结构的假设。
- CNN 通过卷积核（convolutional kernels）编码了空间局部性（spatial locality）。
- Transformer 通过自注意力编码了序列依赖性（sequential dependencies）。
这两者都成功，因为它们的结构设计与数据的自然结构相匹配。
然而，recommendation inputs 缺乏这种自然局部性。数百个 heterogeneous feature fields 被拼接成一个缺乏固有空间顺序或时间顺序的扁平向量。Dense MLP 的全连接拓扑没有施加任何结构先验（structural prior），将所有的 dimension pairs 视为等可能性地交互。当数据的有效 interactions 集中在小的特征子集上时（正如我们的实证分析所证实的，Figure 1）。这种设计变成了一种错位的 inductive bias，迫使 optimizer 将大部分容量用于学习哪些 connections 需要抑制，而不是学习哪些模式需要建模。
最近关于 structured sparsity 的理论工作支持了这一观点。《Understanding MLP-Mixer as a wide and sparse MLP》证明，MLP-Mixer （《Mlp-mixer: An all-mlp architecture for vision》）在数学上等价于一个宽且稀疏的 MLP。其 Token-Mixing layer 和 Channel-Mixing layer可以通过 Kronecker product 结构来表示：
$\begin{matrix} vec (W X) = (I_{C} \otimes W) vec (X) \\ vec (X V) = (V^{⊤} \otimes I_{S}) vec (X) \end{matrix}$
$\mathbf X\in \mathbb R^{S\times C}$ $\mathbf W\in \mathbb R^{S\times S}$ $\mathbf V\in \mathbb R^{C\times C}$ 。
- $\text{vec}(\cdot)$ $\text{vec}(\mathbf X)\in \mathbb R^{(SC)\times 1}$ 。
- $\otimes$ Kronecker product $\mathbf A\otimes \mathbf B$ $\mathbf A$ $\mathbf B$ $\mathbf A\in \mathbb R^{m\times n}, \mathbf B\in \mathbb R^{p\times q}$ $\mathbf A\otimes\mathbf B\in \mathbb R^{(mp)\times (nq)}$ 。
- $\mathbf I_C$ $\mathbb R^{C\times C}$ $\mathbf I_S\in \mathbb R^{S\times S}$ 的单位矩阵。
$m = S\times C$ $10^{4} ～ 10^{6}$ $1 / C$ $1 / S$ 的 non-zero weight ratioKronecker product parameterization $L_{1}$ 正则化效应。结合 Golubeva 假设（《Are wider nets better given the same number of parameters?》）（即在固定参数数量下，增加宽度（从而增加 sparsity ）能够持续提高泛化能力），这些发现为 structured sparsity 为何能作为有益的 inductive bias 提供了理论基础。
SSR 将这一原则从视觉领域扩展到推荐领域。MLP-Mixer 依赖于固定的数学结构（Kronecker products），该结构利用了 image patches 的空间规律性，而 recommendation data 缺乏这种规律性：哪些 feature interactions 是 informative 的，高度依赖于数据和样本。这促使 SSR 设计了两种互补的 explicit sparsity 机制，即：用于高效 structural sparsity 的 static random filtering 、以及用于 sample-adaptive selection 的 dynamic competitive filtering 。因此，从 MLP-Mixer 到SSR 的转变代表了一个进步：从嵌入在 fixed mathematical structure 中的 implicit sparsity ，转向为数据固有属性而设计的 explicit sparsity 。这激发了下一节详述的 "filter-then-fuse" 范式。

1.3 SSR 框架

我们提出 Explicit Sparsity for Scalable Recommendation: SSR 框架，以解决 globally dense connectivity 与 sparse input data 之间的不匹配。在本节中，我们将详细阐述单个 SSR Layer 的设计，该层包含两个 cascaded stages ：
- (1)：Multi-view Sparse Filtering。
- (2)：Intra-view Dense Fusion 。
Figure 2 展示了该框架的概览。

1.3.1 概述

为了克服传统 densely connected layers 中无差别 mixing 和 signal dilution 所导致的 scaling 问题，SSR 引入了一种基于 explicit signal filtering 的新计算范式。
首先，模型将原始特征（包括 user profiles、candidate item attributes、cross-feature statistics 和 behavior sequences）转换为 embeddingsembeddings $\mathbf{\vec x}\in \mathbb{R}^{d_{\text{in}}}$ 。
与学习全局映射的标准 dense layerSSR $b$ purification views $i\in \{1,\cdots ,b\}$ view-specific $\phi_{i}$ ，它将 inputlocal subspace representation $\mathbf{\vec z}_{i}\in \mathbb{R}^{d_{v}}$ full input $\mathbf{\vec x}$ $\phi_{i}$ 通过一个严格的两阶段过程实现：
- Sparse Filtering $\mathcal F_{i}$ ）：用于筛选信息。
- Dense Fusion $\mathcal M_{i}$ ）：用于处理信息。
view outputs $\left\{\mathbf{\vec z}_1,\cdots ,\mathbf{\vec z}_b\right\}$ 以形成 layer output。intermediate layers 和 final layer 的具体聚合策略有所不同。

1.3.2 Multi-view Sparse Filtering

该阶段构成了 SSR 框架的 "Filter" 阶段，实现了严格的 dimension-level signal filteringsparse filter operators $\{\mathcal F_{1},\cdots,\mathcal F_{b}\}$ $i$ $\mathbf{\vec x}$ purified representation $\mathbf{\vec h}_{i}\in \mathbb{R}^{d_{v}}$ ：
${\vec{h}}_{i} = F_{i} (\vec{x})$
$b$ filtering $\mathcal F_{i}$ 提出了两种实例化策略，在高效的 structural sparsity 和 context-aware dynamic sparsity 之间进行权衡。
注意，Static Random Filter 和 Iterative Competitive Sparse 二者是互斥的，无法结合在一起使用。
SSR-S: Static Random Filter (Static Instantiation) $\mathcal F_{i}$ 视为一个与样本无关的算子，以强制执行 structural sparsitybinary selection matrix $\mathbf M_{i}\in \{0,1\}^{d_\text{in}\times d_{v}}$ $\mathcal F_{i}$ one-hot vector $\mathbf M_{i}$ input dimension $\{1,\cdots ,d_\text{in}\}$ $d_{v}$ 个 feature indices。在每个视图内，采样无放回地均匀进行，确保单个子空间内的特征不同。然而，不同视图之间的采样是独立的，允许特征重叠。这种独立性产生了一种 "Feature Bagging" 效应（《Random forests》），促进了并行视图之间的 structural diversity 和鲁棒性。筛选后的特征计算如下：
${\vec{h}}_{i} = \vec{x} M_{i}$
$\mathbf M_{i}$ 由 column-wise one-hot vectors 组成，该操作不是作为矩阵乘法实现的，而是作为 zero-FLOP 的并行的 gather操作（即直接 index slicing ）。这从源头上阻止了 unselected dimensions 的传播。
现有方法如 Statistical Top-k，甚至我们自己的 dynamic ICS ，都利用逻辑稀疏性（logical sparsity）：它们将 non-informative featurescomputation graph $O\left(d^{2}\right)$ 。相比之下，SSR-S 强制执行hard dimension reduction。通过在计算之前严格地对 input indices 进行 slicing，它将 dimension selection 成本与 inference 成本解耦。
SSR-D: Iterative Competitive Sparse (Dynamic Instantiation)：为了捕获 context-aware dependencies，我们采用ICS（详见下一节描述），这是一种动态机制。ICS 根据 input 的 semantic contextfocus $\mathbf{\vec x}$ 中不太显著的元素置零，同时保留 high-response valuesinput $\mathbf{\vec h}_{i}$ 的公式变为：
${\vec{h}}_{i} = {ICS}_{i} (\vec{x} W_{i}^{proj})$
其中：
- $\mathbf{\vec h}_i\in \mathbb{R}^{d_{v}^*}$ view dimension $d_{v}^* > d_{v}$ ），以保持容量从而用于 adaptive dimension sparsity，这与静态策略不同。
- $\mathbf{W}_i^\text{proj}\in \mathbb{R}^{d_\text{in}\times d_{v}^{*}}$ $i$ 的可学习的投影矩阵。
output $\mathbf{\vec h}$ sparse representation $d_{v}^{*}$ 维空间中，其中大多数非关键元素被严格截断为零。

1.3.3 Intra-view Dense Fusion

在 dimension-level sparse filteringinput $b$ purified vectors $\left[\mathbf{\vec h}_1,\cdots, \mathbf{\vec h}_b\right]$ 。第一阶段阻断了噪声，第二阶段专注于利用这种 sparsity ，在 refined signal 环境中实现高效的高阶建模。仅应用于 refined subspaces 内，可以防止 low-utility connections 的 re-aggregation，从而解决了 globally dense architectures 中固有的 signal dilution 问题。
Block-Diagonal weight matrix $\mathbf{W}_{\text{block}} = \text{diag}(\mathbf{V}_1,\cdots ,\mathbf{V}_b)$ 应用于 concatenated input。与所有 dimension pairs 都交互的标准 dense layer 不同，block-diagonal structuresemantic isolation $i$ $\mathbf{V}_i\in \mathbb{R}^{d_v\times d_v}$ static $\mathbf V_{i}\in \mathbb{R}^{d_v^*\times d_v}$ dynamic $b$ zero-valued $i$ $\mathbf{\vec z}_i$ 计算如下：
${\vec{z}}_{i} = σ ({\vec{h}}_{i} V_{i} + {bias}_{i})$
$\sigma(\cdot)$ 为一个激活函数（例如 GELU ）。
对于中间层（intermediate layers），来自所有视图的 outputs 经过 Layer Normalization 处理后，通过 concatenation 进行重组：
$\vec{y} = concat (LayerNorm ({\vec{z}}_{1}), \dots, LayerNorm ({\vec{z}}_{b})) \in R^{(b d_{v})}$
$O\left(b\times d_v^2\right)$ $O(\left(b\times d_v)^2\right)$ SSR $1 / b$ 倍。这使得在相同的计算预算内显著扩展参数成为可能。
SSR $b$ outputs $b$ 个新的视图，而不是沿用上一层的视图划分。每一层都独立地执行 "sparse filtering" -> "dense fusion" -> "concat outputs" 的完整流程。

1.3.4 Last-Layer Aggregation

在 intermediate layers，view outputs 被拼接起来并传递到下一层。然而，对于产生 prediction logits （例如 CTR/CVR scores）的 final layer，aggregation 策略从拼接切换为取平均：
$\bar{\vec{z}} = \frac{1}{b} \sum_{i = 1}^{b} LayerNorm ({\vec{z}}_{i})$
dense fusion $\mathbf{\vec z}_i$ shared representation $\bar{\mathbf{\vec z}}$ 被馈入到 task-specific prediction heads（例如，通过全连接层）：
$y_{ctr} = σ (W_{ctr} \bar{\vec{z}} + {\vec{b}}_{ctr})$
Averaging 相比 concatenation 有两个优势：
- 首先，它推动所有视图朝向一个共享的 semantic space ，而不是让它们独立漂移。concatenation 保留了视图之间的差异，但 averaging 鼓励了视图之间的一致性。
- 其次，无论视图数量多少，averagingprediction head input dimension $d_v$ concatenation $(b \times d_v)$ ，使得 prediction head 随视图数量而线性扩展。

1.4 Iterative Competitive Sparse

作为 SSR 中动态实例化的核心机制，Iterative Competitive Sparse: ICS 是一个可微算子，它不同于传统的 sparsification（通常由离散的 TopK sorting 来处理），而是视为一个连续动力系统。这种公式化使得端到端、自适应的 dimension-level sparse filtering 成为可能。
input $\mathbf{\vec z}\in \mathbb{R}^{d_v}$ 视为生态系统中的一个种群，其中特征强度（feature intensities）代表活力。这个框架将 sparsification 重新定义为一个离散时间的非线性动力系统，而不是一个静态的排序任务。它包含三个连续阶段：initialization 、iterative competition 和 signal recovery。ICS 的前向传播是完全可微的，能够集成到基于梯度的 optimization 中。标准流程如 Algorithm 1 所示。
$\mathbf{\vec z}$ $\alpha$ 倍的元素清零（利用 ReLU）。

1.4.1 Initialization and Competitive Dynamics

动态竞争（Dynamic competition）要求特征强度（feature intensity）具有非负的物理意义。因此，我们首先将 input 校正为非负。我们定义初始系统状态为：
${\vec{x}}^{0} = ReLU (\vec{z})$
$T$ $(t = 0,\cdots ,T - 1)$ 。在迭代过程中，一个平均场全局抑制力（mean-field global inhibition forcestep $t$ global inhibition field $\mu^{(t)}$ 为所有当前特征的平均值：
$μ^{(t)} = \frac{1}{d_{v}} \sum_{j = 1}^{d_{v}} x_{j}^{(t)}$
state update 遵循“适者生存”（"survival of the fittest"）法则。只有明显强于抑制场（inhibition field）的特征才能存活。其余特征将收敛到 true zero，实现 hard sparsity。具体的更新方程为：
${\vec{x}}^{(t + 1)} = ReLU ({\vec{x}}^{(t)} - α_{t} \times μ^{(t)})$
$\vec\alpha = \{\alpha_0,\cdots ,\alpha_{T - 1}\}$ $\alpha_{t}\in \mathbb{R}$ $T$ 个可学习的消亡率（extinction ratesiterations $\alpha_{t}$ 。
iterative design $(T > 1)$ 是必要的，因为在迭代过程中特征的 statistical distributionsingle-step thresholding $(T = 1)$ noise floor $T$ $\mu^{(t)}$ 不断被 refined 以反映 true signal baseline。这使得模型能够执行渐进式 filtering：首先去除粗噪声（coarse noise），然后进行微调，从而逼近一个复杂的非线性 sparsification （而这是单次线性 filtering 无法实现的）。
注意，在训练过程的每个 training stepICS $T$ 次。
$O(N)$ $T$ $O(T\times N)$ $\alpha_{t} > 0$ $\mu^{(t)}\geq 0$ ，update rule 确保没有 feature intensity 可以增加。该系统形成一个单调非增序列：
${‖ {\vec{x}}^{(t + 1)} ‖}_{1} \leq {‖ {\vec{x}}^{(t)} ‖}_{1}$
$t$ 不可避免地衰减。虽然这有效地滤除了噪声，但它也会导致有用信号强度的显著衰减。

1.4.2 Signal Recovery

scale $\vec \gamma$ $T$ sparse state $\mathbf{\vec x}^{(T)}$ final output $\mathbf{\vec y}$ ：
$\vec{y} = \vec{γ} ⊙ {\vec{x}}^{(T)}$
$\vec \gamma$ rescaling $\vec \gamma \in \mathbb{R}^{d_v}$ $\vec \gamma$ 是为了将 recoverytransformation $\vec \gamma$ 作为一个方差稳定器，确保优化过程中的数值稳定性（numerical stability）和 optimal dynamic range 。

1.4.3 Comparison with Other Top-k Mechanisms

我们的 ICS 机制相比现有的可微的 selection 策略具有明显优势。
- 首先，与基于直通估计器（Straight-Through Estimator: STL）（《Estimating or propagating gradients through stochastic neurons for conditional computation》）的 Top-k 方法相比，ICS 消除了梯度不匹配问题。通过将 sparsification 表述为一个连续动力系统而非 discrete truncation，ICS 确保了梯度流的一致性，从而稳定了训练。
- $O(N\log N)$ 复杂度的 Soft Top-k relaxations 或 NeuralSort （《Stochastic optimization of sorting networks via continuous relaxations》）不同，ICS 通过并行竞争抑制（parallel competitive inhibitionsparsity $O(T\times N)$ 复杂度，避免了排序高维推荐特征（recommendation features）时的计算瓶颈，同时确保 noise dimensions 被驱动到 true zero，而不仅仅是分配低概率。

1.5 实验

本节旨在解决以下核心研究问题：
- RQ1 Effectiveness & Efficiency：SSR 在主流 benchmarks 上是否优于 SOTA 模型，无论是在预测准确性还是计算效率方面？
- Q2 Scalability：SSR 是否能够有效 scale up，即随着模型规模的增加，性能是否持续提升？
- RQ3 Ablation & Mechanism：sparse filtering design 和 dense fuse 各自的贡献是什么？ICS 是否真正实现了 dynamic sparsity ？
- RQ4 Online A/B Tests：在线部署 SSR 是否能在延迟约束下带来关键业务指标的显著提升？
数据集：我们在一个大规模工业数据集以及三个公开数据集（Criteo、Avazu、Alibaba 数据集）上开展了实验评估。Table 1 汇总了各数据集的统计信息。
该工业数据集包含阿里巴巴国际数字商业集团（Alibaba International Digital Commerce Group）旗下全球跨境电商平台速卖通（AliExpress）超 1 billion 条生产日志数据。数据来源于其推荐系统，该系统面向全球用户提供个性化商品推荐服务。数据集包含 300 多个特征字段，涵盖 user profiles、item attributes 及 contextual signals 信息。
- 对于工业数据集，我们采用 time-based split：选取最近一天的数据作为验证集和测试集，以模拟线上真实应用场景。对于公开数据集，我们沿用业界标准的 random split（8:1:1）。
- 所有数值特征均经过对数变换与离散化处理，同时剔除出现频次不超过 5 的 categorical features。
评估方式：为评估所提方法的性能，本文同时从预测效果与计算效率两个维度开展评测。
- 在预测效果方面，所有数据集统一采用 AUC 与 LogLoss 作为评价指标。针对工业数据集，额外引入 GAUC 指标，从而缓解 user activity bias，重点衡量用户内排序（intra-user ranking）性能。该工业数据集包含 click、pay 两大任务；其中 pay 任务在全量样本空间上进行评估。
- 在效率与 scalability 方面，本文汇报参数量（Params）与浮点运算量（FLOPs）两项指标。需说明：参数量仅统计骨干网络部分（不包含 embedding tables），从而将模型结构评估与 dataset-specific feature cardinality 解耦。此外，FLOPs 基于神经网络模块单次前向推理进行计算，以此近似刻画 training 阶段的计算开销。
Baselines：本文将 SSR 模型与四组代表性方法进行对比：
- (1) Classic Deep Models：DeepFM（《DeepFM: a factorization-machine based neural network for CTR prediction》）、DCN v2（《Dcn v2: Improved deep & cross network and practical lessons for web-scale learning to rank systems》），作为 utilizing dense feature interactions 的标准基线。
- (2) Attention-based & Dynamic models ：AutoInt（《Autoint: Automatic feature interaction learning via self-attentive neural networks》）、MMOE（《Modeling task relationships in multi-task learning with multi-gate mixture-of-experts》），采用自注意力或门控机制实现 adaptive feature learning。
- (3) Feature Selection (AutoML)：AutoFIS （《Autofis: Automatic feature interaction selection in factorization models for click-through rate prediction》）、AFN（《Adaptive factorization network: Learning adaptive-order feature interactions》），为当前的 SOTA 方法，通过裁剪冗余 interactions 来提升模型效率。
- (4) SOTA scalable architectures：Wukong（《Wukong: Towards a scaling law for large-scale recommendation》）、RankMixer（《Rankmixer: Scaling up ranking models in industrial recommenders》），代表高性能工业推荐场景的最新研究进展。
所有模型均基于 TensorFlow 实现，并在 NVIDIA A100 集群上完成训练。为保证对比公平性，所有模型统一设置 embedding 维度为 16，优化器采用 Adam，batch size = 1024，并启用 early stoppingICS $T$ 设置为 5learnable extinction rates $\alpha_t$ 初始化为 0.1learnable scale $\vec\gamma$ 初始化为全 1 向量。

1.5.1 Effectiveness & Efficiency (RQ1)

在工业数据集上的性能表现：Table 2 给出了模型在工业数据集 Click 任务与 Pay 任务上的实验结果。本文将三组基线模型，分别与静态随机策略 SSR-S、动态 ICS 策略 SSR-D 进行对比。
这里有两个任务，可能用一个 2-task model、或者两个 single-task model。作者并未说明是哪种方式。如果是 2-task model，那么 task loss 之间的权重比例对于 model performance 至关重要。不同模型需要调优 task loss weight。
读者猜测，这里应该是对每个任务一个单独的模型。
- SSR 整体性能始终优于经典 feature interaction 模型。例如，静态版本 SSR-S 的 Click AUC 达到 0.6644，超越了 DeepFM、DCN v2 等标准基线模型。值得注意的是，SSR-S 性能优于参数量相当的 Dense MLP，说明性能提升源于 sparse architecture 本身，而非模型参数量带来的容量增益。
- 在与自动特征选择模型及 attention-based 模型的对比中：
  - 尽管 AutoFIS 在 re-training 阶段参数量更低，但模型表达能力受限，Click AUC 仅为 0.6592，并非最优。
  - 同样地，AutoInt 的 FLOPs 高达 1.7G，而 SSR-S 仅为 1.4G，但 AutoInt 的 Click AUC 仅有 0.6594，低于 SSR-S。
  这类 self-attention 机制通过 Softmaxfeature pairs $\alpha_{i,j}\gt 0$ ），等价于保留了类似 dense fully connected layer 的全连接特征图（fully connected graph）。
- 在与当前 SOTA 架构的对比中，动态版本 SSR-D 取得了最优综合性能。RankMixer 是表现最强的基线模型，其 Click AUC 为 0.6621；而 SSR-D 在所有指标上均全面超越它，Click AUC 达 0.6667，Pay AUC 达 0.8194。
  此外，SSR 实现了更优的准确性--效率权衡：
  - SSR-S 仅使用 RankMixer 的 56% 的参数量、44% 的 FLOPs，性能却更优，验证了 structured sparsity 的优势。
  - SSR-D 在与 RankMixer 计算开销相近的前提下，实现了显著性能提升，进一步验证了 Iterative Competitive Sparse: ICS 机制的有效性。
在公共 benchmarks 上的泛化能力：为验证 SSR 模型在不同数据分布与业务领域下的鲁棒性，本文在三个主流公开基准数据集 Avazu、Criteo、Alibaba 上开展实验。这三个数据集在 feature sparsity 与语义复杂度上存在明显差异。
如 Table 3 总结所示：
- 本文所提 SSR 框架在所有数据集上，相比各类基线模型均取得了稳定性能提升。其中，动态版本 SSR-D 在 AUC 和 LogLoss 两项指标上均达到最优水平。与最强基线模型 RankMixer 相比，SSR-D 在 Avazu 数据集上 AUC 提升 0.63%，在 Criteo上提升 0.03%，在 Alibaba 上提升 0.43%。这表明模型性能增益来源于自身架构设计，而非针对特定数据集的调优，具备跨数据集的泛化能力。
- 除预测准确性外，静态版本 SSR-S 在 Avazu、Alibaba、Criteo 所有基准数据集上均展现出优异的计算效率。以 Avazu 数据集为例：SSR-S 的 AUC 为 0.7827，优于 RankMixer 的 0.7772；同时仅需 0.33M 参数量、688.7M FLOPs。相较于 RankMixer，SSR-S 将参数量与计算量均缩减近一半，在提升 AUC 的同时剔除了冗余计算，做到准确性无损、效率大幅优化。
- Criteo 是一个性能竞争充分、模型效果已趋于饱和的基准数据集，性能提升空间本就十分有限。即便如此，SSR-S 与 SSR-D 仍取得 0.8098 的优异 AUC，优于 RankMixer（0.8093）、Wukong（0.8073）等强基线模型。该结果证明：即便在性能趋于饱和的场景下，SSR 仍能挖掘出传统模型忽略的精细化的高阶 dependencies，充分验证了该模型在各类数据环境下的有效性。

1.5.2 Scalability Analysis (RQ2)

内部效率分析：我们在 Figure 3scaling $b$ ）是最可靠的scaling 维度，尽管在不同数据集上表现出不同的行为。
- 在较小的 Avazu 数据集（Figure 3b）上，饱和（saturation）在所有维度上都普遍存在。
  - $8$ $16$ 时，性能增益显著减小。
  - $d_{v}$ $d = 128$ 之后表现出性能下降。
  这表明在有限的数据上，无论选择哪个 scaling 维度，模型都容易达到容量上限。
- 相比之下，十亿级的工业数据集（Figure 3a）表现出不同的模式，其主要瓶颈是欠拟合而非冗余。
  - scaling $b = 64$ ，没有出现 Avazu 中看到的饱和现象。
  - scaling $d_{v}$ ）也被证明是有效的，在低等资源到中等资源情况下作为强基线能够良好 scale up。然而，它最终在高复杂度时会呈现收益递减，其曲线相比于 view scaling 的持续增长趋于平缓。
- scaling $L$ ）在两个数据集上一致地产生最差的 returns per FLOP，最早达到饱和并且得到很小的增益。
因此， scaling width 仍然是一个可行的次要选择，我们优先考虑 scaling 视图数量作为 SSR 骨干网络的主要机制，因为它在大规模数据上具有长期可扩展的潜力。
Scalability Efficiency 分析：我们评估了 SSR 框架相对于两类基线的 scalability。为了确保严格的比较，我们在每个参数规模下对所有基线进行了独立的超参数网格搜索。首先，我们比较了 SOTA 的架构，如 RankMixer 和 Wukong，以建立一个强参考点。其次，我们纳入了一个标准的 Dense MLP，以验证我们 sparse filtering 的结构优势。Figure 4 绘制了每个模型在从 5M 到近 900M 的参数规模范围内的性能轨迹。
- 与最强的基线 RankMixer 和 Wukong 相比，SSR 不仅表现出更高的准确性，而且具有更陡峭的 scaling 轨迹。如 Figure 4 所示，虽然 RankMixer 随着参数增加保持稳定提升，但其增长率比 SSR 更平缓。因此，SSR 与 SOTA 模型之间的性能差距随着模型规模的扩大而扩大。在接近 900M 参数的大规模 increases 中，SSR 将额外容量转化为性能增益的效率远高于基线，从而产生了更大的差距。这表明 multi-view architecture 比现有方法更能利用大规模参数预算。
- 将我们的模型与 Dense MLP 进行比较对于验证我们的 design choices 至关重要。我们观察到，即使经过精心调优的正则化（例如，Dropout，weight decay），Dense MLP 也表现出过早的饱和，参数数量翻倍只会产生递减的收益。这种平台效应（plateauing effect）表明：如果没有 explicit selection 机制，dense backbone 难以利用额外容量来捕获更精细的 interaction 模式。
  相比之下，SSR 在整个规模范围内都保持着稳定的上升趋势。这证实了 sparse filtering 机制对于 scaling 至关重要。通过用 selective views 替代无差别的 dense connections，SSR 将扩展的容量分配给 modeling the most informative signals，从而缓解了 saturation 瓶颈（这个瓶颈限制了传统 dense 网络）。

1.5.3 Ablation Studies & Mechanism Analysis (RQ3)

消融研究：为了验证 SSR 框架，我们在 Avazu 数据集和工业数据集上进行了全面的消融研究。我们通过追踪相对于 SSR-D 基线的AUC 性能下降来衡量每个设计元素的贡献，总结于 Table 4。
- dimension-level sparse filtering 被证明对我们的架构至关重要。移除此模块（即直接将 input 暴露给 dense blocks）导致了最显著的性能下降，在 Avazu 数据集上 AUC 下降了 0.50 个百分点，在工业数据集上下降了 0.37 个百分点。这种急剧下降证实了我们的中心假设，即 globally dense connectivity 不适合 recommendation inputs，因为强迫 backbone 无差别地处理所有 input dimensions 会稀释 effective patterns 并引入 irrelevant connections。
  与此相辅相成的是，multi-view decompositionrepresentation subspace $b = 1$ ）导致 Avazu 数据集上性能损失 0.22 个百分点，工业数据集上损失 0.15 个百分点，表明 parallel view projections 对于捕获多样化的和互补的 feature interactions 至关重要。
- 除了组件存在性（component existence）之外，我们还检查了底层的实现机制。
  - dynamic adaptation 的必要性通过将动态 SSR-D 替换为静态 SSR-S 变体时所导致的 0.12 和 0.23 个百分点的性能下降得以证明，这表明 fixed sparsity patterns 无法考虑 sample-specific variability。
  - 此外，我们的可微 ICS 算子相对于标准 Top-k selectionSTE $k = d_{v}$ ）的优越性得到了凸显。Top-k truncation 的不可微性质导致了大约 0.18 和 0.29 个百分点的 AUC 性能损失。相比之下，我们的 ICS 提供了稳定的梯度传播，并能更有效地保留 critical feature information。
  - 最后，我们使用 Dropout 替换我们的 sparse filtering，以验证我们的增益不仅仅是由于正则化。由此产生的 0.32 和0.45 个百分点的剧烈性能下降表明 SSR 学到了有意义的 sparsity。
ICS 分析：为了理解 Iterative Competitive Sparse: ICS 模块在 optimization 过程中的学习方式，我们在 Figure 5 中可视化了前两层。我们追踪了 sparsity ratio 和 mean absolute magnitude 在 35,000 steps 内的变化。
- 如 Figure 5b 和 Figure 5d 所示，sparsity 早期快速上升，然后趋于平稳。第 2 层收敛到的 sparsity（约 90% ）远高于第 1 层（约 75%），表明 deeper layers 变得更加 selective 并产生更抽象的且稀疏的 representations 。后期观察到的stability 证实了是稳定收敛，而不是在 feature subsets 之间持续切换。
- 同时，Figure 5a 和 Figure 5c 显示，mean absolute feature magnitude 在训练过程中增加。在第 2 层，它在最初的10,000 steps 内短暂下降，随后增加；这与早期抑制 weak or redundant features ，随后加强 remaining features 的过程一致。
为了评估 ICS 机制的敏感性，我们在 AvazuTable 5 $T$ $\alpha_0$ rescaling $\gamma$ 。
- 结果支持了渐进式筛选（progressive filteringthresholding $(T = 1)$ 产生的 sparsityAUC $T$ 增加到 5 则产生更 cleaner representations ，并在 91.0% 的 sparsity 下实现了 0.7835 的最佳 AUC。
- $\alpha_0$ sparsity regulator $\alpha_{t}\in [0.1,0.5]$ ）的广泛范围内，将稀疏度从 80.4% 平滑地改变到 94.5%，同时保持性能稳定，表明该机制是鲁棒的而非脆弱的。
- $\gamma$ 对数值稳定性很重要：移除它会使 AUC 降至 0.7832。这与我们的分析一致：需要 explicit magnitude rescaling 来抵消信号衰减。
View Diversity：为了验证 multi-view architecture 是否真正学到了互补模式（complementary patternsFigure 6 $\mathbf{W}_{i}^\text{proj}$ 的 pairwise cosine similarity 。
第 1 层和第 2 层的热力图在非对角线元素上都表现出持续的低 similarity scores 。这表明不同视图所生成的 feature vectors 在很大程度上保持正交。这种 distinct separation 证实了 parallel views 已成功收敛到不同的子空间，每个视图捕获 feature interactions 的一个独特方面（unique aspect）。通过避免 mode collapse（其中，视图变得相同），该框架最大化了 representational capacity，并确保了 final fusion step 整合来自 input data 的全面的且非冗余的信号。
SSR 不需要显式的多样性正则化。由于所有 view outputs 都被拼接起来并在相同的 loss 下进行优化，训练自然地抑制了冗余视图，并偏向于那些捕获了互补模式（complementary patterns）的视图。

1.5.4 Online A/B Testing (RQ4)

我们在一个核心推荐场景中进行了在线 A/B 测试，以验证 SSR 的实际价值。基线模型是具有相同参数的 RankMixer，它代表了当前的 production 标准。我们在两周内将其与 SSR-D 进行比较，以评估在真实流量下的性能。如 Table 6 所示，SSR-D 在所有关键业务指标上均实现了持续改进。该模型 CTR 提升了 2.1%，同时推动了 conversion 的显著增长，人均订单量增长了 3.2%，Gross Merchandise Value: GMV 增长了 3.5%。
这些结果证实了 SSR 学到的高质量 representations 直接转化为更好的 ranking decisions 和更高的商业价值。至关重要的是，这些性能增益的实现没有增加系统延迟。如效率统计数据所详述，基线 RankMixer 和所提出的 SSR-D 的平均响应时间均为 25ms。这种对等性证实了 SSR 通过卓越的结构设计提高了推荐质量，而不是增加 serving 系统的推理时间负担。

1.6 结论

在这项工作中，我们重新审视了推荐系统的 scaling laws，并识别了导致 dense backbones 性能饱和的不匹配（mismatch）问题。我们的分析揭示，标准 dense layers 中的无差别 mixing 常常导致信号稀释，需要从被动的 implicit suppression 转向显式的 signal filtering。SSR 通过 "filter-then-fuse" 拓扑实现了这一范式。通过采用 Iterative Competitive Sparse: ICS 等机制，SSR 从源头上阻断了 noise propagation，确保 expanded model capacity 专用于高信噪比的子空间。
我们的实证结果表明，这种 sparsity 成功地打破了 dense models saturate 的 scaling 天花板。更广泛地说，这项工作例证了一个通用原则：有效的架构需要将其 inductive biases 与数据的内在结构对齐。
- 正如卷积核（convolutional kernels）之所以成功是因为它们匹配了图像的空间局部性。
- 自注意力之所以成功是因为它捕获了序列中的长程依赖关系。
- SSR 的 explicit sparsity 之所以成功，是因为它匹配了 recommendation data 中固有的高维的、基于子集的 interaction patterns。
这一视角挑战了当前对 globally dense connectivity 的依赖，并为未来的研究指向一个有原则的方向：设计那些 structural priors 能够反映 user behaviors 的 sparse, combinatorial nature 的架构。我们预计，explicit filtering 机制将有助于为推荐系统开发更大的、更具基础性的模型，这些模型既具有 scalable ，又具有计算效率。