2025_Longer

一、Longer [2025]

《LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders》

在工业级推荐系统中，对超长的用户行为序列（user behavior sequences ）进行建模对于捕获长期偏好（long-term preferences）和短期偏好（short-term preferences ）至关重要。现有的解决方案通常依赖于两阶段检索（two-stage re-trieval ）或间接建模范式（indirect modeling paradigms），导致了上下游不一致和计算效率低下的问题。在本文中，我们提出 LONGER，即：Long-sequence Optimized traNsformer for GPU-Efficient Recommenders。LONGER 融合了：
- (i)：一个global token 机制，用于稳定 long contexts 的 attention 。
  global token 就是 non-sequence features 所构建的 tokens ，这些 features 包括用户画像、target item 画像、上下文等等。
- (ii)：一个 token merge 模块，它具有轻量级 InnerTransformers 和 hybrid attention 策略，从而降低平方复杂度。
- 以及 (iii)：一系列工程优化，包括 training with mixed-precision and activation recomputation 、KV cache serving ，以及 fully synchronous model training and serving framework 用于 GPU-based dense and sparse parameter updates。
LONGER 在 ByteDance 的广告和电子商务服务中的离线指标和 online A/B testing 中均持续优于 strong baselines，验证了其一致的有效性和工业级别的 scaling laws。目前，LONGER 已在 ByteDance 数十个有影响力的现实场景中得到验证并全面部署，服务于数十亿用户。
在推荐系统中，超长的用户历史行为序列（user historical behavior sequencessequential modeling $10^{2}-10^{3}$ fully modeling $>10^{3}$ ）对于推荐准确性和多样性具有显著好处，并有助于缓解信息茧房现象。然而，由于计算限制，当前工业界对于长序列建模的 “事实上的” 实践主要采用以下策略：
- Two-stage retrieval：从原始超长序列中选择与当前 candidate itemtop-k items $k$ $10^{2}$ ），然后进行端到端的短序列建模（short sequence modeling）。最具代表性的工作包括 SIM 和 TWIN。
- Pre-trained User Embeddings：在工业界，通常的做法是在 source model 中预训练整个超长序列并导出一个 condensed user embedding: UE ，然后可以将这个 user embedding 传输到下游 recommendationGPU $10^{3}$ 的序列和 multiple-layered transformers 进行预训练。
- Memory-augmented Models：
  - multi-channeluserinterest memory network: MIMN 提供了一种基于神经图灵机（neural Turing machine ）和记忆归纳单元（memory induction unit）的结构用于 user sequence memorizing。
  - 而 large memory network: LMN （《Large Memory Network for Recommendation》）提出了一种基于 product quantization-based decomposition 的轻量级结构。
  - memory augmented recommenda- tion model: MARM（《MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity》）提出了一种 memory-for-computation trade-off 的范式，它缓存了计算密集型模块的中间结果。
虽然这些策略显著提高了计算效率，但由于上下游不一致、或者对原始超长序列的间接感知等问题，它们不可避免地牺牲了原始完整序列信息，因此这些方法本质上是向 end-to-end long-sequence modeling 的演进提供了一个中间阶段。
最近，以 GPT 为代表的大语言模型的快速发展确立了 scaling laws ——这些经验法则预测了随着模型大小、数据量和计算量的增加而带来的性能提升。这些 scaling laws 最近指导了推荐系统的创新。例如：
- HSTU 由相同的 self-attention layers 堆叠而成，通过 residual connections 来连接，用于建模长序列，其性能优于普通 Transformer 架构。
- Wukong 开发了一种基于堆叠的 factorization machine block and linear compression block 的架构用于 interaction，并验证了 recommendation 中的 scaling laws。
与此同时，随着 computing 基础设施（例如，GPU FLOPs/Memory、工程化大规模计算平台和框架）的快速进步，令人兴奋的是，它使我们能够在工业级推荐系统中开创一种端到端的超长序列建模（ultra-long sequence modeling）范式。因此，推进超长序列的端到端建模，同时持续扩展序列长度并改进长序列建模的架构，代表了下一代序列建模框架的关键要务。
为此，我们提出了 Long-sequence Optimized traNsformer for GPU-Efficient Recommenders: LONGER。在该框架中，我们将 sequence input 组织为 global tokens（来自于 non-sequence features）和 raw sequences（来自于 sequence features），基于此，开发了一种基于 inner-transformer 的 token merge 方法，以有效减少计算预算。此外，由于用户的超长序列中通常存在大量噪声，我们利用高效的 hybrid attention 策略来提高计算效率，同时保持模型性能。此外，为了在拥有十亿用户规模的 industrial level 全面部署 LONGER，我们提出了一系列工程优化，包括 a fully synchronous training and serving framework with mixed-precision and activation recomputation，以及 a KV cache serving strategy。总的来说，贡献主要总结如下：
- 我们提出了 long-sequence optimized transformer structure for GPU-efficient recommenders: LONGER。它通过优化 Transformer 结构，提供了一个工业级 GPU-efficient 的视角，并在工业界以端到端方式将用户序列建模长度扩展到10,000。
- LONGER 通过 token merge 和 hybrid attention 策略充分提高了计算效率，这减少了约 50% 的 FLOPs，并经验证在性能上几乎无损。此外，设计了一个 fully-optimized industrial training and serving framework，以进一步提高 GPU 计算效率和在线部署。
- 进行了全面的实验来验证其有效性。在十亿规模的工业数据集上进行了离线实验，并在抖音的两个有影响力的业务场景上进行了 online A/B tests 以验证其性能。目前，LONGER 已在 ByteDance 数十个场景中得到广泛应用，影响着数十亿用户。

1.1 相关工作

传统的 Short-Sequence Modeling：迄今为止，工业界的推荐系统主要遵循 sequence modeling 和 feature interaction 相结合的 modeling 范式。在该框架内，sequence modeling 长期以来在描绘用户偏好方面扮演着关键角色。
在广泛的研究中，一个关键的里程碑是 DIN。随后的方法包括 DIEN、CAN 等。此外，multi-domain 、multi-interest 和 sequence denoising 被广泛用于从不同方面建模用户偏好。值得注意的是，大多数此类精心设计的结构是为 short sequence modeling 开发的，而 long sequence modeling 方法后来吸引了越来越多的研究关注。
Long-Sequence Modeling：正如引言章节中讨论的， long sequence modeling 方法通常可以分为 two-stage retrieval、pre-trained user embedding 和 memory-augmented models 。总体而言，retrieval-based 方法和 pre-trained 方法属于两阶段策略，而 memory-enhanced models 通常需要较长的训练周期来积累 memory slots 中的命中率。
最近，一些努力致力于直接建模长序列（《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》、《Scaling law of large sequential recommendation models》、《Scaling Sequential Recommendation Models with Transformers》）。然而，在大规模工业推荐系统中，GPU-efficient long sequence modeling 仍然探索不足。

1.2 方法论

Problem Statement $\mathcal{U}$ $\mathcal{I}$ 分别表示 useritem $u\in\mathcal{U}$ $u$ $\mathcal S_{u}=\left[i_{1}^{(u)},\cdots,i_{L}^{(u)}\right]$ $i_{t}^{(u)}\in\mathcal{I}$ $L$ $1\le t\le L$ $u$ basic $\mathbf u_{d}$ target item $v\in\mathcal{I}$ ， recommendation 任务旨在预测点击率或转化率：
$P (y = 1 ∣ S_{u}, u_{d}, v) \in [0, 1]$
$y\in\{0,1\}$ $u$ $v$ 交互。
historical interaction $\mathcal{D}=\{(\mathcal S_{u},\mathbf u_{d},v,y)\}$ 来学习这个映射，通过优化二元交叉熵损失来学习：
$L = - \frac{1}{| D |} \sum_{(S_{u}, u_{d}, v, y) \in D} [y \log \hat{y} + (1 - y) \log (1 - \hat{y})]$
$\hat{y}=f_\theta(\mathcal S_{u}, \mathbf u_d, v)$ $f_\theta(\cdot)$ $\theta$ 为模型参数。

1.2.1 整体框架

我们提出的框架旨在解决推荐系统中建模 long and complex user behavior sequences 的挑战，同时保持工业规模的训练和推理效率。Figure 1 展示了我们提出的模型 LONGER 的整体架构。该框架集成了 input generation 、token merge、hybrid attention 机制以及 training-serving optimizations ，以实现高效且可扩展的 long-sequence modeling 。
- 首先，我们通过引入 Global Tokens 来 enhance 模型的 input structure，这些 Global Tokens 充当 aggregated anchor representations （例如，target item representation 、user ID (UID) embedding）以促进 global information fusion 并稳定 attention distributions。
- 接下来，我们应用 Token Merge 来压缩 long behavior sequences ，降低计算复杂度，同时保留必要的 local patterns。
- 为了进一步保留组内依赖关系（intra-group dependencies），我们引入了 InnerTrans，一个轻量级的 inner transformer 应用于 merged token segments 上。
核心模型架构（在 LONGER Model Structure 章节中描述）采用了一种 hybrid attention 设计，结合了 cross causal-attention layers （以强调序列的显著部分 salient parts ）和 stacked self causal-attention （以捕获序列上的高阶依赖关系）。
注意：
- 这里的 user sequence 按照 “逆时序存储”。即，前面的 engagement 是最近的、后面的 engagement 是最远的。
- 在获得 a list of tokens 之后，需要经过一个 MLP 投影，从而投影到公共子空间。
- 在 Cross Causal Attention，Querynon-sequence tokens $k$ 个 sequence tokens。
- Token merge $L$ $L/K$ Cross Causal Attention $k$ 个 engagements 、以及 no-sequence tokens 作为 query。
为了确保 scalability 和部署可行性，我们整合了几个工程系统级别的优化。
- 该框架在超大规模 GPU 集群上提供 fully synchronous training and serving with unified dense and sparse parameter storage 。
- 我们通过 Mixed Precision Training and Recompute 进一步提高了内存和计算效率，实现了 activation memory 减少和 customized numerical precision。
- 最后，在 inference 过程中，我们部署了 KV Cache Serving strategy ，该策略缓存 user sequence rep-resentations 并在 candidate scoring 中重复使用它们，显著减少了冗余计算。
所有这些组件共同形成了一个连贯的系统，支持具有高表达能力和高效率的 long-sequence modeling，并且可以轻松部署在大规模现实世界推荐场景中。

1.2.2 Global Tokens

我们引入 Global Tokens 作为 auxiliary representations ，拼接到 input sequence ，从而促进 global information extraction and anchoring。这些 tokens 可以包括 target item representation tokens、learnable CLS tokens、UID embeddings 、以及 high-order compressed user–item interaction features。通过设计，global tokens 拥有 full attention receptive field，允许它们聚合来自整个序列的 contextual signals，同时也影响所有其他 sequence tokens。
这种 architectural augmentation 有两个主要目的：
- 首先，global tokens 作为 centralized information anchors，能够增强 user history、contextual attributes 和candidate items 之间的 feature interactions。
- 其次，它们稳定了长序列中的 attention dynamics，特别是在 sparse attention configurations 下。如 StreamLLM （《Efficient Streaming Language Models with Attention Sinks》）所示，引入少量 global tokens 可以缓解"注意力汇聚"效应（"attention sink" effect），即 deeper attention layers 不成比例地关注 early tokens。这些 tokens 充当 anchor points ，保持 attention diversity 并保留 long-range dependency modeling。
其实 global tokens 就是除了 user sequence 以外的其它特征。包括：user ID、target item ID、learnable CSL tokens、user-item 历史统计的交叉特征等等。

1.2.3 Token Merge

$L$ $d$ 为 embedding 维度。使用普通 Transformerlong behavior sequences $L\geq 2000$ $O(L^{2}d)$ $L\gg d$ $L=2000$ $d=32$ ）。传统的解决方案如序列截断（sequence truncation ）会导致 long-range dependencies 的丢失。
为了解决这个问题，我们提出了一种 Token Merge 策略，该策略将相邻的 tokensrepresentational fidelity $K$ 倍，有效地执行了空间压缩。grouped token representations 可以通过简单的 concatenation 形成，或者通过 intra-group interactions （利用轻量级 InnerTrans blocks）来进一步增强。这种设计在效率和表达能力之间提供了灵活的权衡，保留了 local semantics ，同时支持在 shorter sequence 上进行 global modeling。
Token Mergeuser sequence $L/K$ $K$ 个 items ，组与组之间不重叠；然后计算每一组的 representation；然后用 group representation 来进行后续的 Transformer layer 。
如何计算 group representation？
- $K$ 个 itemsembeddings $K\times d$ $d$ 维，得到 group representation 。
- InnerTrans $K$ 个 items 的 embeddings 馈入一个 InnerTranstransformer $K$ 个 output 进行聚合（如，均值池化、最大池化）从而得到 group representation 。
给定一个标准结构的 Transformer encoder layer ，FLOPs 和参数量可以表示为（《Efficient large-scale language model training on gpu clusters using megatron-lm》）：
$\begin{matrix} {FLOPs}_{vanilla trans} = 24 L d^{2} + 4 L^{2} d \\ {Params}_{vanilla trans} = 12 d^{2} + 13 d \end{matrix}$
- Computational Complexity：token merge 前后的注意力复杂度之比为：
  $\frac{{FLOPs}_{Merge Token}}{{FLOPs}_{vanilla trans}} = \frac{24 L d^{2} K + 4 L^{2} d / K}{24 L d^{2} + 4 L^{2} d} = \frac{6 d K + 1 / K}{6 d + L}$
  $24(L/K)(dK)^2 + 4(L/K)^2(dK) = 24Ld^2K + 4L^2d/K$ 。
  $L=2048$ $d=32$ ：
  - Vanilla Transformer $\text{FLOPs}\approx 587\text{M}$ 。
  - Merging $K=4$ $\text{FLOPs}\approx 336\text{M}$ （减少 42.8%)。
- Parameter Expansiontoken merging $\Theta_{\text{merge}}$ ，从而提高了效率和模型的表达能力，有利于整体模型性能。
  $Θ_{merge} = 12 K^{2} d^{2} + 13 K d$
- InnerTrans：为了将多个 adjacent tokens 合并为一个，组内 tokens 的简单拼接可能导致 tokens 之间的 interaction 不足，可能丢失细粒度细节。为了解决这个问题，我们引入了 InnerTrans，它在每个 token group 内应用一个 Transformer 以实现 local interactions。这种方法确保每个组内的 interactions 被有效捕获，而不会出现 direct concatenation 通常发生的 information loss。由于维度非常小且序列长度短，InnerTrans 的计算预算在实践中非常有限。
  InnerTrans 是什么结构？读者猜测是一个 Self-Attention 结构。
  ${\vec{c}}_{i} = TransformerBlock ([{\vec{e}}_{i}^{1}, \dots, {\vec{e}}_{i}^{K}])$
  $\mathbf {\vec c}_{i}$ $i$ representation $\mathbf{\vec e}^{k}_{i}$ $i$ $k$ 个 item embedding。
  TransformerBlock 是将这些 embeddingsTransformer layer $K$ 个 output 进行聚合（均值池化、或者最大池化）。
  根据论文的 Figure 1，InnerTrans 包含了 residual connection。但是，这里的公式并未包含 residual connection。读者猜测，论文应该是采用了 InnerTrans 和 “简单拼接”这两种方式：
  ${\vec{c}}_{i} = TransformerBlock ([{\vec{e}}_{i}^{1}, \dots, {\vec{e}}_{i}^{K}]) + Proj (Concat ([{\vec{e}}_{i}^{1}, \dots, {\vec{e}}_{i}^{K}]))$
  Proj $(Kd)$ $d$ 维。
  或者：直接是一个标准的 Transformer Layer：self-attention -> residual and LN -> FFN -> residual and LN 。

1.2.4 LONGER Model Structure

在我们的模型架构中，我们使用一种 hybrid attention 机制，该机制结合了 cross-attention layers 和 self-attention layers，以高效处理 input sequences。
Input Generation：模型的输入包括两个主要部分：global tokens 和 sequence tokens。global tokens ，代表 contextual information （如前面章节讨论的 target item features 和 user ID），与 sequence tokens 拼接起来以形成 input。
为了更好地捕获 user behavior sequences 中的时间动态（temporal dynamics ），我们用额外的 positional side information 来增强 sequence tokens 。具体来说，我们结合了两种形式的 positional encoding ：
- (1)：一个 absolute time-difference feature，用于量化每个 user interaction 与 target item 的时间距离，作为 side information 并拼接到每个 item embedding 。
  注意：针对这个特征，没有 feature embedding，而是这个 feature 直接使用。
  另外，这个特征是否需要归一化？作者并未说明。读者认为：需要归一化。
- (2)：一个可学习的 absolute positional embedding，用于编码每个 token 在序列中的位置，该 embedding 被 add 到 item embedding 中。
在 position encoding 之后，生成的 tokens 通过一个多层感知机（multi-layer perceptron: MLPinput representations $\mathbf{R}\in\mathbb{R}^{(m+L)\times d}=\left[\mathbf{G}\in\mathbb{R}^{m\times d };\mathbf{H}\in\mathbb{R}^{L\times d}\right]$ $\mathbf{G}$ $\mathbf{H}$ 分别表示 global token representations 和 sequence token representationsquery matrix $\mathbf{O}$ $m$ global tokens $\mathbf{G}\in\mathbb{R}^{m\times d}$ $k$ sampled sequence tokens $\mathbf{H}_{S}\in\mathbb{R}^{k\times d}$ 来构建，这些 sampled sequence tokensfull sequence tokens $\mathbf{H}$ 中选择的。类似的 query compression 也在其他研究领域中被探索过，例如 Perceiver（《Perceiver: General perception with iterative attention》）和 Q-Former（《Blip-2:Bootstrapping language-image pre-training with frozen image encoders and large language models》），它们采用一个 learnable token strategy 进行压缩。在实验中，我们全面比较了不同的策略，包括取 most recent k tokens 或 uniformly sampled tokens ，或 initialize k learnable tokens ，并发现 most recent k tokens提供了最好的结果。这种 hybrid attention 设计也受到以下观察的推动：模型性能在 sequence tokens 数量方面表现出强烈的边际效应：仅采样完整序列的 40% 就能保留超过 95% 的性能提升，同时减少约 50% 的 FLOPs（见实验章节）。然后，composite query 构造如下：
$O = [G; H_{S}]$
这种 hybrid 设计将 attention 集中在关键的 local behaviors 和 global contextual signals 上，使模型能够有效地捕获 specific sequence dependencies 和 broader contextual information。
由于 user sequencemost recent k tokens $k$ 个 tokens 。
Cross-Causal Attention (First Layer)：在第一个 attention layerquery matrix $\mathbf{O}$ input tokens $\mathbf{R}\in\mathbb{R}^{(m+L)\times d}$ 应用 cross-causal attention 。cross-causal attention 机制计算如下：
$\begin{matrix} Q = O W_{Q}, K = R W_{K}, V = R W_{V} \\ Attention (Q, K, V) = softmax (\frac{Q K^{⊤}}{\sqrt{d}} + M) V \in R^{(m + k) \times d} \end{matrix}$
其中：
- $\mathbf{W}_Q,\mathbf{W}_K,\mathbf{W}_V\in \mathbb R^{d\times d}$ 代表 query, key, value 投影矩阵。
  一种改进方法是采用类似于 FAT 或者 Hiformer 中的思想：对 No-sequence features 中的 fields 采用 field-specific projection （这也是 OneTrans 论文中所用到的主要思想）。
- $\mathbf{M}$ 为掩码矩阵，定义如下：
  $\begin{matrix} M_{i, j} = {\begin{cases} 0, & if j \geq i \\ - \infty, & otherwise \end{cases} \end{matrix}$
  $i,j \in [1, m+L]$ 。
  user sequence $j\ge i$ 代表仅考虑当前位置以及过去的位置，剔除了未来的位置。
causal mask 设计，一方面，保持了 sequence items 之间的时间相关性。另一方面，它确保了从 sequence 到 candidate item 的不可见性，从而实现了 KV Cache Serving 机制。计算 attention 后，结果通过一个 feed-forward network: FFN 进行进一步处理。
Cross-Causal Attention (First Layer) $k=L$ 的时候效果最好，因为保留所有信息。
Self-Causal Attention (Subsequent Layers)：在 cross-causal attention layer 之后，后续层由几个 self-causal attention blocks 组成。这些层专注于学习 sampled tokens sequence 内的内部关系（internal relationships），允许模型捕获行为 behavior sequence 的 tokens 之间的依赖关系和模式。每个 self-causal attention layer 后面都有一个 FFN，这有助于进一步处理 attention 机制学到的信息。
self-causal attention 机制使用类似的公式计算：
$SelfAttention (Q, K, V) = softmax (\frac{Q K^{⊤}}{\sqrt{d}} + M) V$
query $\mathbf Q$ key $\mathbf K$ value $\mathbf V$ $\mathbf{W}_Q,\mathbf W_K, \mathbf W_V$ 应用于前一层的 output 而得到的。
为什么要用两种类型的 Attention？
- Cross-Causal Attention 解决 “跨源定向关联” 问题 —— 当存在明确的 Query（即，target item ）与 Key/Value（信息源）时，用于筛选与 target 相关的信息，同时排除未来泄露和噪音，核心是 “精准匹配”。类似于 DIN，只是这里的 query 是一组向量而不是 target item embedding 。
  tokens $(m+L)$ $(m + k)$ 。
- Self-Causal Attention：解决 “单一序列内部时序连贯” 问题 —— 当需捕捉序列内的长程依赖（如用户历史的行为）时，用于建立内部因果链，核心是 “时序一致”。
Stacking and Compressionself-causal attention layers $N$ 次以迭代地 refine 了 input sequence 的 representations 。在通过这些层之后，模型产生一个 compressed output，它代表了 attention 机制的 final output。然后这个 output 被用于下游 prediction 任务。
$\underset{compress long sequence}{\underset{⏟}{CrossAttn (O, R)}} ⟶ \underset{high-order interactions}{\underset{⏟}{SelfAttn (\cdot) \times N}}$
通过在第一层使用 cross-attention 和在后续层使用 self-attention 的组合，我们的模型能够高效处理长序列，同时利用 global context 和 internal dependencies 。
后续还有 High-Level MLP Layers 、以及 Predictions Layer 。

1.2.5 Training and Deployment Optimization

Training Framework：我们的训练框架是一个为 large-scale sparse models 设计的全同步系统（fully synchronous system），旨在利用现代高性能 GPU 的能力。基于硬件--软件协同设计（hardware–software co-design）的理念，它旨在最大化distributed training 中的计算吞吐量和内存效率。training pipeline 始于 batch form 或 streaming form 的数据摄入，然后通过 Fountain 模块进行预处理。处理后的 training data 随后被分发到多个 GPU runners，在那里 dense parameters 和 sparse parameters 都被同步地更新。这种 unified design 促进了跨 devices 和 nodes 的有效 scaling，为在生产环境中训练 large-parameter models 提供了坚实的基础。
该框架的一个定义性特性（defining characteristic）是 unified parameter storage and training architecture。dense parameters 和 sparse parameters都被同步地存储和同步地更新在 GPU 机器上，消除了对外部 Parameter Server 组件的需求。为了更好地适应推荐系统中的 feature distribution patterns，该框架采用了 hierarchical memory system 用于 sparse embedding，从而有效支持 large embedding tables。在这种设计中，高频特征存储在高带宽的 GPU 内存（HBM）中，中频特征驻留在 CPU 主内存（MEM）中，低频特征被卸载到本地固态硬盘（SSD）上。这种分层存储布局（stratified storage layout ）经过优化以匹配 recommendation 数据的访问特性（access characteristics ），在 latency、吞吐量、容量之间提供了 practical trade-off。核心创新在于将 computation 和 parameter storage 完全共置于 GPU 机器上，从而减少了通信开销和 memory transfer latency。这带来了 training throughput 的提高、陈旧度（staleness）的降低、以及收敛稳定性（convergence stability ）的增强。
Mixed Precision Training and Recompute：为了缓解训练期间的 GPU 内存压力，我们采用了重计算（ recompute）策略以及混合精度训练（mixed precision training）。
- 对于 gradient computation，我们使用反向模式自动微分（reverse-mode automatic differentiation ），这比前向模式（forward-mode）更高效，但需要存储前向传递（forward pass ）中的所有 intermediate activations 。这些 activations 可能成为主要的 memory bottleneck 。为了解决这个问题，我们支持在 model definition level 进行重计算声明（recomputing declarations），允许在 forward pass 期间丢弃 selected activations ，并在 backward pass 期间重新计算它们。这用 computation 换取了内存节省。由于原生 TensorFlow 不提供对 recomputation 的官方支持，我们使用 custom_gradient 机制实现它，通过 code-level annotations 实现细粒度控制。
- 此外，为了减少由 dense model scaling 引起的计算开销，我们采用基于 BF16/FP16 的混合精度训练。用户可以在 model level来配置精度，对关键组件应用更高精度，对其他部分应用较低精度。这种方法在 production 工作负载中显示出显著的好处，包括平均 +18% 吞吐量、-16% 训练时间和 -18% 内存使用，在 dense layers 中内存减少高达 -28%。
KV Cache Serving：为了提高在 scoring multiple candidates 时的 inference 效率，受 M-FALCON 启发，我们引入了一种 KV caching 机制，该机制解耦了 user behavior tokens 和 candidate-specific global token 之间的注意力计算。由于 user sequence 在 candidates 之间保持不变，其 internal representation 可以计算一次并重复使用。
具体来说，我们将 attention input 分为两部分：user sequence tokens 、与 candidate item 的 global token 。用户序列的key and value projections 被预计算并缓存。对于每个 candidate ，仅计算其 global token 与 cached user sequence 之间的注意力。这导致了一个两阶段的推理过程：
- 预计算并缓存 key-value tensors of the user sequence。
- 计算每个 candidate 的 global token 与 cached user sequence 之间的注意力。
如 Figure 3 所示，这种优化避免了冗余计算并显著降低了 serving latencyonline serving $-40\%$ $-6.8\%$ 。

1.3 实验

数据集：我们在抖音广告系统中的转化率（Conversion Rate: CVR）prediction 任务上评估我们的模型，这是一个真实世界、大规模工业广告推荐场景。该数据集构建自 2024-10-16 至 2025-02-23 期间收集的在线用户交互日志子集，包含 130 个连续天的 5.2B 样本。每个样本包括用户人口统计特征，如 user ID: UID、性别、超长用户行为序列、以及一个 candidate ad item。用户行为序列包含各种交互类型，包括 page views 、clicks 和 conversions；而 item-side features 涵盖广告内容、display context 、和相关的元数据。
我们采用时间一致的 data split 策略：前 123 天用于训练，剩余 7 天保留用于离线评估。这种设置与现实世界部署实践一致，并有效防止模型在开发期间泄漏未来数据。
baselines：为了进行比较，我们根据其建模短期用户行为序列或长期用户行为序列的能力，将我们的模型与几个强基线进行比较。
- 短期用户行为序列方法，包括 TWIN 和 DIN（Recent50），它们依赖于 50 次交互。
- 长期用户行为序列方法，包括 SumPooling、DIN、HSTU 和 Transformer，处理扩展的行为历史，这些方法在工业环境中常常面临 scalability 和效率问题。
所有模型都使用相同的预处理 pipeline 和 hyperparameter tuning 进行训练，实验在 48 x A100s GPU 集群上进行。

1.3.1 实验结果

现有方法比较：我们使用推荐系统中二分类的两个标准指标：AUC (Area Under the ROC Curve) 和 LogLoss，在 offline evaluation set 上报告模型性能。Table 1 总结了多个基线和我们提出的模型的结果。
根据该表，我们的模型优于所有基线，实现了 0.85290 的 AUC 和 0.47103 的 LogLoss；与 base model 相比，AUC 相对提高了 1.57%，并且与最具竞争力的模型（即 Transformer）相比，AUC 提高了 0.21%。值得注意的是，在工业案例中，0.1% 的改进被认为是一个可以影响 online A/B test 性能的显著改进。
此外，与普通 Transformer 相比，所提出的模型还表现出显著更高的效率（见后续章节）。这一改进证明了我们的方法在捕获 long-range behavior dependencies 并且同时保持计算效率方面的有效性。
base 模型是什么？作者并未说明。这个 base 模型甚至要比 SumPooling 更差。读者猜测是：不包含用户行为序列的一个 DNN 模型。
消融研究：Table 2 展示了关于 LONGER 中关键组件和 query-related configurations 的消融研究。
- 我们首先检查了 TokenMerge 模块和 InnerTrans 组件的影响。
  - 与 base model without merging 相比，集成 TokenMerge (Concat, 250)FLOPs $3.73\times 10^{9}$ $3.03\times 10^{9}$ ，同时将 AUC 提高了 0.22%，并将 LogLoss 降低了 0.48%。
  - 进一步结合 InnerTrans 带来了额外的增益，实现了 0.47052 的最佳overall LogLoss 和 1.63% 的 AUC 改进。
- 接下来，我们改变用于 summarize recent user behaviorsqueries $k$ ）。结果表明：
  - $k$ 通常会提高性能，但也会增加计算量。
  - 值得注意的是，使用 100 queries 实现了强有力的权衡，AUC 为 0.85290，LogLoss 为 0.47103all queries $k=250$ ）时获得的性能，但仅使用其 54% 的 FLOPs。此设置在 Table 2 中以粗体突出显示，显示了其在 computational budgets 至关重要的现实世界部署中的实用性。
- 最后，我们比较了不同的 query selection 策略。这些策略可以看作是 query set 的不同初始化方法。
  - 其中，使用 learnable queries（随机初始化）表现最差（AUC = 0.84946 ）。
  - 相比之下，直接选择 most recent 100 user behaviors（Recent 100 ）实现了最佳的整体性能。
  - 其他策略，如均匀采样（uniform sampling）或 combining recent and uniformly sampled items ，产生略低的 AUC 和较高的 LogLoss。
  这些发现表明，使用 informative behaviors ——特别是最近的行为——初始化 queries 对于在 long-sequence modeling 中有效捕获 user intent 至关重要。
总体而言，消融研究证实了 architectural enhancements（例如，TokenMerge、InnerTrans）和 query-related 策略（例如，query number 和 selection method ）在平衡准确性和效率方面都起着关键作用。研究结果验证了 LONGER 通过精心设计其关键组件和 behavior modeling pipeline，可以在降低计算成本的同时实现强大的性能。这种配置使我们的方法非常适合于 large-scale industrial deployment ，其中 low-latency inference 和系统吞吐量至关重要。

1.3.2 Scaling 分析

在本节中，我们展示了模型性能相对于 sequence length、FLOPs 和 parameters 数量的 scaling 分析。这些因素的扩展行为遵循一般形式：
$y = α x^{β} + γ$
其中：
- $y$ 代表性能指标（AUC 和 LogLoss）。
- $x$ 代表 scaling factor（ sequence length、FLOPs 、或 parameters）。
- $\alpha$ $\beta$ $\gamma$ 代表 constant offset 。
Sequence Length：我们分析了在不同 model depths 下，性能如何随 input sequence length 来 scale 。如 Figure 4 所示：
- 增加 tokens 数量持续提高 AUC 并降低 LogLoss，遵循幂律趋势（power-law trend）。
- Deeper models 从 longer sequences 中受益更多，但 AUC 的改善随 depth 增加而减慢，表明收益递减。optimal depth 应平衡 model capacity 和 computational constraints 。
总体而言，longer sequences 增强了性能，特别是与适当选择的 depth 进行配对时。超过一定 depth 后，进一步的增益是微乎其微的。
序列长度翻倍大致能带来 0.1% 的 AUC 提升。
Parameters：我们通过 scaling hid- den dimension size 来评估模型容量（model capacity ），同时将层数固定为 2，输入序列长度固定为 2000。如 Figure 5(a) 所示，AUC 随着 parameterpower-law $R^{2}=0.987$ ）。这些结果表明，在固定架构下，增加模型 width 有效地增强了性能，并且在当前参数范围内没有饱和迹象。
参数量翻 10 倍大致能带来 0.3% 的 AUC 提升。
FLOPs：我们通过改变 number of layers 和 sequence length 来分析模型性能，同时将模型维度固定为 32。如 Figure 5(b) 所示，AUC 随着 FLOPspower-law $R^{2}=0.967$ ）。这表明增加计算资源使模型能够处理更长或更复杂的 user behavior sequences ，捕获更高阶的依赖关系并提高预测准确性，即使在固定模型 width 下也是如此。
这些结果表明：增加计算资源是提高性能的有效方法，但 efficiency gain 应与现实世界系统中通常遇到的 computational constraints 和 memory constraints 相平衡。

1.3.3 Online A/B Tests

在本节中，我们展示了 online A/B tests 的结果，这些测试旨在评估所提出模型在 Douyin Ads 和 Douyin E-Commerce Platforms 这两个非常有影响力的商业平台内的真实场景中的有效性，这两个平台都吸引了数十亿用户。这些场景中的 baseline 模型已经相当强大，使得观察到的改进更加显著。双领域测试（dual-domain testing ）使我们能够评估模型在广告和电商环境中的泛化能力，这两个环境是平台生态系统的关键组成部分。
Douyin Ads Platform：本节展示了Douyin Ads 上 A/B test 的结果，我们使用两个关键指标评估我们模型的性能：ADSS (Advertiser Score) 和 ADVV (Advertiser Value)，这两个指标是工业广告系统中最重要的指标。测试在三种广告格式上进行：直播（Live Streaming）、短视频（Short Video ）和商城（Mall ）。
ADSS 可能是点击率或者转化率之类的指标，ADVV 可能是 CPC 或者 CPM 之类的指标。
- 对于直播，模型在 ADSS 上实现了 1.063% 的改进，在 ADVV 上实现了 1.168% 的改进。
- 对于短视频，ADSS 增加了 2.097%，而 ADVV 显示出 2.151% 的改进。
- 对于商城，ADSS 提高了 1.816%，ADVV 增加了 1.407%。
这些结果证实了该模型在所有广告格式上都能有效提升性能，并带来一致的改进。
Douyin E-Commerce Service：对于 Douyin E-Commerce 上的 A/B test，我们使用两个关键指标评估不同内容格式的有效性：Order/U （每用户的订单数）和 GMV/U （每用户的 GMV）。这些指标帮助我们理解模型不仅对总销售额的影响，还对 user-level engagement 和 user-level value generation 的影响。结果显示两个指标均有显著改善。
- 对于直播，Order/U 增加了 7.9222%，GMV/U 提升了 6.5404%，表明直播内容对 orders per user 和 value generated per user 都有强烈的积极影响。
- 对于短视频，Order/U 改善了 4.6125%，GMV/U 增加了 5.2771%，证明了短视频内容在提升 overall sales per user 方面的有效性。
这些结果突出了两种广告格式的显著影响，其中直播在 Order/U 和 GMV/U 方面显示出明显更大的改进。

1.4 结论

在本文中，我们提出了 LONGER，一个基于 Transformer 的框架，旨在工业推荐系统中实现高效且 scalable 的超长 user behavior sequences 的建模。通过：
- 引入一系列架构设计，包括 global tokens、token merge with InnerTrans、hybrid causal attention；
- 引入系统级优化，包括 GPU-synchronous framework、mixed-precision and recomputation training 、以及 KV cache serving 。
LONGER 能够在现实世界工业级约束下实现端到端的超长序列建模。在工业十亿规模数据集上的广泛实验以及跨广告和电商领域的 online A/B tests 验证了其在十亿用户工业规模下的鲁棒性和泛化能力。值得注意的是，LONGER 在显著降低计算开销的同时实现了有竞争力的准确性，使其非常适合在 latency-sensitive production environments 中部署。未来的工作包括研究更高效的序列建模技术以及改进工业中的 cross-domain behavior modeling 。