2025_GPSD

一、GPSD [2025]

《Scaling Transformers for Discriminative Recommendation via Generative Pretraining》

判别式推荐（discriminative recommendation）任务，如点击率（click-through rate: CTR）和转化率（conversion rate: CVR）预测，在大规模工业推荐系统的 ranking 阶段发挥着关键作用。然而，训练判别式模型（discriminative model）遇到了由 data sparsity 引起的严重过拟合问题。此外，这种过拟合问题随着模型变大而加剧，导致大模型的表现不如小模型。为了解决过拟合问题并增强模型的 scalability ，我们提出了一个名为 Generative Pretraining for Scalable Discriminative Recommendation: GPSD 的框架，该框架从 generative training 中汲取灵感，而 generative training 没有表现出明显的过拟合迹象。GPSD 利用从 pretrained generative model 学到的参数来初始化判别式模型，随后应用 sparse parameter freezing 策略。在工业数据集和公开数据集上进行的大量实验证明了 GPSD 的优越性能。此外，它在在线 A/B 测试中带来了显著的改进。GPSD 提供了两个主要优势：
- 1)：它显著缩小了模型训练中的泛化差距（generalization gap），从而获得更好的测试性能。
- 2)：它利用了 Transformer 的 scalability，在模型 scale up 时提供一致的性能提升。具体来说，我们观察到随着 model dense parameters 从 13K 扩展到 0.3B，性能持续提升，紧密遵循 power laws。
这些发现为统一推荐模型和语言模型的架构铺平了道路，使得在大型语言模型中成熟的技术能够直接应用于推荐模型。
大多数工业推荐系统遵循 a multistage pipeline，其中 candidate retrieval 阶段和 ranking 阶段最为关键。
- candidate retrieval 阶段的目标是从庞大的 item pool 中检索大量 items （从十到数万）。
- 相比之下，ranking 阶段旨在从 candidates 中选出最可能使用户感兴趣的有限的 item 集合（几十个）。
ranking 模型通常是判别式的，并在曝光给用户的 items 上进行训练，估计如 click-through rate: CTR 和 conversion rate: CVR 等 engagement 指标。这些指标随后被聚合以确定 final recommendation list。这两个阶段对应两类模型：生成式模型（generative models）和判别式模型（discriminative models）。
在本文中，我们专注于训练用于推荐的判别式模型。为了获得优越的判别式模型，一个自然的方法是利用强大的 Transformer 架构来编码 user behavior items。Transformer 采用多个 stacked attention and feed-forward layers，显著增强了其建模能力，在语言和视觉领域都取得了显著的成功。此外，Transformer 架构展现了强大的 scalability，scaling laws 的发现构成了大型语言模型成功的基础。
然而，训练 Transformer-based 的判别式推荐模型面临挑战。尽管先前的工作（《Behavior sequence transformer for e-commerce recommendation in alibaba》、《Self-supervised learning on users’ spontaneous behaviors for multi-scenario ranking in e-commerce》、《Deep multifaceted transformers for multi-objective ranking in large-scale e-commerce recommender systems》）将类似的 Transformer 架构应用于判别式任务，但它们的模型尺寸非常小，仅使用单层。它们都没有成功利用 Transformer 的 scalability。通过仔细检查整个训练过程中的指标（参见 Figure 1a），我们观察到一个显著的 generalization gap，这是过拟合的明显迹象。更具体地说，有两种不同类型的过拟合现象。
- 第一种是在 epoch 切换时突然发生的过拟合，称为 one-epoch overfitting。《Towards understanding the overfitting phenomenon of deep click-through rate models》 首次研究了这一现象，并揭示 feature sparsity 是根本原因。
  解决方案：《Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction》 提出了 Multi-Epoch learning with Data Augmentation: MEDA。MEDA 在每轮 epoch 重初始化 Embedding，固定 MLP 继续训，multi-epoch 的效果显著超过 one epoch。
- 第二种过拟合更为微妙，它在第一个 epoch 内的 early step 开始，并持续整个训练过程。对应于 one-epoch overfitting，我们将此现象命名为 within-one-epoch overfitting。
过拟合问题严重阻碍了 Transformer-based 的判别式模型通过 scaling 模型尺寸获得更好性能的能力。如 Figure 1b 所示，模型规模与性能之间存在弱相关性，这与语言模型中观察到的 scaling law（《Scaling laws for neural language models》）形成鲜明对比。model scaling 的效果有限也在（《Understanding scaling laws for recommendation models》、《On the Embedding Collapse when Scaling up Recommendation Models》）中被观察到。
尽管 training discriminative recommendation models 面临严重的过拟合挑战，我们观察到自回归生成式模型（autoregressive generative models）并没有遭受这个问题。其中，自回归生成式模型使用 sampled softmax loss （《On using very large target vocabulary for neural machine translation》、《On the effectiveness of sampled softmax loss for item recommendation》）训练，基于 previous behavior items 来预测 next item。我们假设生成式训练（generative training）通过广泛的 random negative sampling 避免了 sparsity issue，从而导致 sparse parameters 更稳定的且更充分的训练。这种差异启发我们提出了一个名为 GPSD 的框架，它利用 generative pretraining 来处理 sparse parameters，同时在 discriminative training 期间仅专注于 dense parameters。我们的实验表明，该框架成功地解决了过拟合问题，并在多个工业数据集和公开数据集以及在线A/B 测试中实现了显著的性能提升。此外，在解决过拟合问题后，Transformer-based 的模型性能随着 dense parameters 从 13K 增加到 0.3B 而持续提升，遵循与语言模型（《Scaling laws for neural language models》）类似的且可预测的 scaling law。
这项工作的主要贡献如下：
- 我们重新审视了推荐模型中的过拟合现象，在工业规模数据集上展示了两种类型的过拟合。此外，我们强调了生成式模型和判别式模型在过拟合行为上的差异。
- 我们提出了一个名为 GPSD 的框架，该框架利用 generative pretraining 和 freezing sparse parameters 的策略，有效缓解了判别式模型中的过拟合。GPSD 在多个工业数据集和公共数据集上实现了显著的性能提升，并且在线实验中也取得了显著的收益。
- 我们将 Transformer 从 13K 扩展到 0.3B 的 dense parameters 用于大规模判别式任务，并观察到持续的性能提升，为判别式推荐建立了 scaling law。
GPSD 的原理就是：通过一个用于 pre-training 的生成式模型来得到 embedding table，然后将这个 embedding table 用于下游任务（并且冻结 embedding table）。这种 embedding 的迁移其实在其他工作中也有提到。

1.1 相关工作

Sequential Recommendation：Modeling user behavior sequence 是理解用户兴趣以预测潜在 prefered items 的关键，这对推荐系统至关重要。通常，这一主题有两类任务：retrieval 任务和 ranking 任务。
- retrieval 任务的目标是从大量 items 中选择与 user preferences 一致的一个子集。一种常见的方法是训练一个能够自回归地预测 next item 的模型，这类似于 autoregressive language modeling，使模型成为生成式模型。例如：
  - GRU4Rec （《Session-based Recommendations with Recurrent Neural Networks》）使用 GRU based RNNs 从而用于 next item prediction 。
  - Caser （《Personalized top-n sequential recommendation via convolutional sequence embedding》）利用 CNN 从而用于 next item prediction 。
  - SASRec（《Self-attentive sequential recommendation》）采用单向 Transformer 从而用于 next item prediction 。
  - 相比之下，BERT4Rec （《BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer》）利用双向 Transformer，将 masked item prediction 作为 next-item prediction 的辅助任务。
- 相反，ranking 任务涉及基于 user behavior items 为 candidate items 进行评分。排序模型通常在 collected user action log 上进行判别式训练，例如 click-through rate: CTR 预测。例如：
  - DIN （《Deep interest network for click-through rate prediction》）利用 target attention 机制来捕获 user behavior items 与 candidate items 之间的关系。
  - DIEN （《Deep interest evolution network for click-through rate prediction》）进一步采用 RNN 来捕获 user behavior item sequences 中的时间模式。
  - BST （《Behavior sequence transformer for e-commerce recommendation in alibaba》）和 DMT（《Deep multifaceted transformers for multi-objective ranking in large-scale e-commerce recommender systems》）利用 Transformer 对 user behavior item sequences 进行建模。
最近，《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》 提出了一个统一了 retrieval and ranking models 架构的生成式框架。然而，在他们的框架中，这些模型是独立训练的。相比之下，我们的框架桥接了 the training of retrieval and ranking models，解决了 training ranking models 时的 scalability 挑战。
Overfitting in Recommendation Models：基于 Embedding-MLP 架构的深度推荐模型在训练期间特别容易过拟合，因为存在大的 sparse embeddings。user-item interactions 的 sparsity 可能导致模型捕获噪声而非 underlying patterns，使得过拟合问题在推荐系统中至关重要。
尽管许多研究提出了花哨的架构来提升模型性能，但相对较少的工作直接应对过拟合挑战。
- 《Towards understanding the overfitting phenomenon of deep click-through rate models》 强调了在 CTR 模型中观察到的有趣的 one-epoch overfitting 现象，表明常用的正则化技术（如 dropout 和 weight decay）通常无法有效缓解这一问题。
- 随后，MEDA （《Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction》）通过在每个 training epoch 开始时重新初始化 embedding layer，成功缓解了 one-epoch overfitting 。
  与 MEDA 不同，我们借鉴了 generative training 的优势。除了 one-epoch overfitting ，我们提出的框架还解决了 within-one-epoch overfitting，将模型训练期间的 generalization gap 缩小到一个小的常数值。
- PeterRec（《Parameter-efficient transfer from sequential behaviors for user modeling and recommendation》）和 SRP4CTR（《Enhancing CTR Prediction through Sequential Recommendation Pretraining: Introducing the SRP4CTR Framework》）也通过 pretraining 方法提升了推荐任务的性能。然而，它们没有解决过拟合问题，也没有旨在 scale up 模型以进一步提升性能。
Scaling Recommendation Models：近期的研究（《Scaling laws for neural language models》）发现，基于 Transformer 架构的语言模型的性能可以随着模型规模和数据规模的 scaling 而稳定提升，甚至可以根据较小模型的结果通过 power laws 预测较大模型的性能。除了语言模型，类似的现象也在视觉模型（《Scaling vision transformers》）中被观察到。
然而，在推荐领域，parameter scaling 似乎效果不佳，特别是在判别式任务中，严重的过拟合问题会出现。
- 例如，BST（《Behavior sequence transformer for e-commerce recommendation in alibaba》）使用 Transformer 来编码 user sequence，报告了单层 Transformer 的最佳结果。
- DMT （《Deep multifaceted transformers for multi-objective ranking in large-scale e-commerce recommender systems》）和 ZEUS（《Self-supervised learning on users’ spontaneous behaviors for multi-scenario ranking in e-commerce》）也支持这一点，两者都采用单层 Transformer。
- 《Understanding scaling laws for recommendation models》得出结论，在推荐领域，parameter scaling 正在失去动力，对性能提升贡献不大。
- 《On the Embedding Collapse when Scaling up Recommendation Models》也指出了推荐系统中的 model scalability 问题，并发现了损害 model scalability 的 embedding collapse 现象。
feature and data scaling 仍然是工业界提升推荐模型性能的主流方法（《DeepFM: a factorization-machine based neural network for CTR prediction》），而不是 parameter scaling。
最近，为推荐任务定制的新架构被提出（《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》、《Wukong: Towards a Scaling Law for Large-Scale Recommendation》），借鉴了 Transformer 架构的思想以实现更好的 scalability。然而，我们的实验表明，这些架构在 scale up 到一定程度时仍然面临限制。通过结合 generative pretraining，我们可以从这些模型中释放出显著更大的潜力。此外，《Scaling law for recommendation models: Towards general-purpose user representations》、《Scaling law of large sequential recommendation models》也成功 scaled up 了推荐模型。然而，它们要么是基于文本的模型，要么是专门为 generation tasks 定制的。

1.2 方法论

在本节中，我们介绍基于 Transformer 架构所提出的 GPSD 框架。该框架由三部分组成：
- 1)：generative pretraining 部分。
- 2)：discriminative trainining 部分。
- 3)：generative pretraining 和 discriminative trainining 之间的桥接。
Figure 2 展示了该框架的概览。

1.2.1 Generative Pretraining

类似于语言领域的 GPT（《Improving language understanding by generative pre-training》），在 generative pretraining 阶段，我们训练一个 Transformer 模型来自回归地生成 user behavior item sequence 。为了保持描述简洁，我们首先介绍 item IDs 的情况，更多特征的 integration 将在后面讨论。
$\mathcal D$ user behavior item sequence $X = \{x_{1},x_{2},\cdots ,x_{L}\}$ $L$ generative training $\mathcal D$ 的负对数似然。每个序列的概率使用链式法则分解。因此，generative training 的损失函数为：
$L = \sum_{X \in D} \sum_{1 \leq l \leq L} - \log p (x_{l} ∣ X_{< l})$
其中：
- $\log p(x_l\mid X_{\lt l})$ 是在给定 previous items 条件下 next item 的概率，由模型给出。
- $X_{\lt l}$ $\{x_1,x_2,\cdots, x_{l-1}\}$ $x_l$ 之前的 behavior items 组成。
模型架构：遵循近期关于大型语言模型的工作（《Llama: Open and efficient foundation language models》），我们采用 Transformer（《Attention is all you need》）架构，并利用了随后提出的各种改进，包括：
- 1)：Pre-Normalization （《On layer normalization in the transformer architecture》）以获得更好的训练稳定性。
- 2)：RMSNorm（《Root mean square layer normalization》）以获得更好的性能。
- 3)：RoPE（《Roformer: Enhanced transformer with rotary position embedding》）用于 extendable positional encoding。
- 4)：SwiLU（《Glu variants improve transformer》）作为激活函数。
对于 generative training ，我们对每个 attention 操作应用 causal mask ，从而使 Transformer 成为单向的。
除了生成式方法，我们也可以采用 denoising 方法来训练网络，类似于 BERT （《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》）的工作方式。在这种情况下，将使用双向 Transformer。默认情况下，我们使用生成式方法，但我们将通过实验比较这两种方法。
denoising 方法指的是类似于 BERT 的预训练方式，即掩码语言建模（Masked Language Modeling: MLM）。
模型训练：在训练自回归模型时，modeling probabilities 的典型方法是使用 softmax 函数。然而，在大规模推荐场景中，由于vocabulary 巨大，这样做是不现实的。因此，我们使用 sampled softmax（《On using very large target vocabulary for neural machine translation》、《On the effectiveness of sampled softmax loss for item recommendation》）替代普通 softmax，旨在降低计算复杂度和内存复杂度。形式上，我们将基于 softmax 的概率：
$p (x_{l} | X_{< l}) = \frac{\exp (f (x_{l}; X_{< l}))}{\sum_{v \in V} \exp (f (v; X_{< l}))}$
替换为 sampled softmax：
$\hat{p} (x_{l} | X_{< l}) = \frac{\exp (f (x_{l}; X_{< l}))}{\exp (f (x_{l}; X_{< l})) + \sum_{n \in N} \exp (f (n; X_{< l}))},$
$\mathcal V$ items $\mathcal N$ items $f(\cdot)$ 为模型给出的 logit。我们使用均匀采样器（uniform sampler）来采样 negative items，因此省略了修正项。
为了进一步减少内存使用，我们在每个序列内共享 negative samples，并绑定 embedding layer 和 output linear layer。我们使用 BFloat16 进行训练，与 Float32 训练相比，这仅导致轻微损失，同时将内存使用减半并加速训练。我们使用 AdamW optimizer 训练模型。我们使用 linear warmup 达到峰值学习率，然后余弦衰减到峰值的 10%。
在深度学习中，“绑定 embedding layer 和 output linear layer” 是指：将 input embedding 矩阵与输出层（通常为线性变换层）的权重矩阵共享，即让两者使用相同的参数。
Integrating Side Features：到目前为止，我们只考虑了 item ID 作为模型输入。然而，side features（如 category Id ）在现实世界的推荐系统中也至关重要。为了集成这些特征，我们对模型进行了两个调整。
- 第一个调整在 embedding layer。每个特征独立映射到一个 embedding ，all embeddings 相加，然后作为 Transformer 的输入。
- 第二个调整涉及 loss 部分。除了 next item ID，我们还可以训练模型预测 next item’s features。这导致多个 losses，然后聚合这些 losses 形成 final loss。
关于特征集成的效果，论文并没有进行消融分析。

1.2.2 Discriminative Training

判别式模型在工业推荐系统的排序阶段发挥着关键作用。我们对判别式模型采用了与生成式模型类似的基于 Transformer 的架构，并进行了一些小的修改，这将在本节中讨论。
任务描述：判别式推荐模型将多个特征作为输入，并输出几个类别上的概率。Input features 可以分为三组：
- 1)：user behavior items。
- 2)：candidate item。
- 3)：其他 categorical features 和 numerical features。
模型架构：我们将用 user behavior items 与 candidate item 拼接起来形成 input sequence，然后馈送到 Transformer 中。为了使 Transformer 能够更好地区分 user behavior items 和 candidate item，我们在 item embedding 上添加了一个额外的 segment embedding。我们还在最后一个 Transformer layer 之上附加了一个 MLP head，以便其他 categorical features 和 numerical features 也能被处理。
在此阶段，我们也可以选择使用单向 Transformer 或双向 Transformer。我们默认使用单向 Transformer 以获得更好的在线推理效率，并将进行实验比较两种选择的性能。
模型训练：我们使用 cross-entropy 作为 loss 函数，其他训练设置与 pretraining 阶段保持一致。

1.2.3 Bridging Generative Pretraining and Discriminative Training

在语言领域，人们普遍认为，在大规模 unlabeled corpus 上预训练大型 Transformer 模型，然后简单地将所有参数迁移到 task specific datasets 上进行微调，可以获得卓越的任务性能（《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》）。然而，在推荐领域，这一说法可能不成立，需要考虑精细的策略。
这里还有一个重要的问题：pretraining dataset 如何生成？根据实验章节，有两种生成方式：
- 第一种方式，就是用判别式任务的 user action sequence feature 本身（也可以在末尾在添加 next action 作为一个额外的数据点）作为生成式任务的一个样本。
- 第二种方式，就是用单独收集用户一个 pretraining dataset。例如，判别式任务是 CVR Prediction，那么可以收集用户的 click action sequence 从而作为 pretraining dataseet。
由于 sparse parameters（即 embedding table）在推荐模型中起着关键作用，并导致了 recommendation 领域与语言领域之间的许多差异，我们谨慎地将其处理，将模型参数分为 sparse 部分和 dense 部分。当将 a pretrained generative model 迁移到a discriminative model 时，我们采取以下五种策略：
- No Transfer: NT：从头开始训练所有参数。这作为基线。
- Full Transfer: FT：从 pretrained generative model 迁移所有参数，包括 sparse 参数和 dense 参数。
  注意：参数迁移之后不会冻结任何参数。
- Sparse Transfer: ST：从 pretrained generative model 迁移 sparse 参数，而 dense 参数从头开始训练。
- Full Transfer & Sparse Freeze: FT&SF：应用 FT 策略，并在训练期间冻结 sparse 参数。
- Sparse Transfer & Sparse Freeze: ST&SF ：应用 ST 策略，并在训练期间冻结 sparse 参数。
参见 Figure 2 以更好地理解这五种策略。
- NT：sparse 参数（不迁移，不冻结）、dense 参数（不迁移，不冻结）。
- FT：sparse 参数（迁移，不冻结）、dense 参数（迁移，不冻结）。
- ST：sparse 参数（迁移，不冻结）、dense 参数（不迁移，不冻结）。
- FT&SF：sparse 参数（迁移，冻结）、dense 参数（迁移，不冻结）。
- ST&SF：sparse 参数（迁移，冻结）、dense 参数（不迁移，不冻结）。

1.3 实验

数据集：我们采用工业数据集和公开数据集进行实验，如 Table 1 所示。
- 工业数据集：我们考虑三个判别式任务，包括 CTR prediction、CVR prediction 和 Cart prediction，分别对应 Table 1 中的 CTR、CVR 和 CART。为了进一步探索大模型的能力，我们收集了 CTR-XL ，一个更大的 CTR prediction 数据集，包含 5 billion 个样本。每个数据集按时间划分，最近一天的数据分配给验证集和测试集，而之前的数据构成训练集。对于上述任务的 generative pretraining，我们收集了一个名为 CLICK 的单独数据集。为了构建 CLICK，我们首先将每个用户的clicked items 按时间顺序排序，然后将它们分割成特定长度范围的 sub-sequences。
- 公共数据集：我们选择三个公开的真实世界数据集进行实验。
  - (1)：Taobao 数据集包含从 Taobao 收集的 9 天用户行为。遵循 《Practice on long sequential user behavior modeling for click-through rate prediction》，我们按时间顺序组织 clicked itemsuser behavior sequences $T$ items $T$ 个 clicked item 作为 positive label，并随机采样一个 itemnegative label $T-1$ 个 items 视为 user behavior sequence，用于生成 pretraining dataset。
  - (2)：Amazon 数据集收集了来自 Amazon 的 product reviews 和元数据。我们在电子产品（Electronics）和食品（Foods）子集上进行实验，将 product reviews 视为 user click sequences。这些子集的构建与 Taobao 数据集一致。
特征集合：在这些数据集中，每个 item（包括 candidate items 和 behavior sequences 中的 items）关联一个 item ID 和若干 side features（如 category ID）。除此之外，这些数据集不包含其他 categorical features 和 numerical features。
Model Specification：由于我们采用标准的 Transformer，我们可以用标准代码表示每个模型。我们使用 LuHvAw 表示一个模型，其中 u 为模型深度，v 为模型宽度，w 为 attention heads 数。
注意，如果没有特殊情况说明，那么判别式模型和生成式模型共享相同的模型结构。
超参数：我们使用 Table 2 中列出的超参数。以下提供一些解释。
- 对于工业数据集的实验：
  - batch size：pretraining 使用 16K；CTR/CTR-XL training 使用 32K ；CVR/CART training 使用 4K。
  - 学习率：pretraining 使用 5e-4； CTR/CVR/CART training 也是使用 5e-4；CTR-XL training 学习率根据模型大小变化（详见 Table 5 ）
  - training epochs：pretraining 使用 5 ；CTR/CVR/CART training 使用 3，CTR-XL training 使用 1。
- 对于公共数据集，我们进行网格搜索以优化学习率。
硬件：所有模型在单个或多个 A100 GPU 上训练。
评估指标：我们使用 AUC 作为评估判别式模型的指标。AUC 被广泛应用于推荐领域。它对分类阈值不敏感，数值越大表示结果越好。

1.3.1 重新审视过拟合现象

在本节中，我们进行实验以证明判别式推荐模型表现出严重的过拟合，而生成式模型没有表现出这个问题。
Figure 3b 显示了为 CTR 任务训练的判别式模型的 training AUC 曲线和 validation AUC 曲线。无论模型规模如何，training 性能和 validation 性能之间都存在显著的 generalization gap，表明严重的过拟合。因此，尽管较大的模型（L4H256A4）取得了明显更好的 training 性能，但其 validation 性能却比较小的模型（L4H128A4）更差。具体来说，我们识别出两种不同类型的过拟合。
- 如Figure 3b 所示，四种规模的模型在 epoch 切换时都表现出性能的突然下降。这种现象被称为 one-epoch overfitting ，已在 《Towards understanding the overfitting phenomenon of deep click-through rate models》 中研究。我们确认了这种现象在工业规模数据集上的发生，该数据集的大小是 《Towards understanding the overfitting phenomenon of deep click-through rate models》 中使用的最大数据集的 16 倍。
- 除了 one-epoch overfitting 外，还有第二种类型的过拟合，更为微妙。在第一个 epoch 内的若干 steps 之后，validation AUC 几乎停滞，而 training AUC 继续快速增长。我们将这种类型的过拟合命名为 within-one-epoch overfitting ，以与 one-epoch overfitting 对应。
这两种过拟合现象都阻碍了 Transformer 在判别式任务上的 scalability，并阻碍了通过 scaling 来复制大型语言模型成功的道路。
与面临严重过拟合的判别式模型相反，我们发现生成式模型表现出对这个问题鲁棒性。如 Figure 3a 所示，生成式模型的 training loss 曲线和 validation loss 曲线在整个训练过程中保持一个 small constant gap。constant generalization gap 是预期的且可接受的，通常由随时间发生的 distributional shifts 所引起。这种对过拟合的固有抵抗力带来了更好的 scalability，larger models 相比 smaller models 一致地取得更优的性能。我们假设 generative training 通过广泛的 random negative sampling 避免了 sparsity 问题，从而导致 training of sparse parameters 更稳定和更充分。
注意，Figure 3(a) 是生成式模型的结果，Figure 3(b) 是判别式模型的结果。

1.3.2 通过 Generative Pretraining 增强 Discriminative Training

Figure 3 表明，生成式模型与判别式模型不同，没有面临严重的过拟合问题，并且可以在 scale up 时取得更好的性能。这种差异启发我们通过 generative pretraining 来增强 discriminative training。如前面章节所述，有多种策略可以桥接 pretrained generative model 和 discriminative model。在本节中，我们对这些策略进行实验，并试图找出哪种更好。结果如 Tabel 3 所示。根据结果，我们可以得出以下结论：
- FT 和 ST 策略仅导致比从头训练（NT）稍好的性能。这表明语言领域中建立的 pretraining and finetuning 框架对于推荐任务来说是不够的。
- Freezing sparse parameters（FT&SF 和 ST&SF）在大多数情况下导致比完全训练（FT 和 ST）显著更好的性能，表明 sparse parameters learning 在判别式训练中是有问题的。
- FT&SF 和 ST&SF 在每种场景下都不能击败对方。结果表明，当判别式数据集较小或模型规模较大时，FT&SF 可以取得更好的结果。在灵活性方面，ST&SF 提供了显著的优势，因为它支持 cross-architecture transfer 和 integration of incremental training，这将在后面章节中介绍。
  - ST&SF：只需要迁移 sparse parameters 并冻结 sparse parameters，并不要求判别式模型采用与生成式模型相同的 dense part。
  - FT&SF：在 ST&SF 的基础上还需要迁移 dense parameters（不需要冻结它），这要求判别式模型采用与生成式模型相同的模型结构。
- 使用 FT&SF 和 ST&SF 策略，将 Transformer 从 L4H32A4 扩展到 L4H256A4 持续带来更好的性能。
为了进一步证明 SF 策略为何有效，我们在 Figure 4 中展示了 AUC 曲线。
- Figure 4a 和 Figure 4b 显示，如果没有 SF 策略，pretraining 的好处是有限的，并且模型遭受与基线模型（Figure 3b ）相同的过拟合问题。
- Figure 4c 和 Figure 4d 显示，SF 策略成功地解决了 one-epoch overfitting 和 within-one-epoch overfitting 现象，同时显著缩小了 generalization gap，从而导致显著更好的测试性能。

1.3.3 双向 Transformer 与单向 Transformer 的比较

如正文章节所述，生成式方法（使用单向 Transformer ）并不是 pretraining 的唯一方法。另一种选择是 denoising 方法，它采用如 BERT 中引入的双向 Transformer。此外，在 discriminative training 阶段，也可以采用双向 Transformer 代替单向Transformer。为了评估这些替代方案的影响，我们基于 L4H64A4 架构进行了对比实验。结果如 Table 4 所示。
- (A) 和 (B) 之间的比较表明，当采用 FT&SF 策略时，双向 pretraining 比单向 pretraining 表现更好，尽管差异很小。
- 然而，(C) 和 (D) 之间以及 (E) 和 (F) 之间的比较表明，当采用 ST&SF 策略时，单向 pretraining 比双向 pretraining 取得更优的性能。
- 对于 discriminative training 阶段，(C) 和 (E) 之间以及 (D) 和 (F) 之间的比较表明，单向 Transformer 和双向Transformer 之间的性能差距很小。
此外，在实际工业应用中，单向 Transformer 通常因其因果特性（causal property）而受到青睐，这在与 KV cache（《Efficiently scaling transformer inference》）技术结合时可以显著提高效率。因此，我们采用单向 Transformer 作为 pretraining 和 discriminative training 的默认架构。

1.3.4 进一步 Scaling Up

如前面实验章节所示，我们已成功解决了 discriminative training 中的过拟合问题，并且观察到随着模型从 L4H32A4 扩展到L4H256A4，性能持续增长。在本节中，我们进一步 scale up 模型，以探索非常大的 Transformer 的能力。我们准备了一个更大的 CTR 数据集，包含 5 billion 样本，即 Table 1 中的 CTR-XL，用于相应的实验，并且由于资源限制，每个模型训练一个epoch。
由于 ST&SF 策略能够解耦 generative pretraining 和 discriminative training 的架构，我们在本实验中采用该策略。使用的模型设置列于 Table 5 中。
- 对于 pretraining 阶段，我们使用固定为 4 层、宽度变化的一组网络。这减少了资源消耗，同时保持可比较的下游性能。
- 对于 discriminative training ，我们对较大的模型应用较小的 peak learning rate 以获得更好的训练稳定性。
我们将 sparse parameters 从 125M 扩展到 4B（32 倍），将 dense parameters 从 13K 扩展到 327M（25K 倍）。
这里仅仅考虑判别式模型的 scaling up，一个问题是：如何确定生成式模型（Pre-training Architecture）？生成式模型越大越好吗？作者并未回答这个问题。读者猜测，用于预训练的生成式模型也是越大越好。
结果如 Figure 5 所示，展示了模型性能随着模型规模的 scaling 而持续提升。我们还发现 power laws 可以拟合观测结果，如图中的虚线所示。estimated power laws 还告诉我们，CTR-XL 数据集上 AUC 的经验上界约为 0.7097，loss 的经验下界约为0.3695。详细指标和训练成本列于附录的 Table 7 中。

1.3.5 Cross-Architecture Transfer

考虑到推荐社区近期的进展，一些工作提出了声称能够成功 scale up 的新架构。我们通过 ST&SF 策略进行实验，将我们在Transformer 中 pretrained sparse parameters 迁移到这些新颖的架构，并分析它们对模型性能和 scalability 的影响。我们采用了两个最近发表的架构：HSTU 和 Wukong。
- HSTU 是一个能够处理变长序列的序列模型，类似于 Transformer，因此我们简单地将所有 Transformer layers 替换为 HSTU layers，同时保持其他组件不变。
- 然而，Wukong 是一个非序列模型。为了满足其输入格式，我们将 input sequences 填充到固定长度，并将它们视为独立特征。
对于这两种架构，我们分别检查了四种不同的规模（详情参见附录 Table 8 ）。结果如 Figure 6 所示，从中可以看出，尽管参数是从不同架构（即 Transformer ）迁移而来，ST&SF 策略仍显著提高了 HSTU 和 Wukong 的 scalability。

1.3.6 公共数据集上的结果

公共数据集上的整体性能如 Table 6 所示。我们选择了一些传统模型作为基线，包括 DeepFM（《DeepFM: a factorization-machine based neural network for CTR prediction》）、DIN（《Deep interest network for click-through rate prediction》）、DIEN（《Deep interest evolution network for click-through rate prediction》）、DMIN（《Deep multi-interest network for click-through rate prediction》）、DMR（《Deep match to rank model for personalized click-through rate prediction》）。这些基线模型的 embedding 维度设置为 64。
- 首先，结合 ST&SF 策略后，所有基线模型都表现出显著的性能提升，在多个数据集上从 2.36% 到 10.03% 不等。这表明我们提出的框架与各种推荐模型具有很强的兼容性。此外，由于该框架所生成的高质量 sparse parameters 的普适性，它可以通过即插即用的方式无缝部署。
- 此外，结果证明，在没有 ST&SF 策略的情况下，Transformer 模型的表现明显差于基线。然而，当集成了所提出的 ST&SF 策略时，Transformer 取得了显著的提升，并超越了所有基线。这清楚地验证了该框架在缓解过拟合方面的有效性。另一个值得注意的发现是，最大的 Transformer 模型（L4H256A4 ）并未在所有数据集上取得最佳性能——这很可能是由于有限的数据集规模——但其性能仍与表现最佳的模型相当。最重要的是，这些大模型不再遭受严重的过拟合，进一步强调了我们方法的鲁棒性。

1.3.7 在线 A/B 测试结果

我们将 GPSD 框架应用于电商平台 AliExpress 的产品推荐系统中的排序模型。base ranking model 是一个特征丰富的多任务模型，具有数百个 categorical features 和 numerical features 以及三个任务。它采用 single-layer target attention 模块来编码 user behavior items，并且每天在新数据上进行增量训练。为了将 GPSD 框架应用于 base model，我们开发了一个增量 GPSD 框架，将增量训练与 ST&SF 策略相结合，如 Figure 7 所示。我们还用 Transformer 替换了 target attention 模块来编码 user behavior items。出于在线效率考虑，我们仅采用小规模 Transformer，即 L3H160A4。尽管规模很小，该模型仍然取得了显著的在线收益，GMV 增长了 7.97%，买家数量增长了 1.79% 。这些结果基于 7 天的实验窗口。
这里的在线增益，有哪些是 target attention -> Transformer 带来的？有哪些是来自于增量训练？论文并未详细说明。

1.4 结论与未来工作

在这项工作中，我们解决了推荐中 discriminative training 的关键过拟合挑战，这一问题长期以来阻碍了工业推荐模型的 scalability。我们提出了一个名为 GPSD 的框架。该框架利用从 a pretrained generative model 学到的参数来初始化 a discriminative model，随后应用 a freezing sparse parameters strategy。GPSD 有效缓解了过拟合问题，并为基于Transformer 的模型带来了显著的性能提升和 scalability 提升。大量实验表明，GPSD 在多个工业数据集和公开数据集上取得了优越的性能，并获得了显著的在线收益。此外，通过将 Transformer 的 dense parameters 从 13K 扩展到 0.3B ，我们观察到遵循 power laws 的稳定性能提升。这些结果弥合了推荐模型和语言模型架构之间的差距。基于这项工作，大型语言模型中成熟的技术可以直接应用于推荐模型。
这项工作有几个局限性。
- 首先，我们在实验中采用了相对较小的序列长度。
- 其次，我们没有检验 backbone model 如何影响性能。例如，可以用 HSTU 模型替代 Transformer 模型，因为 GPSD 框架是与模型无关的，可以应用于任何序列模型。
- 最后，由于效率问题，我们尚未在线部署非常大的模型。我们期待先进的工程优化，从而实现更大规模的模型部署。
未来，我们希望将在训练大型语言模型中建立的先进技术引入推荐模型的训练中，同时进一步 scale up 模型规模和序列长度。我们还将研究如何将 SOTA 的开源语言模型（如 Llama、Qwen 和 Deepseek）的权重迁移到 ID based 的推荐模型中。