2025_MTGR

一、 MTGR [2025]

《MTGR: Industrial-Scale Generative Recommendation Framework in Meituan》

Scaling law 已在自然语言处理、计算机视觉等多个领域得到广泛验证。在推荐系统中，近期研究采用 generative recommendations 以实现 scalability，但这些生成式方法需要舍弃传统推荐模型中精心构建的 cross features。我们发现这种做法会显著降低模型性能，且通过 scaling up 模型规模完全无法弥补这一损失。本文提出 Meituan Generative Recommendation: MTGR 框架以解决该问题。MTGR 基于 HSTU 架构进行建模，能够保留原始 deep learning recommendation model: DLRM 的所有特征（包括 cross features）。此外，MTGR 通过 user-level compression 实现 training 与 inference 的加速，确保高效的 scaling。我们还提出 Group-Layer Normalization: GLN 以提升不同语义空间（semantic spaces）内的 encoding 性能，并设计 dynamic masking 策略避免信息泄露。我们进一步优化了训练框架，使其能够支持计算复杂度较 DLRM 高 10 至 100 倍的模型，且无显著成本增加。与 DLRM 模型相比，MTGR 的单样本前向推理（single-sample forward inference ）计算量（FLOPs ）达到 65 倍，在离线和在线场景中均实现了近两年来的最大性能提升。该突破已成功部署于全球最大的外卖平台 Meituan，目前正承载着核心流量。
Scaling law 已被证实适用于大多数深度学习任务，包括语言模型、计算机视觉、以及信息检索。本文致力于实现工业级推荐系统中 ranking 模型的高效 scaling up 。在工业级推荐系统对高 Queries Per Second: QPS 和低延迟的要求下，模型 scaling 通常受到 training cost 和 inference time 的双重限制。目前，scaling ranking models 的研究主要分为两类：Deep Learning Recommendation Model (DLRM) 和 Generative Recommendation Model (GRM)。
- DLRM 对单个 user-item pairs 进行建模，学习 probability of interest 以实现排序，并通过设计更复杂的 mappings 来实现 scales up 。
- GRM 则借鉴自然语言处理的思路，将数据组织为 token 的形式，通过 Transformer 架构进行 next token prediction。
在工业级推荐系统中，DLRM 已应用近十年，其 inputs 通常包含大量精心设计的人工特征（如 cross features）以提升模型性能。然而，DLRM 在 scaling 过程中存在两个显著缺陷：
- 1)：随着用 user behavior 的指数级增长，传统 DLRM 无法高效处理完整的 user behavior sequence，往往需要借助 sequence retrieval 、或设计低复杂度模块（low-complexity modules）进行学习，这限制了模型的学习能力。
- 2)：基于 DLRM 的 scaling 导致训练成本和推理成本随 candidates 数量近似线性增长，使得开销高到难以承受。
对于 GRM，近期研究指出其具有出色的 scalability （《OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment》、《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》）。我们总结了两个关键因素：
- 1)：GRM 直接对完整的 chain of user behavior 进行建模，将同一用户的 multiple samples of exposure 压缩为一个，显著减少了计算冗余，同时相比 DLRM 能够对更长序列进行端到端的 encoding 。
- 2)：GRM 采用具有高效 attention computation 的 Transformer 架构，使模型的 training 和 inference 能够满足工业级推荐系统的要求。
然而，GRM 严重依赖 next token prediction 来建模完整的 user behavior sequence，这需要移除 candidates 与用户之间的 cross features。我们发现，排除 cross features 会严重损害模型性能，且这种性能下降完全无法通过 scaling up 模型规模来弥补。
如何构建一个既能利用 cross features 保证有效性，又具备 GRM 的 scalability 的 ranking 模型？为解决这一问题，我们提出 Meituan Generative Recommendation: MTGR 框架。与传统 DLRM 和 GRM 相比，MTGR 取其精华、去其糟粕：
- 保留了传统 DLRM 的所有 inputs feature（包括 cross features），同时通过将 user and candidate features 转换为不同 tokens 从而来重新组织 features，形成 a token sequence 以实现高效的 model scaling。
- 随后，MTGR 将 cross feature 融入 candidate tokens 中，并通过一个判别式损失函数（discriminative loss ）进行学习。
MTGR 采用与《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》 中类似的 Hierarchical Sequential Transduction Units: HSTU 架构进行建模。在 HSTU 中，我们提出 Group-layer Normalization: GLN，对不同类型的 token 分别进行归一化，从而能够同时更好地建模多种异构信息（multiple heterogeneous information）。此外，我们提出动态掩码策略（dynamic masking strategy），通过 full-attention、auto-regressive 和 visibility only to itself 三种掩码模式，确保模型性能并避免信息泄露。
与行业中常用的 TensorFlow 不同，MTGR 的训练框架基于 TorchRec 构建，并针对计算效率进行了优化。具体而言：
- 为处理 sparse embedding entries 的实时 insert/delete，我们采用 dynamic hash tables 替代 static tables 。
- 为提升效率，我们通过 dynamic sequence balancing 来解决 GPU 间的计算负载不均衡（computation load imbalances）问题，并采用 embedding ID de-duplication 与 automatic table merging 来技术加速 embedding lookup 。
- 我们还融入了 mixed precision training 和 operator fusion 等 implementation optimization 。
与 TorchRec 相比，我们优化后的框架将训练吞吐量提升了 1.6 倍至 2.4 倍，同时在超过 100 GPUs 上运行时仍能保持良好的 scalability。
我们首先在小规模数据集上验证了 MTGR 的 scalability，随后设计了三种不同规模的模型，利用超过六个月的数据进行训练，以验证离线性能和在线性能的 scaling law。其中，large version 相比经过多年优化的 DLRM 基线模型，单样本的前向传播（ forward）计算量（FLOPs）达到 65 倍，在我们的业务场景中实现了 1.22% 的转化量（conversion volumes）提升和 1.31%的点击率（Click-Through Rate: CTR）提升；同时，训练成本保持不变，推理成本降低了 12% 。MTGR-large 已部署于 Meituan 外卖推荐系统，服务数亿用户。
综上所述，本文的贡献如下：
- MTGR 融合了 DLRM 和 GRM 的优势，保留了 DLRM 的所有特征（包括 cross feature），同时具备 GRM 出色的 scalability。
- 提出 Group-Layer Normalization: GLN 和 dynamic masking strategies，以实现更优的模型性能。
- 在基于 TorchRec 的 MTGR training framework 上进行了系统性优化，提升了 training 性能。
- 通过离线实验和在线实验验证了 MTGR 性能与计算复杂度之间的幂律关系（power-law relationship），以及其相比 DLRM 的优越性。
MTGR 的模型结构非常类似于 OneTrans，但是技术含量不如 OneTrans。建议阅读 OneTrans 即可。

1.1 相关工作

Deep Learning Recommendation Model：经典的 DLRM 结构通常包含多种 inputs，如上下文信息（如时间 time、位置location）、用户画像（如性别 gender、年龄 age）、user behavior sequences 、以及 target item with many cross features 。ranking 模型中两个尤为重要的模块是 behavior sequence processing 和 feature interactions learning。
- behavior sequence module （《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》、《Twin v2: Scaling ultra-long user behavior sequence modeling for enhanced ctr prediction at kuaishou》、《Deep interest network for click-through rate prediction》）通常采用 target attention 机制来捕获 user historical behavior与待预测 item 之间的相似性。
- feature interactions module （《xdeepfm: Combining explicit and implicit feature interactions for recommender systems》、《Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations》、《Dcn v2: Improved deep & cross network and practical lessons for web-scale learning to rank systems》、《HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou》）则用于捕获不同特征（包括 user features 和 item features）之间的交互，以生成 final prediction。
Scaling up Recommendation Model：在 DLRM 中，基于不同的 scaling modules ，存在两种截然不同的方法。
- 一种是 scaling cross module，即 scaling up 特征交互模块（feature interactions module），其中 feature interactions module 融合 user and item information 。
  - 《Wukong: Towards a scaling law for large-scale recommendation》 提出了可堆叠的 Wukong layer 用于 scaling up 。
  - 《On the embedding collapse when scaling up recommendation models》 采用 a multi-embedding strategy 来解决 embedding collapse 问题，从而提升模型的 scalability。
- 另一种是 scaling user module，仅 scaled up 用户部分，这种方法更适合 inference 。
  - 《Enhancing CTR Prediction through Sequential Recommendation Pretraining: Introducing the SRP4CTR Framework》、《Scaling User Modeling: Large-scale Online User Representations for Ads Personalization in Meta》通过仅 scaling up user representations 并将其 caching or broadcasting 到所有待预测 items ，降低了 online inference 成本。
  - 《Scaling law for recommendation models: Towards general-purpose user representations》、《Unlocking Scaling Law in Industrial Recommendation Systems with a Three-step Paradigm based Large User Model》 设计了 user representations 的 pre-training 方法，在下游任务中展现出 scalability。
与 DLRM 相对应的是 GRM 。
- 《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》通过 HSTU 架构验证了 scaling law，模型参数规模高达万亿级。
- 《OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment》采用 semantic coding 替代传统的 ID representations，将 Direct Preference Optimization: DPO 与 transformer-based 的框架相结合，用 a unified generative model 替代 cascaded learning framework。

1.2 预备知识

1.2.1 Data Arrangement

$K$ candidates $i$ 个 candidatepair $i$ $\mathbb D_i = \left[\mathbf U, \overrightarrow {\mathbf S}, \overrightarrow {\mathbf R},\mathbf C_i, \mathbf I_i\right]$ 。其中：
- $\mathbf U = \left[U^1,\cdots, U^{N_U}\right]\in \mathbb R^{N_U}$ 为 user’s profile feature（如年龄agegender $U^j$ $1\le j\le N_U$ $N_U$ 为该特征的维度。
- $\overrightarrow {\mathbf S} =\left[\mathbf S^1,\cdots, \mathbf S^{N_S}\right]\in \mathbb R^{N_S\times N_s}$ 为包含由用户历史交互过的 itemsitem sequence $\mathbf S^j = \left[\mathbf s^1,\cdots, \mathbf s^{N_s}\right]\in \mathbb R^{N_s}$ item $1\le j\le N_S$ $N_S$ 个items 。
  $\mathbf s^k$ item $1\le k\le N_s$ ），诸如 item ID、item tag、average CTR on the itemitem $N_s$ 个特征。
  $\overrightarrow {\mathbf S}$ interaction $\overrightarrow {\mathbf R}$ 。
- $\overrightarrow {\mathbf R}\in \mathbb R^{N_R\times N_s}$ 记录当前 request 前几小时或一天内最近的 interactionreal-time actions and preference $\overrightarrow {\mathbf S}$ $N_R$ 为这个短期用户行为序列的长度。
- $\mathbf C_i = \left[C^1,\cdots,C^{N_C}\right]\in \mathbb R^{N_C}$ 包含用户与 candidates 之间的 cross features。
- $\mathbf I_i = \left[I^1,\cdots,I^{N_I}\right]\in \mathbb R^{N_I}$ 包含 candidates 的特征（如 item ID、item tag、item brand 等），与用户无关，为所有用户共享。

1.2.2 Ranking Model in Recommendation Systems

$K$ $\mathbb D$ ，传统推荐系统对样本进行独立处理：
- $\mathbb D$ a dense representation $\mathbf U$ $\mathbf C$ $\mathbf I$ 中的特征分别经过 embedding and concating 之后，得到：
  ${Emb}_{U} \in R^{K \times d_{U}}, {Emb}_{C} \in R^{K \times d_{C}}, {Emb}_{I} \in R^{K \times d_{I}}$
  $d_U$ user representation $d_C$ cross feature representation $d_I$ 为 candidate representation 维度。
  $K$ $\text{Emb}_\mathbf U$ user representation $K$ 次。
  $\overrightarrow {\mathbf S}$ $\overrightarrow {\mathbf R}$ item $\mathbf S^j$ embedding and concating $\text{Emb}_{\mathbf S^j}\in \mathbb R^{d_S}$ $d_S$ item representation $\overrightarrow {\mathbf S}$ $\overrightarrow {\mathbf R}$ 中的所有 items 堆叠起来得到：
  ${Emb}_{\vec{S}} \in R^{N_{S} \times d_{S}}, {Emb}_{\vec{R}} \in R^{N_{R} \times d_{S}}$
- 为提取 historical interacted items 与 candidates 之间的 user interest，通常采用 target attention 机制，以 target item 为 query，sequence feature 为 key/value。形式化表示为：
  ${Feat}_{\vec{S}} = Attention ({Emb}_{I}, {Emb}_{\vec{S}}, {Emb}_{\vec{S}}) \in R^{K \times d_{S}}$
  candidates $\mathbf I$ $K$ $\overrightarrow {\mathbf S}$ 进行聚合。
- $\mathbb D$ 中经过嵌入和处理后的特征，经过拼接之后为：
  ${Feat}_{D} = [{Emb}_{U}, {Feat}_{\vec{S}}, {Feat}_{\vec{R}}, {Emb}_{C}, {Emb}_{I}] \in R^{K \times (d_{U} + d_{S} + d_{S} + d_{C} + d_{I})}$
  $\text{Feat}_\mathbb D$ 进一步馈入多层感知机（MLP），为每个样本输出 logit。logit 被用于 learning in training 和 ranking when inference 。
Figure 1 展示了传统 ranking model 的简化的 data arrangement 和 workflow：
- 首先对所有特征进行嵌入。
- 然后对 leading embeddings 采用不同方法处理。
- 最后将处理后的特征拼接并通过 MLP 进行 feature interaction ，并生成每个 candidates 的 final logit。

1.2.3 Scaling Dilemma in Recommendation Systems

Model scaling 已成为提升 ranking 性能的常用方法，通常旨在扩大 user module 和 cross module 的参数规模。
- user module 处理包括 sequence features 在内的 user feature，生成 user-dependent representation。Scaling user module 能获得更优的 user representation；而且，由于 user representation 可共享并一次性推理所有 candidates，即使 user module 的推理成本较高，也不会给系统带来过重负载。然而，仅 scaling user module 无法直接促进 user and item 之间的 feature interaction。
- 相反，另一种趋势是 scaling cross module（即 feature concatenation 之后的 feature interaction MLP ）。这类方法通过更关注 user and candidates 之间的 interaction 来提升 ranking 能力。但由于 cross module 需要为每个 candidate 单独推理，计算量随 candidates 数量线性增长，导致不可接受的 system latency。
  传统推荐系统的 scaling 困境迫切需要一种新的 scaling 方法，能够实现 user and candidates 之间的高效 feature interaction，同时使 inference 成本随着 candidates 数量呈亚线性增长。MTGR 通过 data re-arrangement 和相应的架构优化，创新了推荐系统的 scaling 方式。

1.3 Data Rearrangement and Architecture of MTGR

1.3.1 User Sample Aggregation for Training and Inference Efficiency

candidates $i$ 个样本，MTGRfeatures $\mathbb D_i = \left[\mathbf U, \overrightarrow {\mathbf S}, \overrightarrow {\mathbf R},\left[\mathbf C_i, \mathbf I_i\right]\right]$ cross feature $\mathbf C$ 作为item feature of candidates的一部分。在 MTGR 中，训练时按用户在一个特定窗口内聚合 candidates，推理时按 request 来聚合 candidates 。由于 aggregationuser representation $\left(\mathbf U, \overrightarrow {\mathbf S}, \overrightarrow {\mathbf R}\right)$ $\overrightarrow {\mathbf R}$ 是用户在另一个特定窗口内按 interaction time 顺序来排列的所有 real-time interaction items 。
Figure 2(a) 展示了聚合过程：与 Figure 1 中仅预测一个 candidate 不同，Figure 2(a) 将 3 items 聚合到一个样本中，复用相同的 user representation。形式化而言，给定同一个用户，feature representation 为：
$D = [U, \vec{S}, \vec{R}, {[C, I]}_{1}, \dots, {[C, I]}_{K}]$
通过将 candidates 聚合到一个样本中，MTGR 仅需一次计算即可为所有 candidates 生成 scores，大幅节省了资源。具体而言，user aggregation 过程将 training samples 数量从 all candidates * all users大幅减少；推理时，将一个 request 中的candidates 按上述方式分组，MTGR 仅需一次 inference 即可完成所有 candidates 的 ranking，无需按照 candidates 数量来多次 inference。这 aggregation 方式打破了 inference 成本对 candidates 数量的依赖，为 model scaling 提供了可能性和潜力。
$\mathbb D$ 包含 scalar features 和 sequence features。为统一 input 格式，MTGR 将 features and sequence 转换为 tokens 。具体而言：
- $\mathbf U$ 中的 scalar features ，每个 featuretoken $\text{Feat}_{\mathbf U} \in \mathbb{R}^{N_{U} ×d_\text{model}}$ $d_\text{model}$ tokens $N_U$ 为该特征的维度。
- $\overrightarrow{\mathbf S}$ $\overrightarrow{\mathbf R}$ 中的 sequence featureitem $\mathbf S$ token $\mathbf S$ MLP $\mathbf S$ 的特征被形式化表示为
  ${Feat}_{S^{i}} = MLP (Concat ({Emb}_{S^{i}})) \in R^{d_{model}}$
  然后堆叠所有 itemsrepresentations $\text{Feat}_{\overrightarrow {\mathbf S}}\in \mathbb R^{N_S\times d_\text{model}}, \text{Feat}_{\overrightarrow {\mathbf R}}\in \mathbb R^{N_R\times d_\text{model}}$ $N_S$ $\overrightarrow{\mathbf S}$ $N_R$ $\overrightarrow{\mathbf R}$ 的序列长度。
- candidatesitem $\mathbf I$ 被同样视为一个 token 。对 candidate 的特征进行嵌入并拼接起来，再通过另一个 MLPP转换为统一维度。
  ${Feat}_{I_{i}} = MLP (Concat ({Emb}_{C_{i}}, {Emb}_{I_{i}})) \in R^{d_{model}}$
  然后堆叠所有 candidatesrepresentations $\text{Feat}_{\mathbf I}\in \mathbb R^{N_I\times d_\text{model}}$ $N_I$ 为 candidates 数量。
  与 Figure 1 的区别在与：Figure 1 采用独立的 Cross Features，因此是：
  $\begin{matrix} {Feat}_{C_{i}} = MLP (Concat ({Emb}_{C_{i}})) \in R^{d_{model}} \\ {Feat}_{I_{i}} = MLP (Concat ({Emb}_{I_{i}})) \in R^{d_{model}} \end{matrix}$
最后，所有 tokens 拼接起来，得到 a long sequence of tokens：
${Feat}_{D} = Concat ([{Feat}_{U}, {Feat}_{\vec{S}}, {Feat}_{\vec{R}}, {Feat}_{I}]) \in R^{(N_{U} + N_{S} + N_{R} + N_{I}) \times d_{model}}$
$N_I$ $K$ $K$ 个 candidates 。

1.3.2 Unified HSTU Encoder

同一用户的样本被聚合为 a sequence of tokens ，天然适合采用 self-attention 机制处理。受 HSTU 启发，MTGR 采用堆叠的 self-attention layer 和 encoder-only architecture 进行建模。
与大语言模型（LLM）类似，input token sequences 按层处理。如 Figure 2 所示，在 self-attention block 中：
- input sequence $\mathbf X$ 首先通过 group layer norm: GLNdomain $\mathbf U$ ）构成一个 group。GLN 确保在 self-attention 之前不同 domains 的 tokens 具有相似分布，并对齐不同 domainssemantic spaces $\tilde{\mathbf X}= \text{GroupLN}(\mathbf X)$ 。
  Layer Norm 的定义：
  $LN (x) = γ \times \frac{x - μ}{\sqrt{σ^{2} + ϵ}} + β$
  $\mu$ $\sigma^2$ $\gamma, \beta$ 为可学习的缩放和偏移参数。
  Group LN $G$ 个分组，然后在每个组内独立计算均值和方差进行归一化：
  - $x$ $(B,S, C)$ $(B, T, G, C/G)$ $B$ batch size $S$ $C$ $G$ 为分组数量。
  - 然后在每个样本的每个分组上计算统计量：
    $μ_{g} = \frac{1}{C / G} \sum_{k = 1}^{C / G} x_{g, k}, σ_{g}^{2} = \frac{1}{C / G} \sum_{k = 1}^{C / G} (x_{g, k} - μ_{g})^{2}$
  - 归一化：
    ${\hat{x}}_{g} = γ_{g} \times \frac{x_{g} - μ_{g}}{\sqrt{σ_{g}^{2} + ϵ}} + β_{g}$
  - $(B, T, C)$ 。
- 归一化后的 inputs 投影到 4 种不同的 representation ：
  $K, Q, V, U = {MLP}_{K / Q / V / U} (\tilde{X})$
  $\mathbf Q, \mathbf K$ 用于 multi-head attention computation，并采用 silu 非线性激活。
- attention 分数除以 total length of input features 作为 an average factorattention score $\mathbf M$ $\mathbf V$ 进行 value update ：
  $\tilde{V} = \frac{silu (K^{⊤} Q)}{(N_{U} + N_{S} + N_{S} + N_{I})} M V$
- $\mathbf U$ $\tilde{\mathbf V}$ 进行点积，再应用一次 group layer norm 。最后添加 residual connection 并叠加另一个MLP：
  $X = MLP (GroupLN (\tilde{V} ⊙ U)) + X$
  $\mathbf U$ $\tilde{\mathbf X}$ $\tilde{\mathbf V}$ $\tilde{\mathbf X}$ 的函数。为什么要将它们相乘？作者并未说明。这不是 Transformer Layer 的做法。
Dynamic Masking：Dynamic Masking （《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》）采用 causal mask 进行 sequence modelingMTGR $\overrightarrow{\mathbf R}$ 记录了用户最近的交互行为（most recent interactions），其时间可能与 sample aggregation window 重合。MTGR 中使用简单的 causal mask 可能导致信息泄露。例如，晚上的 interactions 不应暴露给下午的 candidates，但这些信息可能被聚合到同一个样本中。这一困境需要灵活高效的 masking 策略。
在 MTGR 中：
- $\mathbf U$ $\overrightarrow {\mathbf S}$ 被视为 static （接下来我们称它们为 'static sequence' ），因其信息来自 aggregation window 之前，不会导致因果错误（causality errors）。因此 MGTR 对它们应用 full attention 。
- $\overrightarrow {\mathbf R}$ 是动态的，因为它包含用户的实时 interaction （接下来我们称它们为 'dynamic sequence' ）。因此 MGTR 对它采用自回归动态掩码（auto-regressive with dynamic masking）。
- candidates 仅可见自身，采用对角线掩码（diagonal masking）。
具体而言，MTGR 的 masking 设置了三条规则：
- static sequence 对所有 tokens 可见。
  $\overrightarrow {\mathbf S}$ 应该也是动态的。
- dynamic sequence 的可见性遵循因果关系（causality），每个 token 仅对后续出现的 tokens （包括 candidate tokens）可见。
- candidate tokens $(\mathbf C, \mathbf I)$ 仅对自身可见。
Figure 2(c) 展示了 dynamic masking 的示例：
- 'age', 'ctr' $\mathbf U$ 中的 feature token。
- 'seq1', 'seq2 $\overrightarrow{\mathbf S}$ 。
- 'rt1', 'rt2' $\overrightarrow{\mathbf R}$ 。
- 'target1', 'target2', 'target3' 代表 candidates 。
行中的白色块表示该 token 可使用其他 tokens 的信息；列中的白色块表示该 token 对其他 tokens 可见：
- $\mathbf U$ $\overrightarrow {\mathbf S}$ 采用 Full attention ，因此 'age' 到 'seq2' 形成白色方块。
- 假设 'rt1' 晚于 'rt2' 出现，'rt1' 到 'rt2' 的上三角为白色块，意味着 'rt1' 可使用 'rt2' 的信息，但 'rt2' 不可使用 'rt1' 的信息。
- 假设 'target2' 和 'target3' 早于 'rt1' 出现，因此 'rt1' 对它们不可见；假设 'rt2' 早于 'target1' 和 'target2'、晚于 'target3' 出现，因此 'rt2' 对 'target3' 不可见，'target3' 也无法使用 'rt1', 'rt2' 的信息。
注意：
- masking 矩阵中，行名表示 target，列名表示 src 。
- 行名（或者列名）的排列中，rt 是按照 recent to past 的时间顺序排列；target 也是按照 recent to past 的时间顺序排列。但是，rt2 有可能晚于 target1 。

1.4 训练系统

为便于 MTGR 模型结构的设计和开发，并方便融合大语言模型领域快速发展的更多特性，我们决定不再沿用之前基于 TensorFlow 的训练框架，而是在 PyTorch 生态中重构 training framework。具体而言，我们扩展并优化了 TorchRec 的功能，针对 MTGR 模型的特点进行了专项增强，最终实现了 MTGR 模型的高效训练。与 TorchRec 相比，我们优化后的框架将训练吞吐量（training throughput）提升了 1.6 倍至2.4 倍，同时在超过 100 块 GPU 上运行时仍能保持良好的 scalability。与 DLRM baseline 相比，我们实现了单样本的 forward computation FLOPs 的 65 倍的提升，而训练成本几乎保持不变。以下是我们的核心工作：
- Dynamic Hash Table：TorchRec 采用固定大小的 table 来处理 sparse embeddings ，不适合大规模工业的流式训练（streaming training ）的场景：
  - 一方面，static table 达到预设容量（preset capacity）后，无法为 new users 和 new items 实时分配 additional embeddings 。
  - 另一方面，static embedding tables 通常需要预留超出需求的空间以避免 ID 溢出，导致低效的内存资源利用。
  为解决这些问题，我们开发了基于 hash 技术的 high-performance embedding table，支持训练过程中对 sparse IDs 的动态的空间分配（dynamic allocation of space）。我们的设计采用解耦的 hash table 架构（《MTGRBoost: Boosting Large-scale Generative Recommendation Models in Meituan》），将 key storage 和 value storage 分离：
  - key storage 提供轻量级的 keys to pointers 的映射，其中指针（pointers ）指向 embedding vectors 。
  - value storage 包含 embedding vectors ，以及用于淘汰策略（eviction policies ）的元数据（如计数器、时间戳）。
  这种 two-part 系统实现了两个核心目标：
  - (1)：仅需复制 key storage 即可实现容量的动态扩展，无需复制庞大的 embeddings 。
  - (2)：keys 按紧凑格式来排列，提升 key scanning 的效率。
- Embedding Lookup：embedding lookup 过程采用 All-to-all communication 进行跨设备的 embedding exchange。为减少设备间重复的 ID transfers ，我们实现了一种 two-step 处理流程，确保通信前后 IDs 是 unique 的。
- Load balance：在推荐系统中，user behavior sequences 通常呈现长尾分布：少数用户拥有长序列，而大多数用户的序列较短。这导致 fixed batch size （简写为 BS ）训练时出现显著的计算负载不均衡（computational load imbalance）。
  常用解决方案是序列打包（sequence packing ）技术（《Efficient sequence packing without cross-contamination: Accelerating large language models without impacting performance》），将多个短序列合并为一个长序列。但这种方法需要仔细调整 mask ，以避免不同序列在 attention calculation 中相互干扰，实现成本较高。
  我们的解决方案简洁高效：引入动态批次大小（dynamic batch size ），根据 input data 的实际序列长度调整每个 GPU 的local batch size，确保计算负载相近。同时调整梯度聚合（gradient aggregation）策略，根据每个 GPU 的 batch size 对梯度进行加权，保持与 fixed batch size 一致的计算逻辑。
- Other Optimizations：为进一步提升训练效率，我们采用 pipeline 技术，使用三个独立的 streams ：copy、dispatch 和 compute 。
  - copy stream 负责将 input data 从 CPU 传输到 GPU。
  - dispatch stream 执行基于 IDs 的 table lookups 。
  - compute stream 同时处理前向计算（forward computations）和反向更新（backward updates）。
  例如，当 compute stream 处理 batch T 的 forward and backward passes 时，copy stream 同时加载 batch T+1，以最小化 I/O delay。batch T 的 backward updates 完成后，dispatch stream 立即启动 batch T+1 的 table lookups 和 communication。此外，我们采用 bf16 mixed-precision training，并基于 cutlass 设计了专用的 attention kernel ，以加速训练进程。

1.5 实验

数据集：公开数据集广泛使用独立的 ID features 和 attribute features，很少包含 cross features。但 cross features 在实际应用中至关重要。在我们的业务场景中，cross features 是一类重要的特征，通常由人工精心设计，包括 user-item、user and higher-level categories 、item and spatio-temporal information等交互关系。为弥补公开数据集缺乏 cross feature 的不足，我们基于 Meituan 真实工业级推荐系统的日志构建了训练数据集。与公开数据集不同，我们的真实数据集包含更丰富的 cross features set 和更长的 user behavior sequences 。使用工业级数据进行实验能更好地凸显这些 cross features 对真实推荐系统的显著影响。此外，我们的数据集规模庞大，使 complex models 在训练过程中能够实现更充分的收敛。
- 离线实验使用 10 天的数据集，统计信息如 Table 1 所示。
- 在线实验为了与训练超过 2 年的 DLRM baseline 进行对比，构建了更长周期的数据集，使用超过 6 个月的数据。
baseline 模型：
- 对于 DLRM，我们比较了两种 sequence modeling 方法：基于 sequence retrieval 的 SIM 、基于 original long sequences 的端到端建模（E2E）。
- 在 scaling 方面，我们对比了 DNN 、MoE、Wukong、MultiEmbed（《On the embedding collapse when scaling up recommendation models》）和 UserTower。具体设置如下：
  - MoE 使用 4 experts，每个 expert 包含一个与 base DNN 复杂度相同的网络。
  - Wukong 和 MultiEmbed 配置为与 MoE 相同的计算复杂度。
  - UserTower 使用一组可学习的 queries，在 user behavior 上插入 qFormer layer（《Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models》）和另一个 MoE（16 experts）模块，计算复杂度是 MoE 的3倍。但推理时可为同一用户的多个 predicted items 共享该计算，从而降低推理成本。UserTower 在我们的场景中已取得良好效果。
- MTGR 采用 E2E 处理所有 sequence information ，并设置了三种不同规模以验证 scalability ，如 Table 2 所示。
UserTower 是啥结构？论文没说。
评估指标：
- 离线评估：关注点击率（CTR）和点击转化率（Click-Through Conversion Rate: CTCVR）两个任务，使用 AUC 和 Group AUC: GAUC进行评估。GAUC 是对每个用户的 AUC 进行平均，相比 AUC 更关注模型对同一用户的 ranking 能力。
- 在线评估：关注两个指标：页面浏览点击率（CTR per page view: PV_CTR）和用户浏览转化率（CTCVR per user view: UV_CTCVR），其中 UV_CTCVR 是评估业务增长的最关键指标。
参数配置：
- 模型使用 Adam optimizer 训练。
- 对于 DLRM ，每个 GPU 处理的 batch size 为 2400 ，使用 8 块 NVIDIA A100 GPUs 训练。对于 MTGR ，batch size = 96，使用 16 块 NVIDIA A100 GPUs 训练。
- 如 Table 2 所示，模型复杂度越高，学习率越低。
- 此外，随着计算复杂度的增加，我们通过配置不同的 embedding 维度按比例扩大 size of the sparse parameterstoken $k$ embedding $d_\text{model}/k$ 的整数。
  因为一个 token 可能是由多个 feature embedding 拼接而成。
  值得注意的是，为避免 sparse parameters 过度扩展导致开销过大，我们主要增加 cardinality 较小的 sparse features 的维度，而保持 cardinality 极大的sparse features 的维度不变。
- $\overrightarrow{\mathbf S}$ $N_S$ 1000 $\overrightarrow{\mathbf R}$ $N_R$ 设置为 100。

1.5.1 整体性能对比

我们使用 10-day dataset 评估 MTGR 和其他基线方法的性能，结果如 Table 3 所示。不同模型在各离线指标上的差异的趋势一致。根据以往经验，离线指标提升 0.001 即被认为具有显著意义。
- 在各类 DLRM 中：
  - Wukong-SIM 和 MultiEmbed-SIM 的性能优于 MoE-SIM。
  - UserTower-SIM 表现最佳，而 UserTower-E2E 相比 UserTower-SIM 性能略有下降。我们推测在 DLRM 范式下，模型复杂度不足以建模所有 sequence information ，导致欠拟合。
- 我们提出的 MTGR ，即使是最小的版本，也超过了性能最强的 DLRM 模型。且三种不同规模的 MTGR 模型均展现出 scalability ，性能随模型复杂度的增加而平稳提升。

1.5.2 消融实验

我们基于 MTGR-small 对两个核心组件（Dynamic Masking 和 group layer norm: GLN）进行了消融实验，结果如 Table 4 所示。
- 移除其中任何一个组件都会导致性能显著下降，下降幅度与 MTGR-small 到 MTGR-medium 的性能提升幅度相当。这表明 Dynamic Masking 和 GLN 对 MTGR 至关重要。
  GLN 提升效果还可以。
- 此外，我们还额外实验了 cross features 对 MTGR 的重要性：移除 cross features 后，性能指标大幅下降，甚至抵消了MTGR-large 相比 DLRM 的性能优势，凸显了 cross features 在真实推荐系统中的关键作用。

1.5.3 Scalability

Figure 3 展示了 MTGR 的 scalability ：我们基于 MTGR-smallHSTU blocks $d_\text{model}$ 、input sequence length ）进行了测试。可以看出，MTGR 在不同超参数下均展现出良好的 scalability 。
此外，Figure 3(d) 呈现了性能与计算复杂度之间的幂律（power-law）关系：纵轴表示 CTCVR GAUC 相比性能最佳的 DLRM 模型（UserTower-SIM）的提升幅度，横轴表示计算复杂度相比 UserTower-SIM 的对数倍数。
sequence length $N_S$ $N_R$ $N_S + N_R$ $N_R$ 固定为 100 。

1.5.4 在线实验

为进一步验证 MTGR 的有效性，我们将其部署于 Meituan 外卖平台，进行了 2% 流量的 AB test。实验流量规模达到每天数百万次曝光，确保了实验的可靠性。对比的 baseline 是当前最先进的在线 DLRM 模型（UserTower-SIM），该模型已持续学习 2 年。我们使用过去 6 个月的数据训练 MTGR 模型，然后在线部署 MTGR 进行对比。
尽管训练数据量显著少于 DLRM 模型，但 MTGR 的离线指标和在线指标仍大幅超过 DLRM 基线。如 Table 5 所示，离线指标和在线指标均展现出 scalability 。我们还发现，随着 training tokens 数量的增加，与 DLRM 相比， MTGR 的优势持续放大。最终，就 CTCVR GAUC 而言，我们的 large version 甚至超过了过去一年所有优化方案的累计提升幅度。
该模型已在我们的场景中全面部署，训练成本与 DLRM 相当，推理成本降低了 12%。对于 DLRM 而言，其 inference 成本与 candidates 数量近似呈线性关系。然而，MTGR 对 request 中的所有 candidates 都进行了 user aggregation，从而实现了inference 成本与 candidates 数量呈亚线性增长。这有助于我们降低 online inference 的开销。

1.6 结论

本文提出了 MTGR ，一种基于 HSTU 的新型 ranking framework 来探索 recommendation systems 中 scaling law 。MTGR 融合了 DLRM 和 GRM 的优势，能够使用 cross-features 以保证模型性能，同时具备与 GRM 相当的 scalability。MTGR 已在我们的业务场景中全面部署，并取得了显著效益。未来，我们将探索如何将 MTGR 扩展到多场景建模，借鉴大语言模型的思路，构建具有广泛知识的 recommendation foundation model。
实际上，这篇论文与 GRM 关系不大。