《MTGR: Industrial-Scale Generative Recommendation Framework in Meituan》
Scaling law 已在自然语言处理、计算机视觉等多个领域得到广泛验证。在推荐系统中,近期研究采用 generative recommendations 以实现 scalability,但这些生成式方法需要舍弃传统推荐模型中精心构建的 cross features。我们发现这种做法会显著降低模型性能,且通过 scaling up 模型规模完全无法弥补这一损失。本文提出 Meituan Generative Recommendation: MTGR 框架以解决该问题。MTGR 基于 HSTU 架构进行建模,能够保留原始 deep learning recommendation model: DLRM 的所有特征(包括 cross features)。此外,MTGR 通过 user-level compression 实现 training 与 inference 的加速,确保高效的 scaling。我们还提出 Group-Layer Normalization: GLN 以提升不同语义空间(semantic spaces)内的 encoding 性能,并设计 dynamic masking 策略避免信息泄露。我们进一步优化了训练框架,使其能够支持计算复杂度较 DLRM 高 10 至 100 倍的模型,且无显著成本增加。与 DLRM 模型相比,MTGR 的单样本前向推理(single-sample forward inference )计算量(FLOPs )达到 65 倍,在离线和在线场景中均实现了近两年来的最大性能提升。该突破已成功部署于全球最大的外卖平台 Meituan,目前正承载着核心流量。
Scaling law 已被证实适用于大多数深度学习任务,包括语言模型、计算机视觉、以及信息检索。本文致力于实现工业级推荐系统中 ranking 模型的高效 scaling up 。在工业级推荐系统对高 Queries Per Second: QPS 和低延迟的要求下,模型 scaling 通常受到 training cost 和 inference time 的双重限制。目前,scaling ranking models 的研究主要分为两类:Deep Learning Recommendation Model (DLRM) 和 Generative Recommendation Model (GRM)。
DLRM 对单个 user-item pairs 进行建模,学习 probability of interest 以实现排序,并通过设计更复杂的 mappings 来实现 scales up 。
GRM 则借鉴自然语言处理的思路,将数据组织为 token 的形式,通过 Transformer 架构进行 next token prediction。
在工业级推荐系统中,DLRM 已应用近十年,其 inputs 通常包含大量精心设计的人工特征(如 cross features)以提升模型性能。然而,DLRM 在 scaling 过程中存在两个显著缺陷:
1):随着用 user behavior 的指数级增长,传统 DLRM 无法高效处理完整的 user behavior sequence,往往需要借助 sequence retrieval 、或设计低复杂度模块(low-complexity modules)进行学习,这限制了模型的学习能力。
2):基于 DLRM 的 scaling 导致训练成本和推理成本随 candidates 数量近似线性增长,使得开销高到难以承受。
对于 GRM,近期研究指出其具有出色的 scalability (《OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment》、《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》)。我们总结了两个关键因素:
1):GRM 直接对完整的 chain of user behavior 进行建模,将同一用户的 multiple samples of exposure 压缩为一个,显著减少了计算冗余,同时相比 DLRM 能够对更长序列进行端到端的 encoding 。
2):GRM 采用具有高效 attention computation 的 Transformer 架构,使模型的 training 和 inference 能够满足工业级推荐系统的要求。
然而,GRM 严重依赖 next token prediction 来建模完整的 user behavior sequence,这需要移除 candidates 与用户之间的 cross features。我们发现,排除 cross features 会严重损害模型性能,且这种性能下降完全无法通过 scaling up 模型规模来弥补。
如何构建一个既能利用 cross features 保证有效性,又具备 GRM 的 scalability 的 ranking 模型?为解决这一问题,我们提出 Meituan Generative Recommendation: MTGR 框架。与传统 DLRM 和 GRM 相比,MTGR 取其精华、去其糟粕:
保留了传统 DLRM 的所有 inputs feature(包括 cross features),同时通过将 user and candidate features 转换为不同 tokens 从而来重新组织 features,形成 a token sequence 以实现高效的 model scaling。
随后,MTGR 将 cross feature 融入 candidate tokens 中,并通过一个判别式损失函数(discriminative loss )进行学习。
MTGR 采用与《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》 中类似的 Hierarchical Sequential Transduction Units: HSTU 架构进行建模。在 HSTU 中,我们提出 Group-layer Normalization: GLN,对不同类型的 token 分别进行归一化,从而能够同时更好地建模多种异构信息(multiple heterogeneous information)。此外,我们提出动态掩码策略(dynamic masking strategy),通过 full-attention、auto-regressive 和 visibility only to itself 三种掩码模式,确保模型性能并避免信息泄露。
与行业中常用的 TensorFlow 不同,MTGR 的训练框架基于 TorchRec 构建,并针对计算效率进行了优化。具体而言:
为处理 sparse embedding entries 的实时 insert/delete,我们采用 dynamic hash tables 替代 static tables 。
为提升效率,我们通过 dynamic sequence balancing 来解决 GPU 间的计算负载不均衡(computation load imbalances)问题,并采用 embedding ID de-duplication 与 automatic table merging 来技术加速 embedding lookup 。
我们还融入了 mixed precision training 和 operator fusion 等 implementation optimization 。
与 TorchRec 相比,我们优化后的框架将训练吞吐量提升了 1.6 倍至 2.4 倍,同时在超过 100 GPUs 上运行时仍能保持良好的 scalability。
我们首先在小规模数据集上验证了 MTGR 的 scalability,随后设计了三种不同规模的模型,利用超过六个月的数据进行训练,以验证离线性能和在线性能的 scaling law。其中,large version 相比经过多年优化的 DLRM 基线模型,单样本的前向传播( forward)计算量(FLOPs)达到 65 倍,在我们的业务场景中实现了 1.22% 的转化量(conversion volumes)提升和 1.31%的点击率(Click-Through Rate: CTR)提升;同时,训练成本保持不变,推理成本降低了 12% 。MTGR-large 已部署于 Meituan 外卖推荐系统,服务数亿用户。
综上所述,本文的贡献如下:
MTGR 融合了 DLRM 和 GRM 的优势,保留了 DLRM 的所有特征(包括 cross feature),同时具备 GRM 出色的 scalability。
提出 Group-Layer Normalization: GLN 和 dynamic masking strategies,以实现更优的模型性能。
在基于 TorchRec 的 MTGR training framework 上进行了系统性优化,提升了 training 性能。
通过离线实验和在线实验验证了 MTGR 性能与计算复杂度之间的幂律关系(power-law relationship),以及其相比 DLRM 的优越性。
MTGR的模型结构非常类似于OneTrans,但是技术含量不如OneTrans。建议阅读OneTrans即可。
Deep Learning Recommendation Model:经典的 DLRM 结构通常包含多种 inputs,如上下文信息(如时间 time、位置location)、用户画像(如性别 gender、年龄 age)、user behavior sequences 、以及 target item with many cross features 。ranking 模型中两个尤为重要的模块是 behavior sequence processing 和 feature interactions learning。
behavior sequence module (《Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction》、《Twin v2: Scaling ultra-long user behavior sequence modeling for enhanced ctr prediction at kuaishou》、《Deep interest network for click-through rate prediction》)通常采用 target attention 机制来捕获 user historical behavior与待预测 item 之间的相似性。
feature interactions module (《xdeepfm: Combining explicit and implicit feature interactions for recommender systems》、《Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations》、《Dcn v2: Improved deep & cross network and practical lessons for web-scale learning to rank systems》、《HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou》)则用于捕获不同特征(包括 user features 和 item features)之间的交互,以生成 final prediction。
Scaling up Recommendation Model:在 DLRM 中,基于不同的 scaling modules ,存在两种截然不同的方法。
一种是 scaling cross module,即 scaling up 特征交互模块(feature interactions module),其中 feature interactions module 融合 user and item information 。
《Wukong: Towards a scaling law for large-scale recommendation》 提出了可堆叠的 Wukong layer 用于 scaling up 。
《On the embedding collapse when scaling up recommendation models》 采用 a multi-embedding strategy 来解决 embedding collapse 问题,从而提升模型的 scalability。
另一种是 scaling user module,仅 scaled up 用户部分,这种方法更适合 inference 。
《Enhancing CTR Prediction through Sequential Recommendation Pretraining: Introducing the SRP4CTR Framework》、《Scaling User Modeling: Large-scale Online User Representations for Ads Personalization in Meta》通过仅 scaling up user representations 并将其 caching or broadcasting 到所有待预测 items ,降低了 online inference 成本。
《Scaling law for recommendation models: Towards general-purpose user representations》、《Unlocking Scaling Law in Industrial Recommendation Systems with a Three-step Paradigm based Large User Model》 设计了 user representations 的 pre-training 方法,在下游任务中展现出 scalability。
与 DLRM 相对应的是 GRM 。
《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》通过 HSTU 架构验证了 scaling law,模型参数规模高达万亿级。
《OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment》采用 semantic coding 替代传统的 ID representations,将 Direct Preference Optimization: DPO 与 transformer-based 的框架相结合,用 a unified generative model 替代 cascaded learning framework。
传统上,对于一个用户和对应的 candidates,用户与第 candidate 组成的 pair 对构成了第
user’s profile feature(如年龄age、性别 gender 等等)。每个特征
items 组成的 item sequence 。每个元素 item(items 。
item 的一个特征(item ID、item tag、average CTR on the item 等等。每个 item 一共有
注意,根据论文的描述,
不包含最近的 interaction,即不包含。
request 前几小时或一天内最近的 interaction,代表用户的 real-time actions and preference ,与
candidates 之间的 cross features。
candidates 的特征(如 item ID、item tag、item brand 等),与用户无关,为所有用户共享。
给定一组
首先对 a dense representation 。具体而言,embedding and concating 之后,得到:
其中:user representation 维度;cross feature representation 维度;candidate representation 维度。
注意:这
个样本可能对应于同一个用户,此时 就是单个 user representation重复次。
对于 item embedding and concating 之后得到 item representation 维度。然后 items 堆叠起来得到:
为提取 historical interacted items 与 candidates 之间的 user interest,通常采用 target attention 机制,以 target item 为 query,sequence feature 为 key/value。形式化表示为:
该公式根据candidates
最终,
MLP),为每个样本输出 logit。logit 被用于 learning in training 和 ranking when inference 。
Figure 1 展示了传统 ranking model 的简化的 data arrangement 和 workflow:
首先对所有特征进行嵌入。
然后对 leading embeddings 采用不同方法处理。
最后将处理后的特征拼接并通过 MLP 进行 feature interaction ,并生成每个 candidates 的 final logit。

Model scaling 已成为提升 ranking 性能的常用方法,通常旨在扩大 user module 和 cross module 的参数规模。
user module 处理包括 sequence features 在内的 user feature,生成 user-dependent representation。Scaling user module 能获得更优的 user representation;而且,由于 user representation 可共享并一次性推理所有 candidates,即使 user module 的推理成本较高,也不会给系统带来过重负载。然而,仅 scaling user module 无法直接促进 user and item 之间的 feature interaction。
相反,另一种趋势是 scaling cross module(即 feature concatenation 之后的 feature interaction MLP )。这类方法通过更关注 user and candidates 之间的 interaction 来提升 ranking 能力。但由于 cross module 需要为每个 candidate 单独推理,计算量随 candidates 数量线性增长,导致不可接受的 system latency。
传统推荐系统的 scaling 困境迫切需要一种新的 scaling 方法,能够实现 user and candidates 之间的高效 feature interaction,同时使 inference 成本随着 candidates 数量呈亚线性增长。MTGR 通过 data re-arrangement 和相应的架构优化,创新了推荐系统的 scaling 方式。
对于 candidates 中的第 MTGR 将 features 组织为cross feature item feature of candidates的一部分。在 MTGR 中,训练时按用户在一个特定窗口内聚合 candidates,推理时按 request 来聚合 candidates 。由于 aggregation 是基于同一用户,聚合后的样本可复用相同的 user representation interaction time 顺序来排列的所有 real-time interaction items 。
Figure 2(a) 展示了聚合过程:与 Figure 1 中仅预测一个 candidate 不同,Figure 2(a) 将 3 items 聚合到一个样本中,复用相同的 user representation。形式化而言,给定同一个用户,feature representation 为:
通过将 candidates 聚合到一个样本中,MTGR 仅需一次计算即可为所有 candidates 生成 scores,大幅节省了资源。具体而言,user aggregation 过程将 training samples 数量从 all candidates * all users大幅减少;推理时,将一个 request 中的candidates 按上述方式分组,MTGR 仅需一次 inference 即可完成所有 candidates 的 ranking,无需按照 candidates 数量来多次 inference。这 aggregation 方式打破了 inference 成本对 candidates 数量的依赖,为 model scaling 提供了可能性和潜力。

公式 scalar features 和 sequence features。为统一 input 格式,MTGR 将 features and sequence 转换为 tokens 。具体而言:
对于 scalar features ,每个 feature 自然转换为单个 token 。转换后的结果为 tokens 的统一维度,
对于 sequence feature,每个 item token:首先对 MLP 模块来统一维度。
然后堆叠所有 items 的 representations 得到:
candidates 中的每个 item token 。对 candidate 的特征进行嵌入并拼接起来,再通过另一个 MLPP转换为统一维度。
然后堆叠所有 candidates 的 representations 得到:candidates 数量。
与
Figure 1的区别在与:Figure 1采用独立的Cross Features,因此是:
最后,所有 tokens 拼接起来,得到 a long sequence of tokens:
这里的
就是 ,表示 个 candidates。
同一用户的样本被聚合为 a sequence of tokens ,天然适合采用 self-attention 机制处理。受 HSTU 启发,MTGR 采用堆叠的 self-attention layer 和 encoder-only architecture 进行建模。
与大语言模型(LLM)类似,input token sequences 按层处理。如 Figure 2 所示,在 self-attention block 中:
input sequence group layer norm: GLN 进行归一化。同一 domain 的特征(例如, group。GLN 确保在 self-attention 之前不同 domains 的 tokens 具有相似分布,并对齐不同 domains 的 semantic spaces ,即
Layer Norm的定义:其中:均值
、方差 是在样本维度上进行的; 为可学习的缩放和偏移参数。
Group LN的定义:将样本的特征分为个分组,然后在每个组内独立计算均值和方差进行归一化:
分组:输入特征
的形状为 ,重塑为 。其中 为 batch size、为序列长度、 为特征数量, 为分组数量。 然后在每个样本的每个分组上计算统计量:
归一化:
重塑:将形状恢复为
。
归一化后的 inputs 投影到 4 种不同的 representation :
其中:其中 multi-head attention computation,并采用 silu 非线性激活。
attention 分数除以 total length of input features 作为 an average factor。然后 attention score 施加自定义掩码(value update :
将投影后的 group layer norm 。最后添加 residual connection 并叠加另一个MLP:
来自于 的投影,而 也是 的函数。为什么要将它们相乘?作者并未说明。这不是 Transformer Layer的做法。
Dynamic Masking:Dynamic Masking (《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》)采用 causal mask 进行 sequence modeling,但在 MTGR 中未带来显著性能提升。此外,由于 most recent interactions),其时间可能与 sample aggregation window 重合。MTGR 中使用简单的 causal mask 可能导致信息泄露。例如,晚上的 interactions 不应暴露给下午的 candidates,但这些信息可能被聚合到同一个样本中。这一困境需要灵活高效的 masking 策略。
在 MTGR 中:
static (接下来我们称它们为 'static sequence' ),因其信息来自 aggregation window 之前,不会导致因果错误(causality errors)。因此 MGTR 对它们应用 full attention 。
interaction (接下来我们称它们为 'dynamic sequence' )。因此 MGTR 对它采用自回归动态掩码(auto-regressive with dynamic masking)。
candidates 仅可见自身,采用对角线掩码(diagonal masking)。
具体而言,MTGR 的 masking 设置了三条规则:
static sequence 对所有 tokens 可见。
实际上,
应该也是动态的。
dynamic sequence 的可见性遵循因果关系(causality),每个 token 仅对后续出现的 tokens (包括 candidate tokens)可见。
candidate tokens
Figure 2(c) 展示了 dynamic masking 的示例:
'age', 'ctr' 代表 feature token。
'seq1', 'seq2 代表
'rt1', 'rt2' 代表
'target1', 'target2', 'target3' 代表 candidates 。
行中的白色块表示该 token 可使用其他 tokens 的信息;列中的白色块表示该 token 对其他 tokens 可见:
Full attention ,因此 'age' 到 'seq2' 形成白色方块。
假设 'rt1' 晚于 'rt2' 出现,'rt1' 到 'rt2' 的上三角为白色块,意味着 'rt1' 可使用 'rt2' 的信息,但 'rt2' 不可使用 'rt1' 的信息。
假设 'target2' 和 'target3' 早于 'rt1' 出现,因此 'rt1' 对它们不可见;假设 'rt2' 早于 'target1' 和 'target2'、晚于 'target3' 出现,因此 'rt2' 对 'target3' 不可见,'target3' 也无法使用 'rt1', 'rt2' 的信息。
注意:
masking矩阵中,行名表示target,列名表示src。行名(或者列名)的排列中,
rt是按照recent to past的时间顺序排列;target也是按照recent to past的时间顺序排列。但是,rt2有可能晚于target1。

为便于 MTGR 模型结构的设计和开发,并方便融合大语言模型领域快速发展的更多特性,我们决定不再沿用之前基于 TensorFlow 的训练框架,而是在 PyTorch 生态中重构 training framework。具体而言,我们扩展并优化了 TorchRec 的功能,针对 MTGR 模型的特点进行了专项增强,最终实现了 MTGR 模型的高效训练。与 TorchRec 相比,我们优化后的框架将训练吞吐量(training throughput)提升了 1.6 倍至2.4 倍,同时在超过 100 块 GPU 上运行时仍能保持良好的 scalability。与 DLRM baseline 相比,我们实现了单样本的 forward computation FLOPs 的 65 倍的提升,而训练成本几乎保持不变。以下是我们的核心工作:
Dynamic Hash Table:TorchRec 采用固定大小的 table 来处理 sparse embeddings ,不适合大规模工业的流式训练(streaming training )的场景:
一方面,static table 达到预设容量(preset capacity)后,无法为 new users 和 new items 实时分配 additional embeddings 。
另一方面,static embedding tables 通常需要预留超出需求的空间以避免 ID 溢出,导致低效的内存资源利用。
为解决这些问题,我们开发了基于 hash 技术的 high-performance embedding table,支持训练过程中对 sparse IDs 的动态的空间分配(dynamic allocation of space)。我们的设计采用解耦的 hash table 架构(《MTGRBoost: Boosting Large-scale Generative Recommendation Models in Meituan》),将 key storage 和 value storage 分离:
key storage 提供轻量级的 keys to pointers 的映射,其中指针(pointers )指向 embedding vectors 。
value storage 包含 embedding vectors ,以及用于淘汰策略(eviction policies )的元数据(如计数器、时间戳)。
这种 two-part 系统实现了两个核心目标:
(1):仅需复制 key storage 即可实现容量的动态扩展,无需复制庞大的 embeddings 。
(2):keys 按紧凑格式来排列,提升 key scanning 的效率。
Embedding Lookup:embedding lookup 过程采用 All-to-all communication 进行跨设备的 embedding exchange。为减少设备间重复的 ID transfers ,我们实现了一种 two-step 处理流程,确保通信前后 IDs 是 unique 的。
Load balance:在推荐系统中,user behavior sequences 通常呈现长尾分布:少数用户拥有长序列,而大多数用户的序列较短。这导致 fixed batch size (简写为 BS )训练时出现显著的计算负载不均衡(computational load imbalance)。
常用解决方案是序列打包(sequence packing )技术(《Efficient sequence packing without cross-contamination: Accelerating large language models without impacting performance》),将多个短序列合并为一个长序列。但这种方法需要仔细调整 mask ,以避免不同序列在 attention calculation 中相互干扰,实现成本较高。
我们的解决方案简洁高效:引入动态批次大小(dynamic batch size ),根据 input data 的实际序列长度调整每个 GPU 的local batch size,确保计算负载相近。同时调整梯度聚合(gradient aggregation)策略,根据每个 GPU 的 batch size 对梯度进行加权,保持与 fixed batch size 一致的计算逻辑。
Other Optimizations:为进一步提升训练效率,我们采用 pipeline 技术,使用三个独立的 streams :copy、dispatch 和 compute 。
copy stream 负责将 input data 从 CPU 传输到 GPU。
dispatch stream 执行基于 IDs 的 table lookups 。
compute stream 同时处理前向计算(forward computations)和反向更新(backward updates)。
例如,当 compute stream 处理 batch T 的 forward and backward passes 时,copy stream 同时加载 batch T+1,以最小化 I/O delay。batch T 的 backward updates 完成后,dispatch stream 立即启动 batch T+1 的 table lookups 和 communication。此外,我们采用 bf16 mixed-precision training,并基于 cutlass 设计了专用的 attention kernel ,以加速训练进程。
数据集:公开数据集广泛使用独立的 ID features 和 attribute features,很少包含 cross features。但 cross features 在实际应用中至关重要。在我们的业务场景中,cross features 是一类重要的特征,通常由人工精心设计,包括 user-item、user and higher-level categories 、item and spatio-temporal information等交互关系。为弥补公开数据集缺乏 cross feature 的不足,我们基于 Meituan 真实工业级推荐系统的日志构建了训练数据集。与公开数据集不同,我们的真实数据集包含更丰富的 cross features set 和更长的 user behavior sequences 。使用工业级数据进行实验能更好地凸显这些 cross features 对真实推荐系统的显著影响。此外,我们的数据集规模庞大,使 complex models 在训练过程中能够实现更充分的收敛。
离线实验使用 10 天的数据集,统计信息如 Table 1 所示。
在线实验为了与训练超过 2 年的 DLRM baseline 进行对比,构建了更长周期的数据集,使用超过 6 个月的数据。

baseline 模型:
对于 DLRM,我们比较了两种 sequence modeling 方法:基于 sequence retrieval 的 SIM 、基于 original long sequences 的端到端建模(E2E)。
在 scaling 方面,我们对比了 DNN 、MoE、Wukong、MultiEmbed(《On the embedding collapse when scaling up recommendation models》)和 UserTower。具体设置如下:
MoE 使用 4 experts,每个 expert 包含一个与 base DNN 复杂度相同的网络。
Wukong 和 MultiEmbed 配置为与 MoE 相同的计算复杂度。
UserTower 使用一组可学习的 queries,在 user behavior 上插入 qFormer layer(《Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models》)和另一个 MoE(16 experts)模块,计算复杂度是 MoE 的3倍。但推理时可为同一用户的多个 predicted items 共享该计算,从而降低推理成本。UserTower 在我们的场景中已取得良好效果。
MTGR 采用 E2E 处理所有 sequence information ,并设置了三种不同规模以验证 scalability ,如 Table 2 所示。
UserTower是啥结构?论文没说。

评估指标:
离线评估:关注点击率(CTR)和点击转化率(Click-Through Conversion Rate: CTCVR)两个任务,使用 AUC 和 Group AUC: GAUC进行评估。GAUC 是对每个用户的 AUC 进行平均,相比 AUC 更关注模型对同一用户的 ranking 能力。
在线评估:关注两个指标:页面浏览点击率(CTR per page view: PV_CTR)和用户浏览转化率(CTCVR per user view: UV_CTCVR),其中 UV_CTCVR 是评估业务增长的最关键指标。
参数配置:
模型使用 Adam optimizer 训练。
对于 DLRM ,每个 GPU 处理的 batch size 为 2400 ,使用 8 块 NVIDIA A100 GPUs 训练。对于 MTGR ,batch size = 96,使用 16 块 NVIDIA A100 GPUs 训练。
如 Table 2 所示,模型复杂度越高,学习率越低。
此外,随着计算复杂度的增加,我们通过配置不同的 embedding 维度按比例扩大 size of the sparse parameters 。假设一个 token 包含 embedding 维度通常设置为接近
因为一个
token可能是由多个feature embedding拼接而成。
值得注意的是,为避免 sparse parameters 过度扩展导致开销过大,我们主要增加 cardinality 较小的 sparse features 的维度,而保持 cardinality 极大的sparse features 的维度不变。
最后,1000 ,100。
我们使用 10-day dataset 评估 MTGR 和其他基线方法的性能,结果如 Table 3 所示。不同模型在各离线指标上的差异的趋势一致。根据以往经验,离线指标提升 0.001 即被认为具有显著意义。
在各类 DLRM 中:
Wukong-SIM 和 MultiEmbed-SIM 的性能优于 MoE-SIM。
UserTower-SIM 表现最佳,而 UserTower-E2E 相比 UserTower-SIM 性能略有下降。我们推测在 DLRM 范式下,模型复杂度不足以建模所有 sequence information ,导致欠拟合。
我们提出的 MTGR ,即使是最小的版本,也超过了性能最强的 DLRM 模型。且三种不同规模的 MTGR 模型均展现出 scalability ,性能随模型复杂度的增加而平稳提升。

我们基于 MTGR-small 对两个核心组件(Dynamic Masking 和 group layer norm: GLN)进行了消融实验,结果如 Table 4 所示。
移除其中任何一个组件都会导致性能显著下降,下降幅度与 MTGR-small 到 MTGR-medium 的性能提升幅度相当。这表明 Dynamic Masking 和 GLN 对 MTGR 至关重要。
GLN提升效果还可以。
此外,我们还额外实验了 cross features 对 MTGR 的重要性:移除 cross features 后,性能指标大幅下降,甚至抵消了MTGR-large 相比 DLRM 的性能优势,凸显了 cross features 在真实推荐系统中的关键作用。

Figure 3 展示了 MTGR 的 scalability :我们基于 MTGR-small ,对三个不同超参数(HSTU blocks 数量、模型维度 input sequence length )进行了测试。可以看出,MTGR 在不同超参数下均展现出良好的 scalability 。
此外,Figure 3(d) 呈现了性能与计算复杂度之间的幂律(power-law)关系:纵轴表示 CTCVR GAUC 相比性能最佳的 DLRM 模型(UserTower-SIM)的提升幅度,横轴表示计算复杂度相比 UserTower-SIM 的对数倍数。
这里的
sequence length是还是 ?因为这里有两个序列。读者猜测是 ,其中 固定为 100。

为进一步验证 MTGR 的有效性,我们将其部署于 Meituan 外卖平台,进行了 2% 流量的 AB test。实验流量规模达到每天数百万次曝光,确保了实验的可靠性。对比的 baseline 是当前最先进的在线 DLRM 模型(UserTower-SIM),该模型已持续学习 2 年。我们使用过去 6 个月的数据训练 MTGR 模型,然后在线部署 MTGR 进行对比。
尽管训练数据量显著少于 DLRM 模型,但 MTGR 的离线指标和在线指标仍大幅超过 DLRM 基线。如 Table 5 所示,离线指标和在线指标均展现出 scalability 。我们还发现,随着 training tokens 数量的增加,与 DLRM 相比, MTGR 的优势持续放大。最终,就 CTCVR GAUC 而言,我们的 large version 甚至超过了过去一年所有优化方案的累计提升幅度。
该模型已在我们的场景中全面部署,训练成本与 DLRM 相当,推理成本降低了 12%。对于 DLRM 而言,其 inference 成本与 candidates 数量近似呈线性关系。然而,MTGR 对 request 中的所有 candidates 都进行了 user aggregation,从而实现了inference 成本与 candidates 数量呈亚线性增长。这有助于我们降低 online inference 的开销。

本文提出了 MTGR ,一种基于 HSTU 的新型 ranking framework 来探索 recommendation systems 中 scaling law 。MTGR 融合了 DLRM 和 GRM 的优势,能够使用 cross-features 以保证模型性能,同时具备与 GRM 相当的 scalability。MTGR 已在我们的业务场景中全面部署,并取得了显著效益。未来,我们将探索如何将 MTGR 扩展到多场景建模,借鉴大语言模型的思路,构建具有广泛知识的 recommendation foundation model。
实际上,这篇论文与
GRM关系不大。