《On the Embedding Collapse When Scaling Up Recommendation Models》
foundation models 的最新进展催生了一个极具前景的趋势,即开发大型推荐模型以充分利用海量的可用数据。然而,主流推荐模型的规模仍然小得令人尴尬,且单纯扩大模型规模并不能带来足够的性能提升,这表明现有模型在 scalability 方面存在不足。在本文中,我们指出嵌入坍缩(embedding collapse)现象是阻碍 model scalability 的关键因素:embedding matrix 往往会占据一个低维子空间。通过实证分析和理论分析,我们揭示了 recommendation models 特有的 two-sided effect of feature interaction:
一方面,interacting with collapsed embeddings 会限制 embedding learning,进而加剧 collapse 问题。
另一方面,interaction 作为保障 scalability 的关键机制,在缓解过拟合方面发挥着至关重要的作用。
即,
interaction具有两面性:好的一面是缓解过拟合,坏的一面是加剧collapse问题。
基于上述分析,我们提出了一种简单而有效的 multi-embedding design,该设计融合了 embedding-set-specific interaction modules ,能够学习具有高度多样性的 embedding sets,从而减少 embedding collapse。大量实验表明,所提出的设计能够为各类推荐模型提供稳定的 scalability,并有效缓解 embedding collapse 问题。相关代码已开源至以下仓库:https://github.com/thuml/Multi-Embedding。
推荐系统是重要的 machine learning 应用场景,其基于海量的 multi-field categorical data 来预测用户对 items 的行为。在日常生活中,推荐系统扮演着不可或缺的角色,帮助人们发现符合自身兴趣的信息,并已被广泛应用于电子商务、社交媒体、新闻推送和音乐流媒体等各类 online applications 中。研究人员已开发出基于 deep-learning 的推荐模型,能够灵活挖掘 feature representations。这些模型已成功部署于众多 application 场景,充分证明了其广泛的适用性和有效性。
受 large foundation models 通过增加参数数量实现性能提升这一进展的启发,scale up 推荐模型规模以充分利用海量数据,这本应是一个极具前景的研究方向。然而,与直觉相悖的是,作为对性能起关键作用的核心组件,推荐模型的 embedding size 通常设置得极小(例如 《Bars: Towards open benchmarking for recommender systems》 中设置为 10 维),因此无法充分捕获数据中的丰富信息。更糟糕的是,如 Figure 1a 所示,增加 embedding size 不仅不能充分提升模型性能,甚至可能对模型造成负面影响。这表明:现有架构设计在 model scalability 方面存在缺陷,限制了推荐系统的性能上限。
对于
DCNv2,模型性能虽然并未随着embedding size的增加而下降,但是它提升幅度非常低,几乎可以忽略不计。
为探究这一现象背后的原因,我们通过奇异值分解(singular value decomposition)对学到的 embedding matrices 进行谱分析(spectral analysis),并在 Figure 1b 中展示了归一化后的奇异值(normalized singular values)。令人惊讶的是,大多数奇异值(singular values)都非常小,即学到的 embedding matrices 阵近乎低秩(low-rank ),我们将这一现象称为 embedding collapse 。随着模型规模的扩大,模型并未学习到更高维度的信息,这意味着参数利用效率(parameter utilization )低下,进而限制了模型的 scalability 。

在本文中,我们通过实证分析和理论分析深入研究了embedding collapse的形成机制,并揭示了作为推荐模型核心组件(用于建模 higher-order correlations )的 feature interaction module 对 model scalability 的 two-sided effect :
一方面,interaction with collapsed embeddings 会限制 embedding learning ,进而加剧 embedding collapse 问题。
另一方面,feature interaction 在 scaling up 模型规模时对减少 overfitting 至关重要,因此不能简单地限制或移除 feature interaction 模块。
基于上述分析,我们得出了在不抑制 feature interaction 的前提下缓解 embedding collapse 的核心原则,从而为构建 scalable models 提供了理论依据。我们提出了 multi-embedding ,作为一种简单而高效的 model scaling 机制。multi-embedding 通过增加独立的 embedding sets 的数量,并融合 embedding-set-specific interaction modules,从而共同捕获不同的模式。实验结果表明,multi-embedding 能够为各类主流推荐模型提供 scalability,并显著缓解 multi-embedding 问题,为突破推荐系统的 size limit 提供了一种有效方法。
本文的主要贡献如下:
据我们所知,我们首次指出了推荐系统中的 model scalability 问题,并发现了 embedding collapse 现象。 embedding collapse 是提升推荐模型 scalability 亟需解决的关键问题。
通过实证分析和理论分析,我们基于 embedding collapse 现象揭示了 feature interaction 过程对 model scalability 的 two-sided effect :feature interaction 会导致 embedding collapse ,但同时提供了必要的对抗过拟合的能力。
基于 “在不抑制 feature interaction 的前提下缓解 embedding collapse ” 这一核心原则,我们提出了一种统一的 multi-embedding 设计。该设计能够持续提升各类 SOTA 推荐模型的 scalability ,并有效缓解 embedding collapse 问题。
推荐系统中的模块:已有大量工作研究推荐系统的模块设计。一类研究专注于 feature interaction 过程,其中 feature interaction 是推荐系统特有的。这些工作旨在融合推荐系统的 domain-specific knowledge 。我们的工作不是提出新的模块,而是从机器学习的角度出发,分析现有模型的 scalability。
Collapse 现象:neural collapse 或 representation collapse 描述了 representation vectors 的退化。这一现象在监督学习、无监督对比学习、迁移学习、以及 generative models 中得到了广泛研究。《On the representation collapse of sparse mixture of experts》 讨论了 sparse MoEs 中的 representation collapse 。受这些工作的启发,我们将 embedding vectors 视为 representations ,从而认识到推荐模型中的 embedding collapse 现象。然而,我们面临的是 field-level interaction 的场景,这在之前的研究中尚未得到充分探讨。
固有维度和压缩理论:为描述数据的复杂性,现有工作包括基于固有维度(intrinsic-dimension )的量化、以及基于剪枝的分析。我们提出的 SVD-based 的信息丰度(information abundance)概念与这些工作相关。
推荐模型旨在基于多个 fields 的特征来预测 user action。在本文中,我们考虑推荐系统的基本场景,涉及 categorial features 和 binary outputs 。形式化地,假设存在 fields, ,第 field 表示为 field 的 cardinality 。令:
则推荐模型的目标是:学习从
除了考虑来自各种各样的 fields 的单个特征外,推荐系统领域已有大量研究通过 feature interaction 模块来建模 combined features 。在本文中,我们研究了主流推荐模型广泛采用的以下架构:一个推荐模型通常包含:
(1):每个 field 的 embedding layer embedding size ,
(2):一个 interaction 模块 embeddings 整合为 a combined feature scalar or vector 。
(3):一个后续的 postprocessing 模块 MLP 和 MoE)。
该模型的前向传播(forward pass )过程可形式化为:
其中: one-hot encoding 。即, embedding table
奇异值分解(singular value decomposition)已被广泛用于衡量 collapse 现象(《Understanding dimensional collapse in contrastive self-supervised learning》)。在 Figure 1b 中,我们展示了推荐模型学到的 embedding matrices 接近 low-rank ,且存在一些极小的奇异值(singular values)。为了量化这类具有低秩(low-rank)倾向的矩阵的 collapse程度,我们提出了信息丰度(information abundance)作为一种广义的度量指标。

信息丰度的定义:考虑矩阵
即,所有奇异值的和除以最大奇异值。
其中:
因此有,
。当 时,意味着 。
left singular vector)。
right singular vector)。
直观地,信息丰度高的矩阵在向量空间中具有均衡的分布(因为其 singular values 较为接近)。相反,信息丰度低的矩阵表明,对应于较小奇异值的分量可以被压缩,而不会对结果产生显著影响。与矩阵秩(matrix rank)相比,信息丰度可以看作是一种简单扩展(注意 non-strictly low-rank matrices ),尤其是对于 fields 数量 rank K )。
我们计算了扩大规模后的 DCNv2 (《DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems》)的 embedding matrices 的信息丰度,并与随机初始化的矩阵进行了比较,结果如 Figure 2 所示。可以观察到,学到的 embedding matrices 的信息丰度极低,这表明存在 embedding collapse 现象。
这是按照随机初始化方法中信息丰度从大到小来排序
Fields。

在本节中,我们深入探讨推荐模型中的 embedding collapse 现象。我们重新审视了作为推荐模型核心的 feature interaction 模块,并围绕以下两个问题展开研究:
(1):embedding collapse 是如何产生的?
(2):如何有效缓解 embedding collapse 并提升model scalability ?
通过实证研究和理论研究,我们揭示了 feature interaction 模块对 model scalability 的 two-sided effect 。
为了确定 feature interaction 如何导致 embedding collapse ,直接分析原始 embedding matrices 是不够的:因为学到的embedding matrix 是 interactions with all other fields 的结果,因此难以分离 impact of field-pair-level interaction 对 embedding learning 的影响。为解决这一难题,我们通过对 models with sub-embeddings 进行实证分析,并对一般模型进行理论分析,得出 feature interaction 会导致 embedding collapse 的结论,我们将其称为 interaction-collapse theory 。
为什么直接分析原始
embedding matrices是不够的?因为只看最终的
embedding矩阵的话,难以判断embedding collapse到底是由于field本身引起的,还是由于与其它field的交互所引起的。而为什么分析
models with sub-embeddings是可行的?因为每个
sub-embedding专门用于field pair之间的交互。从而有助于判断embedding collapse到底是由于field本身引起的,还是由于与其它field的交互所引起的。
Evidence I: Empirical analysis on models with sub-embeddings:DCNv2 通过在每个 field pair 之上引入一个 crossing network (由 transformation 矩阵 field embedding vector 进行投影,然后 field field all projected embedding vectors ,DCNv2 可以被视为从 embedding matrix field-aware sub-embeddings fields 进行交互。这些 field-aware sub-embeddings 的形式为:
DCNv2 由多个堆叠的 cross layers 组成,为简化分析,我们仅讨论第一层。为了确定 sub-embedding matrices 的 collapse 程度,我们计算了所有 pairs 的 Figure 3a 所示。为方便起见,我们根据信息丰度的升序对 field indices 进行预排序,即根据
可以观察到,
注意,横轴的
field是根据对 进行排序( 的排序方式类似)的。
有趣的是,我们还观察到另一种相关性(correlation):sub-embeddings 的信息丰度受到其交互的 fields 的共同影响,表现为沿 Figure 3b 和 Figure 3c 所示。上升趋势和相关系数证实了
我们还对同样包含 sub-embeddings 的 FFM 模型的信息丰度进行了分析,得到了类似的观察结果(见附录 H)。
这一段的核心结论是:
sub-embeddings的信息丰度受到其交互的fields的共同影响。

Evidence II: Theoretical analysis on general recommendation models:现在,我们从理论上证明,即使没有 sub-embedding ,一般模型中的 feature interaction 也会导致 embedding collapse 。为简化分析,我们考虑 FM 风格的 feature interaction 。形式化地,feature interaction 过程定义为:
其中:combined feature)。
不失一般性,我们讨论 embedding matrices 的 fixed 的。考虑一个 batch size = B 的 mini-batch。令
该方程表明,梯度可以分解为 field-specific 的项。我们考虑某个 field embedding matrix training data 和 objective function 决定。因此,variety 显著影响梯度分量
类似地,因此 a collapsed matrix。
当
信息丰度低时,其奇异值 的分布极不均衡,大部分 为零,只有少部分非零。这意味着在求和 中:
对应于大奇异值
的项 会占据绝对主导地位。 对应于小奇异值的项贡献微乎其微。
因此,梯度分量
的方向几乎完全由那几个最大的 决定,而不是所有 的均衡组合。这就是“权重不平衡”。 梯度
指导着 的更新方向。如果其中某个分量 被限制在少数几个方向上,那么 为了最小化损失,其更新也会被“拉向”这些方向。这限制了 在其他正交方向上的探索和学习,使其表达能力受限,即发生“退化”。长此以往, 也会倾向于落在这几个主导方向张成的低维子空间里。 刚开始
随机初始化的时候,信息丰度不低。随着训练的进行, 的信息丰度可能下降(比如过拟合、或者噪音)。
为进一步说明,我们在合成数据上进行了一个简单实验。假设存在 fields,我们将 field cardinality 的 diverse range 相符。我们在保持 G。Figure 4 展示了两种情况下 low-information-abundance matrix 进行交互会导致 a collapsed embedding 。
当
时, 的秩小于等于 ,因此最多有 个非零的奇异值。当 时, 的秩小于等于 ,因此最多有 个非零的奇异值。 在固定
的情况下,第一种情况有更低的 。而更低的 会导致更低的 。这是因为低信息丰度的 embedding矩阵会通过特征交互的梯度传播机制,限制其他字段embedding的学习空间,导致其也趋向坍塌。

Summary: How is collapse caused in recommendation models?:Evidence I 表明,与 low-information-abundance field 进行交互会导致 a more collapsed sub-embedding 。考虑到 sub-embeddings 源于原始 embeddings ,反映了 fields interact 的影响,我们认识到 feature interaction 导致 embedding collapse 的内在机制——这一机制得到了我们理论分析的进一步证实。我们得出 interaction-collapse theory :
Finding 1 (Interaction-Collapse Theory):在推荐模型的 feature interaction 中,fields with low-information-abundance embeddings 会限制其他 fields 的信息丰度,导致 collapsed embedding matrices 。
interaction-collapse theory 表明,feature interaction 是导致 embedding collapse 的主要诱因,从而限制了模型的理想的 scalability 。
根据上述讨论,我们已经表明推荐模型的 feature interaction 过程会导致 embedding collapse ,进而限制模型的 scalability。现在我们讨论其逆命题:即抑制 feature interaction 以缓解 embedding collapse 是否会带来模型 scalability 的提升?为回答这一问题,我们设计了以下两个实验,对比标准模型、以及 feature interaction 被抑制的模型。
Evidence III: Limiting the modules in interaction that leads to collapse:Evidence I 表明,投影矩阵 sub-embeddings 的信息丰度,从而导致 embedding collapse。现在,我们通过引入以下带有可学习参数 model scalability:
其中:
该正则化项将投影矩阵 normalized singular values),并在投影后保持信息丰度。我们在不同 embedding sizes 下进行了实验,对比了标准模型和正则化后的模型的性能变化、信息丰度、以及 optimization dynamics 。结果如 Figure 5 所示。正如预期的那样,DCNv2 中的正则化有助于学习具有更高信息丰度的 embeddings。然而,模型出现了出乎意料的结果:即使 embedding collapse 得到缓解,scalability 也没有提升,甚至有所恶化。研究发现,正则化后的模型在学习过程中会发生过拟合,表现为 training loss 持续下降而 validation AUC 下降。

Evidence IV: Directly avoiding explicit interaction:现在,我们研究直接抑制 feature interaction 对scalability的影响。我们以 DNN 为例——它包含一个简单的 interaction 模块,将来自不同 fields 的所有 feature vectors 拼接起来,并用 MLP进行处理。由于 DNN 不进行显式的二阶 feature interaction ,根据我们之前的 interaction-collapse theory,它受到的 embedding collapse 影响应该较小。我们对比了 DCNv2 和 DNN 学到的 embeddings 、以及它们的性能随 embedding size 增长的变化。考虑到不同架构或目标函数在建模方面可能存在差异,我们主要讨论性能趋势以进行公平比较。结果如 Figure 6 所示。
DNN 学到的 embedding matrices 的 collapse 程度较低,表现为信息丰度高于 DCNv2。
然而,事与愿违的是,当增加 embedding size 时,DNN 的 AUC 反而下降。
这一观察结果表明,尽管 DNN 受到的embedding collapse 影响较小,但它仍然存在过拟合问题,且缺乏 scalability。

Summary: Does suppressing collapse definitely improve scalability?:Regularized DCNv2 和 DNN 都是 feature interaction 被抑制的模型——正如预期的那样,它们学到的 embedding matrices 的 collapse 程度低于 DCNv2。然而, evidence III&IV 中的观察结果表明,Regularized DCNv2 和 DNN 都无法随着模型规模的增长而在 AUC 上实现提升,并且都存在严重的过拟合问题。我们得出以下发现:
Finding 2:由于过拟合问题,通过不恰当地抑制 feature interaction 而获得的 a less-collapsed model 不足以实现 scalability。
这一 finding 是合理的,因为feature interaction 融入了推荐系统中 higher-order correlations 的 domain knowledge,有助于形成具有泛化能力的 representations。当 feature interaction 被抑制时,随着 embedding size 的增加,模型往往会拟合噪声,导致泛化能力下降。
在本节中,我们提出了一种简单的 multi-embedding design ——它是一种适用于多种推荐模型架构的有效的 scaling 机制。我们将介绍其整体架构、展示实验结果,并分析 multi-embedding 的工作原理。我们还将讨论 data 的作用,从而为 multi-embedding 提供全面的分析。
feature interaction 对 scalability 的 two-sided effect 为 model design 提供了一个核心原则:即 a scalable model 应能够在现有 feature interaction 框架内学习 less-collapsed embeddings ,而不是移除 interaction 。基于这一原则,我们提出了 multi-embedding: ME 作为一种简单而高效的设计,以提升模型 scalability 。
具体来说,我们通过增加 independent and complete embedding sets 的数量(而非 embedding size ),并融合 embedding-set-specific feature interaction 模块。与 group convolution(《Imagenet classification with deep convolutional neural networks》)、multi-head attention(《Attention is all you need》)、以及推荐系统中其他 decoupling-based 的工作类似,这种设计允许模型联合学习不同的 interaction patterns,从而得到具有 large diversity 的 embedding sets 。而 a single-embedding model 在 pattern extraction 方面受到限制,容易遭受严重的 embedding collapse 。通过 multi-embedding,模型在保留原始 interaction 模块的同时,受到 interaction-collapse theory 的影响较小,从而缓解了 embedding collapse。形式化地,具有 embedding sets 的推荐模型定义为:
其中: embedding set 的 index。
这里,多个
feature interaction是通过均值池化来融合的。也可以考虑用 gate-based或者attention-based方法来融合,从而考虑不同interaction的重要性。注意:
interaction的融合发生在postprocessing模块之前。
multi-embedding 的一个关键要求是,interaction 模块 ReLU)。否则,模型将等价于 single-embedding,无法捕获不同的模式。作为解决方案,我们在具有线性 interaction 模块的模型的 interaction 之后添加一个非线性投影,并减少 postprocessing 模块 MLP 层,以实现公平比较。single-embedding models 和 mult-embedding models 的整体架构对比如 Figure 7 所示。
对于
multi-head attention网络,multi-head本身就起到了multi-embedding的作用。

数据集:我们在两个推荐系统基准数据集上进行了实验:Criteo 和 Avazu 。这两个数据集规模庞大、具有挑战性,被广泛用于推荐系统研究。
baseline 方法:包括 DNN、IPNN、NFwFM、xDeepFM、DCNv2、FinalMLP 、以及它们对应的 multi-embedding 变体(模型规模为 2 倍、3 倍、4 倍和 10 倍)。其中,NFwFM 是 NFM的一个变体,它用 FwFM 替换了 FM。
所有实验均采用 8/1/1 的 training/validation/test splits,并基于 validation AUC 进行 early stopping。更多细节见附录 C.2。
实验结果:我们每个实验重复 3 次,并报告不同 scaling factors 下的平均 test AUC。结果如 Table 1 所示。
对于 single-embedding 模型,我们观察到所有模型都表现出较差的 scalability :
只有 DCNv2 和 NFwFM 随着 embedding size 的增加表现出轻微的性能提升(Criteo/Avazu上分别提升 0.00036/0.00093)。
而对于高度依赖 non-explicit interaction 的 DNN、xDeepFM 和 FinalMLP,当规模扩大到 10 倍时,性能甚至下降(Criteo 上下降 0.00136,Avazu 上下降 0.00118)。这与 1.4.2 章节中的讨论一致。
相比之下,我们的 multi-embedding 随着 embedding size 的增长表现出持续且显著的性能提升,并且在最大的 10 倍规模下始终取得最佳性能。
对于 DCNv2 和 NFwFM, multi-embedding 在 Criteo上通过扩大到 10 倍实现了 0.00099 的性能提升、在 Avazu 上实现了 0.00223 的性能提升。这是 single-embedding 无法实现的。
在所有模型和数据集上,与 baselines 相比,最大规模的 multi-embedding 模型平均在 test AUC 上实现了 0.00110 的提升。
multi-embedding 为突破现有模型的 non-scalability 限制提供了一种有效方法。Figure 8a 可视化了 multi-embedding 在 Criteo 数据集上的 scalability。标准差和详细的 scalability 对比见附录 C.3。
根据实验结果来看,直接扩大
embedding参数似乎带来的提升都很微弱,即使是采用MultiEmbed。但是,采用MultiEmbed的效果要比SingleEmbed更好,这有利于embed size的超参数调优。


embedding collapse 的缓解:为了衡量 mitigation of collapse ,我们对比了 single-embedding DCNv2 和 multi-embedding DCNv2 (最大 10x embedding size )的信息丰度。为了计算multi-embedding DCNv2 的信息丰度,我们将 multi-embedding DCNv2 中 a single field 的所有 embeddings 拼接在一起,作为这个 field 的 overall embedding。结果如 Figure 8b 所示。可以观察到,与 single-embedding DCNv2 相比,multi-embedding DCNv2 一致地提高了所有 fields 的信息丰度,尤其是对于 fields with larger cardinality。
这些结果表明,multi-embedding 是一种简单而有效的方法,能够在不引入大量计算资源或超参数的情况下,缓解 embedding collapse 并获得 scalability gain。
Deployment in the online system:经过 2023 年 1 月的 online A/B testing,multi-embedding 范式已成功部署于腾讯在线广告平台(全球最大的广告推荐系统之一)。将微信朋友圈(WeChat Moments)的 click prediction model 从 single-embedding 升级为我们提出的 multi-embedding 范式后,商品交易总额(Gross Merchandise Value: GMV)提升了 3.9% ——这意味着每年带来数亿美元的收入增长。
受 interaction-collapse theory 的影响较小:根据我们之前的 interaction-collapse theory 和相应分析,embedding collapse 是由不同 fields 之间的 feature interaction 引起的,具体表现为对 sub-embeddings 信息丰度的共同影响。我们证明了 multi-embedding 受这种影响较小。回顾 1.4 节,我们通过计算 the field to interact with 的影响。在这里,我们相应地可视化了 multi-embedding DCNv2 和 single-embedding DCNv2 的结果,如 Figure 9 所示。可以观察到,multi-embedding 中的相关系数显著小于 single-embedding(0.52 对比 0.68)。因此,信息丰度受 the field to interact with 的影响较小,从而减轻了 interaction-collapse theory 的影响。

通过 embedding diversity 缓解 embedding collapse:我们进一步证明,multi-embedding 通过允许 diversity of embedding sets 来缓解 embedding collapse。为说明这一点,我们引入主角度(principal angle)的余弦 field a pair of embedding sets space similarity ):通过以下进一步的奇异值分解计算:
低秩的 overall embedding
来描述 diversity of embedding sets。多样性越大,表明 overall embedding 的信息丰度越高,或 embedding collapse 的缓解效果越好。
为进行对比,我们分别将 embedding of a single-embedding DCNv2 和 ideal random-initialized matrix 分割为 embedding sets ,并与 multi-embedding DCNv2 进行比较。 Figure 10a 展示了所有 embedding set pairs 和所有 fields 的平均多样性。结果表明,与 single-embedding 相比,multi-embedding 能够显著降低 embedding set similarity ,从而缓解 embedding collapse。

从 separated interaction 中获得 diversity:我们进一步证明,multi-embedding 模型的 embedding diversity 源于 embedding-set-specific feature interaction 模块——这允许 embedding sets 捕获 diverse interaction patterns 。
一方面,我们在 Figure 10b 中可视化了 multi-embedding DCNv2 模型的 interaction pattern (《DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems》)。结果表明,interaction 模块学习到了多样化的模式。
另一方面,我们将 multi-embedding 与两种具有 non-separated interaction 的变体进行了比较:
(a):所有 feature interaction 模块在所有 embedding sets 之间共享。
(b):通过正则化来限制所有 embedding sets 之间
结果如 Figure 10c 和 Figure 10d 所示。与 multi-embedding 中的 separated design 相比,这两种 feature interaction design 变体表现出更差的 scalability 和 embedding diversity ,表明 multi-embedding 的有效性源于 separation of interaction modules。
在本文中,我们主要关注 model scalability ,并指出了推荐模型的固有问题—— embedding collapse。我们实验中 benchmark datasets 的海量数据量,为 embedding collapse 现象提供了与数据量无关的可信度。在本节中,我们进一步讨论 embedding collapse 现象在不同数据量下的表现。为说明这一点,我们使用 Criteo 数据集的不同规模子集进行了额外实验。我们测量了不同 model scales 下 embedding 矩阵的平均信息丰度,结果总结于 Table 2。
从结果可以观察到,数据规模确实会影响 embedding 矩阵的信息丰度,但信息丰度并不会随着数据规模的增加而严格增加,甚至可能下降(尤其是对于较大的模型)。这一发现背后的原因是,embedding collapse 由两个方面决定:
(1):数据规模,会增加信息丰度。
(2):interaction-collapse law,会降低信息丰度。
在给定
embed size的情况下,数据量越多,信息丰度越低。这代表了embedding matrix拟合数据的结果。这通常是由于feature interaction的影响,因为更多的数据包含了更多的interaction。
在所有结果中:
只有当数据规模为 10%∼100% 且 embedding size = 5、或数据规模为 30%∼100% 且 embedding size in (10, 15, 20, 25) 时,我们观察到 embedding collapse 是由 limited data 导致的。
而在大多数其他情况下,异常的下降趋势表明embedding collapse 是由 interaction-collapse law 而非 limited data 导致的。
此外,multi-embedding 在不同数据量下都一致地优于 single-embedding ,表明我们提出的 multi-embedding design 具有普适性。

在本文中,我们指出了现有推荐模型的 non-scalability 问题,并确定了阻碍 scalability 的 embedding collapse 现象。通过围绕 embedding collapse 的实证分析和理论分析,我们得出了 feature interaction 对 scalability 的 two-sided effect:即 feature interaction 会导致embedding collapse ,但同时减少过拟合。我们提出了一种统一的 multi-embedding design ,在不抑制 feature interaction 的前提下缓解 embedding collapse 。benchmark datasets 上的实验表明,multi-embedding 能够一致地提升模型 scalability,并有效缓解 embedding collapse 。
对于推荐模型,embedding 模块占据了参数量的最大部分(对于 Criteo 数据集,在我们的 DCNv2 baseline 中超过 92%;在工业模型中的比例更高),因此是模型中重要且关键的 bottleneck 部分。为进一步说明,我们讨论了推荐模型其他模块的 scaling up ——即 feature interaction 模块 postprocessing prediction 模块 DCNv2 baseline 中的 #cross layers 和 #MLP layers,并在 Table 3 中展示了结果。
可以观察到,增加 #cross layers 或 #MLP layers 并不会带来性能提升,因此扩大 embedding size 是合理且必要的。

为了将分析扩展到其他模型,我们考察了 pretrained T5 模型,并评估了其(归一化的)奇异值以进行比较。结果如 Figure 11 所示。观察发现,T5 与 DCNv2 相比:
(1):保持了更高的归一化奇异值(normalized singular values)。
(2):尽管其 embedding size 更大,但其极小奇异值的比例更低。
这些观察结果表明,T5 对 embedding collapse 现象的敏感性较低,这可能是因为 text-based models 受 field interactions 的 interaction-collapse law 的影响较小;而 field interactions 是导致 embedding collapse 的原因。

数据集(Appendix C.1):Criteo 和 Avazu 的统计信息如 Table 4 所示。可以看出,数据量充足,且

实验配置(Appendix C.2):
Specific multi-embedding design:
对于 DCNv2、DNN、IPNN 和 NFwFM,我们分别在 the stacked cross layers、 the concatenation layer 、the inner product layer 和 the field-weighted dot product layer 之后添加一个非线性投影。
对于 xDeepFM,我们直接对 compressed interaction network 的输出进行平均,并以与 pure DNN model 相同的方式处理the ensembled DNN 。
对于 FinalMLP,我们分别对 two-stream outputs 进行平均。
超参数:
所有实验均使用 random seed 0 将数据集按 8:1:1 分割为 training/validation/test。
我们使用 Adam optimizer, batch size = 2048,学习率为 0.001,weight decay = 1e-6。
对于 base size,考虑到池化操作因此 NFwFM 的 embedding size = 50,其他所有实验的 embedding size 设置为 10。
我们发现 MLP 的 hidden size 和 depth 对结果影响不大;为简化起见,所有模型的 hidden size 均设置为 400,depth 设置为 3(2 hidden layers 和 1 output layer )。
DCNv2 使用 4 cross layers,xDeepFM 的 hidden size 设为 16。
所有实验均基于 validation AUC 进行 early stopping(patience = 3)。
每个实验使用不同的 random initialization 重复 3 次。
所有实验均可在单个 NVIDIA GeForce RTX 3090 上完成。
实验结果(Appendix C.3):此处提供详细的实验结果及 estimated 的标准差。具体来说:
Tbale 5 和 Figure 12 展示了 Criteo 数据集上的结果。
Table 6 和 Figure 13 展示了 Avazu 数据集上的结果。




我们还在 AutoInt 上进行了实验,对比了 single-embedding 和 multi-embedding 的性能。由于计算资源有限,我们仅在 Criteo 数据集上将模型扩大到 4 倍。结果如 Table 7 所示。可以观察到,single-embedding 存在 non-scalability 的问题,而我们的 multi-embedding 随着模型规模的增长持续提升性能:通过简单地 scaling up 从而实现了 6e-4 的 AUC 提升。

我们之前提到,multi-embedding 的 embedding-set-specific feature interaction 应包含非线性(non-linearity);否则,模型将退化为 single-embedding 模型。
为简化起见,我们考虑一种更强版本的 multi-embedding:来自不同 embedding sets 的 combined features 被拼接起来,而不是均值池化。为进一步说明,考虑 linear feature interaction 模块 linear feature interaction 模块
这表明:a multi-embedding model 等价于 a model by concatenating all embedding sets。我们将进一步证明,所推导出的具有 embedding size = MK 的 single-embedding 模型是同构的:即,对于 linear feature interaction 模块,multi-embedding 与 single-embedding 相似。令 single-embedding 的 feature interaction 模块为 homogeneity)。
DNN:忽略后续的 MLP,DNN 通过将所有 fields 拼接起来从而包含一个 non-parametric interaction module 。形式化地,我们有:
换句话说,multi-embedding 和 single-embedding 是等价的。
Projected DNN:如果我们在 DNN 之后添加一个线性投影(linear projection),则可以将投影针对 fields 和 embedding sets 进行拆分,并推导得到:
换句话说,combined features 进行平均(而非拼接)以恢复我们所提出的 multi-embedding 版本,则 multi-embedding 乘以标量 single-embedding 之间是等价的。
DCNv2:DCNv2 通过以下方式融合 feature interaction:
因此,通过拆分
通过简单地令 permutation)从而将 multi-embedding 模型转换为 single-embedding 模型。因此,对于 DCNv2,multi-embedding 是 single-embedding 的一个特例。
总结:总之,linear feature interaction module 会导致 single-embedding和 multi-embedding 的同构性。因此,在 feature interaction 模块中使用或引入非线性是必要的。
在 1.5.3 节中,我们提出使用主角度(principal angle)来衡量 embedding set diversity。此处我们介绍其动机和一个示例。注意:
其中倒数第二行由
因此,我们将其推广为 1 − similarity 作为多样性。
考虑以下的 example of diversity:一个 embedding size = 2 的 embedding 被学习为:
其中:
如果将其扩大到 embedding size = 4,由于 interaction-collapse theory,它可能被学习为:
其中:embedding size 并没有增加信息丰度。
当使用 multi-embedding 时,embedding sets 可能被学习为具有高度多样性,overall embedding 被学习为:
其中:multi-embedding 是有效的。
在本节中,我们介绍 toy experiment 的详细设置。我们考虑 fields 的场景,embedding 矩阵,固定 full-batch SGD,学习率为 1。模型总共训练 5000 iterations。
Field-aware factorization machines: FFM 将 field embedding 矩阵拆分为多个 sub-embeddings:
其中: sub-embedding field field
我们进行了与 Evidence I 相同的实验,类似地发现 Figure 14 所示。这一结果令人惊讶:即使使用独立的 embeddings 来表示相同的 field features,这些 embeddings 在学习后也会具有不同的信息丰度。
这些
embeddings在学习之后:即。

当两个 embedding 矩阵具有相同的 embedding size 时,我们提出的信息丰度是一个公平的度量指标。为了将该定义应用于不同 embedding size 之间的比较,一些可能的扩展包括 embedding size,
我们在 Figure 15 中对比了第一种扩展(即, embedding size 下的表现。结果表明,collapse 程度随着 embedding size 的增加而加剧:这与 Figure 1b 中的观察结果一致。

关于 Evidence II,我们提出了对权重矩阵 sub-embeddings 中投影 collapse。通过将 sub-embedding 的所有奇异值都得到保留。因此,regularized DCNv2 中 sub-embeddings 的信息丰度大于 standard DCNv2。我们在 Figure 16 中绘制了 embeddings 和 sub-embeddings 的信息丰度的热力图。这清楚地表明,regularized DCNv2 具有更高的信息丰度。基于我们的 Finding 1,regularized DCNv2 通过增加了 sub-embeddings (这个 sub-embedding 是当前 sub-embedding 直接 interact with 的)的信息丰度,缓解了 embedding collapse 问题。

在本节中,我们分析了 feature interaction 被抑制的模型中的 Multi-Embeddings ——如 1.4.2 节所讨论的,Single-Embeddings 在这些模型中会遭受过拟合。
Evidence III for Multi-Embeddings:我们为 Multi-Embedding DCNv2 添加了正则化:
并在不同 embedding size 下进行了实验。结果如 Figure 17a 所示。尽管其性能低于 without regularization 的情况,但与Single-Embeddings 相比,Multi-Embeddings 仍然随着模型规模的增长持续提升性能。

Evidence IV for Multi-Embeddings:我们对比了 Single-Embeddings/Multi-Embeddings 在 DNN/DCNv2 上的性能,结果如Figure 17b 所示。与 Single-Embeddings DNN 相比,Multi-Embeddings DNN 随着模型规模的增长提升了性能。
总结:即使 feature interaction 被抑制,Multi-Embeddings 仍能提供 scalability。对于 feature interaction 被抑制的模型(如 regularized DCNv2 和 DNN),Single-Embeddings 的性能可能会随着模型规模的扩大而下降——因为 feature interaction 提供了 domain knowledge,而大型模型可能会遭受过拟合。实验表明,这些模型与 Multi-Embeddings 结合后能够实现适当的 scale up。这一结果是合理的,因为 Multi-Embeddings 通过捕获 diverse patterns 来提升 scalability,而不是依赖单个 interaction pattern 进行学习。