四十六、EDCN[2021]

《Enhancing Explicit and Implicit Feature Interactions via Information Sharing for Parallel Deep CTR Models》

  1. 有效地建模feature interactions 对于工业推荐系统中的CTR 预测至关重要。具有并行结构的SOTAdeep CTR 模型(例如DCN )通过独立的并行网络学习显式的和隐式的feature interactions 。然而,这些模型存在简单共享(trivial sharing )的问题,即hidden layers 的共享不足、以及network input 的共享过度,限制了模型的表达能力和有效性。

    因此,为了增强显式的和隐式的feature interactions 之间的信息共享,我们提出了一种新颖的deep CTR 模型EDCNEDCN引入了两个高级模块,即桥接模块(bridge module)和调制模块(regulation module )。对于并行网络的每一个hidden layer,这两个模块协同工作以捕获layer-wise 的交互信号并学习差异性的特征分布(discriminative feature distributions )。此外,两个模块是轻量级的、以及模型无关的,可以很好地推广到主流的并行deep CTR 模型。我们进行了大量的实验和研究,以证明EDCN 在两个公共数据集和一个工业数据集上的有效性。此外,还验证了两个模块与各种并行结构的模型的兼容性,并已部署到华为在线广告平台上;经过一个月的A/B test ,与并行结构的base 模型相比,CTReCPM 分别提高了7.30%4.85%

  2. 近年来,基于深度学习的CTR 模型迅速兴起,具有以端到端方式来捕获informative feature interactions 的能力,摆脱了手动特征工程和pre-defined formula 的阻碍。代表性模型,如Wide & DeepDeepFMDCNPINDINDIEN,联合学习显式的和隐式的feature interactions 并实现显著的性能提升。这些deep CTR 模型可以根据所用于建模显式的和隐式的feature interactions 的网络的组合方式分为两类,即并行结构(parallel structure )和堆叠结构(stacked structure ),如Figure 1 所示。

    • 具有堆叠结构的模型将两个网络以串行的方式组合在一起,其中一个网络用于显式的有界阶次的feature interactions ,另一个网络用于隐式的feature interactions ,例如PINDINDIEN

    • 另一方面,具有并行结构的模型以并行的方式联合训练两个网络,例如DeepFMDCNxDeepFM ,如Figure 2 所示。

  3. 在本文中,我们专注于通过信息共享(information sharing )来增强显式的和隐式的feature interactions 从而来优化具有并行结构的模型。为了使我们的演示简单明了,我们以Deep & Cross Network: DCN 为例,这是一个具有代表性的并行结构的模型,在模型性能和效率之间取得了良好的平衡。然而,两个并行网络之间执行的简单共享策略限制了其表达能力和有效性,详述如下。

    • hidden layers 的共享不足(insufficient sharing ):DCN 并行且独立地执行交叉网络(显式交互)和深度网络(隐式交互),并且学到的latent representations 直到最后一层才融合。我们将这种融合模式称为late fusion 。在late fusion 中,显式的和隐式的feature interaction networks 不会在intermediate hidden layers 共享信息,这会削弱彼此之间的interactive signals ,并且可能在反向传播过程中容易导致梯度倾斜(《 Dense multimodal fusion for hierarchically joint representation》)。总而言之,这种hidden layers 的共享不足的策略,阻碍了这些并行结构模型中effective feature interactions 的学习过程。

    • network input 的过度共享(excessive sharing)。DCN 中的交叉网络(cross network)和深度网络(deep network)共享相同的embedding layer 作为输入,这意味着所有input features 都被无差别地输入到并行网络中。然而,正如《AutoFeature: Searching for Feature Interactions and Their Architectures for Click-through Rate Prediction》 所指出的,不同的特征适用于不同的interaction 函数。因此,network inputs 的过度共享,以及将所有特征无差别地输入到所有并行网络中,可能不是一个合理的选择,会导致性能不佳。

    为了解决上述各种并行结构的模型中普遍存在的sharing 问题,我们提出了一种基于DCN 的新型deep CTR 模型,即Enhanced Deep & Cross Network: EDCN 。具体来说,我们引入了两个新模块,即bridge moduleregulation module ,分别解决hidden layersinsufficient sharing 、以及network inputexcessive sharing 的问题。

    • 一方面,bridge module 通过在交叉网络和深度网络之间建立连接进行dense fusion ,从而捕获并行网络之间的layer-wise interactive signals ,并增强feature interactions

    • 另一方面,regulation module 旨在通过soft selection 方式通过field-wise gating network 学习不同子网络的差异化的特征分布(discriminative feature distributions )。此外,regulation module 还能够与bridge module 协同工作,进一步学习每个hidden layer 的合理输入,使两个并行网络协同学习显式的和隐式的feature interactions

    这两个模块轻量级且与模型无关,可以很好地推广到各种并行结构的deep CTR 模型,以显著提高性能,同时降低时间复杂度和空间复杂度。

    不一定能降低时间复杂度和空间复杂度,事实上这两个模块会增加复杂度。

  4. 贡献:

    • 我们分析了并行结构模型中存在的sharing 的问题,即hidden layersinsufficient sharing 、以及network inputexcessive sharing ,并提出了一种新颖的deep CTR 模型EDCN ,以增强显式的和隐式的feature interactions 之间的信息共享。

    • EDCN 中,我们提出bridge module 从而捕获并行网络之间的layer-wise interactive signals ,提出regulation module 来学习两个网络的每个hidden layer 的差异化的特征分布。

    • 我们提出的bridge module and regulation module 是轻量级的和与模型无关的,可以很好地推广到主流的并行deep CTR 模型以提高性能。

    • 在两个公共数据集和一个工业数据集上进行了大量的实验,以证明EDCN 优于SOTA baseline。此外,还验证了bridge module and regulation module 与各种并行结构的CTR 模型的兼容性。在华为广告平台进行的为期一个月的online A/B test 显示,两个模块在CTReCPM 方面分别比base 模型提升了7.30%4.85%

46.1 基础概念

  1. 给定数据集 D ,假设它包含 Q 个样本 (x,y) ,其中 y{0,1} 表示用户是否点击,x 为一条multi-fields 的数据记录。CTR 预估任务是对每个输入 x ,估计概率 Pr(y=1x)

    为了更好地预测在现实的复杂环境下的用户行为,互联网规模的工业推荐系统收集了大量的特征,包括用户画像(性别、年龄)、item 属性(名称、类目)、以及上下文信息(例如workday 、位置)来构建训练数据集。

    对于数值特征(例如bidding price 、使用次数),常用的方法是离散化,包括:

    • soft discretization :如AutoDis

    • hard discretization :通过将numerical features 变换为categorical features ,例如对数离散化(logarithm discretization )、和基于树的离散化。

    然后,可以通过field-aware one-hot encodingmulti-field categorical record 转换为高维稀疏特征。例如,一个实例(Gender=Male, Age=18, Category=Electronics, ..., Weekday=Monday) 可以被表示为:

    x=[0,1]Gender[0,1,0,,0]Age[0,0,1,,0]Category[1,0,0,,0]Weekday

    对于遵循feature embedding & feature interaction 范式的基于深度学习的CTR 模型,它应用embedding layer 将每个稀疏向量转换为低维稠密向量,这通常称为feature embedding 。对于第 icategorical field ,可以通过embedding look-up 操作获得feature embedding

    ei=Eixi

    其中:

    • EiRvi×kembedding 矩阵,vivocabulary 规模,kembedding size

    • xiRvione-hot 向量。

    因此,embedding layer 的结果表示为:

    e=[e1||e2||||ef]Rkf×1

    其中 f 表示field 数量,[||] 表示向量拼接。

    然后,feature embedding 被馈入到堆叠结构或并行结构的模型中,从而捕获explicit/implicit feature interactions 。接着通过判别函数 y^=fCTR(e) 来获得预测的CTR 得分。

  2. DCNDCN 是一个典型的并行结构的CTR 模型,它将embedding e 馈入两个独立的子网络,即交叉网络和深度网络,用于建模显式的和隐式的feature interaction 。具体而言,这两个网络中的cross layersdeep layers 分别表示为:

    xl+1=x0xlwlc+blc+xlhl+1=ReLU(Wldhl+bld)

    其中:

    • xl 为第 lcross layer 的输出,wlc,blc 为第 lcross layer 的权重参数和偏置参数。

    • hl 为第 ldeep layer 的输出,Wld,bld 为第 ldeep layer 的权重参数和偏置参数。

    注意,交叉网络和深度网络的输入是相同的,即 x0=h0=e

    最后,交叉网络和深度网络的结果在最后一层(第 L 层)进行融合,然后馈入到输出层进行预测,可以表示为:

    y^DCN=sigmoid(w[xL||hL]+b)

    其中:

    • w,b 为输出的权重参数和偏置参数。

    • sigmoid()sigmoid 函数。

    然而,简单的共享策略限制了DCN 的表达能力和有效性。

    • 一方面,交叉网络和深度网络是独立的,学到的representations 直到最后一层才融合。

    • 另一方面,交叉网络和深度网络都以相同的embedding e 作为输入,而忽略了对feature selection 的重视。

    这两个缺陷阻碍了DCNeffective feature interactions 的学习过程,导致性能不佳。为了克服这些问题,我们提出了一种Enhanced Deep & Cross Network: EDCN ,它有两个模块,即bridge moduleregulation module ,将在下一节中介绍。

46.2 EDCN

  1. EDCN的架构如Figure 4 所示,与原始DCN 相比,它包括两个核心模块,即bridge moduleregulation module

46.2.1 Bridge Module

  1. 现有的并行的deep CTR 模型分别通过两个并行子网络学习显式的和隐式的feature interactions ,例如DeepFMDCNxDeepFMAutoInt。两个子网络分开独立运行,这意味着直到最后一层才进行信息融合,这称为后期融合(late fusion )。后期融合策略无法捕获在中间层(intermediate layers )中两个并行网络之间的相关性,从而削弱了explicit and implicit feature interaction 之间的交互信号。此外,每个子网络中冗长的updating progress 可能导致反向传播过程中梯度倾斜(《 Dense multimodal fusion for hierarchically joint representation》),从而阻碍两个网络的学习过程。

    为了克服这一限制,我们引入了一种dense fusion 策略,该策略由我们提出的bridge module 实现,以捕获两个并行网络之间的layer-wise 交互信号。与仅在子网络的最后一层执行信息共享的late fusion 不同,dense fusion 在每一层共享中间信息(intermediate information),利用multi-level 交互信号,并缓解梯度问题。Figure 3 展示了late fusiondense fusion 之间的比较。

  2. 更具体地说,在EDCN 中,在每对cross layer and deep layer 之后插入一个bridge module ,从而捕获有效的layer-wise 交互。正式地,假设第 lcross layer 和第 ldeep layer 的输出记作 xlhlbridge module 可以表示为 fl=f(xl,hl) ,其中 f() 是一个预定义的交互函数,它以两个向量作为输入并输出一个具有相同维度的向量。具体来说,我们实证比较了以下四个交互函数 f():Rd×RdRd

    • Pointwise Addition :逐元素地计算输入向量的element-wise sum 。它没有parameters,公式为 fl=xlhl

    • Hadamard Product :逐元素地计算输入向量的element-wise 乘积 。它也没有parameters,公式为 fl=xlhl

    • Concatenation:将输入向量拼接起来,并传递到具有ReLU 激活函数的feed-forward layer ,以保持输出向量的维度为 d 。该函数的公式为:fl=ReLU(wl[xl||hl]+bl) 。其中,wl,bl 分别为bridge modulel 层的权重参数和偏置参数。

    • Attention Pooling :利用self-attention network 来衡量两个输入向量的重要性,并相应地执行attentive pooling 。该交互函数记作:fl=alxxlalhhl 。其中,alx,alh 分别为bridge modulel 层的attention weights

      alx,alh 的计算方式为:

    alx=softmax(plReLU(wlxl+bl))alh=softmax(plReLU(wlhl+bl))

    其中,wl,bl,pl 分别为bridge modulel 层的权重参数、偏置参数以及transform weight parameter

    这两个子网络共享相同的attention 参数。

    总而言之,bridge module 充当连接explicit and implicit modeling networks 的桥梁,加强了网络之间的交互信号,避免了反向传播过程中的倾斜梯度。我们在消融研究中对上述四个函数进行了实证比较。

46.2.2 Regulation Module

  1. 具有并行结构的deep CTR 模型基于shared embeddings 来同时利用显式的和隐式的特征。显式的feature interactions 通常使用预定义的交互函数来建模,以有效探索bounded-degree interaction (例如,DCN 中的cross network );而隐式的feature interactions 主要通过全连接层来学习。直观地讲,不同的特征适合不同的交互函数,如AutoFeature 论文中所观察到的。因此,需要仔细为两个并行网络选择不同的特征,而不是像DCN 那样将所有特征平等地馈入这两个网络。

    MMoE 中使用的门控机制的启发,我们提出了一个regulation module ,由field-wise gating network 实现,为每个并行网络soft-select 差异化的特征分布。具体而言,假设有 B 个并行网络,对于第 b 个网络,field-wise 门控单元为:

    gb=[g1b,g2b,,gfb]Rf

    其中:实数 gib 为在网络 b 中第 ifield 的门控权重(gating weight )。

    注意:这里的门控单元是free-parameter,而不是由input 来决定的(有一种做法是将input 馈入一个子网络从而得到门控单元)。论文的实验部分表明,这种方法的效果反而更好。读者猜测这是因为:可以视为对所有样本都相同的全局门控参数,与样本无关,因此训练更加稳定。

    为了获得差异化的特征分布,对 gb 执行Softmax 激活函数,得到:

    g^b=[g^1b,g^2b,,g^fb]Rfg^ib=exp(gib/τ)j=1fexp(gjb/τ)

    其中:τ 为控制分布的温度系数;标量 g^ib 为在网络 b 中第 ifieldgating score 。因此,网络 bregulated representation eb 为:

    eb=g^be=[g^1be1||g^2be2||||g^fbef]

    除了shared embedding layer 之外,我们还将regulation module 与每个bridge module 一起执行,如Figure 4 所示。

  2. 请注意,DCN 中的交叉网络实际上是 x0 的线性变换,如xDeepFM 论文中所示。换句话说,field 信息仍然存在于bridge modulefused representation 中。因此,bridge module 之后的regulation module 的工作原理,与shared embedding layerregulation module 相同。

    这段话是解释:为什么在bridge moduleoutput representation 上应用 regulation module

46.2.3 Combination Output Layer

  1. 堆叠 L 层后,交叉网络和深度网络的输出被拼接起来,并馈入到标准logits layer 进行预测。假设第 Lcross layer, deep layer and bridge module 的输出分别为 xL,hL,fL ,则EDCN 的结果表示为:

    y^=Sigmoid(w[xL||hL||fL]+b)

    其中,w,b 分别为权重参数和偏置参数。

    有没有必要将bridge module 的输出拼接进来?读者认为,这样就相当于三个子网络,而不是原始DCN 的两个子网络,因此比DCN 更强是可以预期的(表达能力更强)。

    损失函数是广泛使用的带有正则化项的LogLoss ,如下所示:

    L=1Ni=1N[yilog(y^i)+(1yi)log(1y^i)]+λ||Θ||2

    其中:

    • yiy^i 分别是第 i 个实例的真实标签和估计值。

    • N 是训练实例的总数。

    • λL2 正则化权重,Θ 是模型参数集合。

46.2.4 讨论

  1. 复杂度分析:这里分析bridge module and regulation module 的时间复杂度和空间复杂度。

    embedding size 记作 k ,我们将Hadamard Product 作为bridge module 中的交互函数,因为它在实验中实现了最佳性能。

    • 由于无参数的逐元素乘积,单个bridge module 的时间复杂度和空间复杂度分别为 O(k)O(1)

    • 此外,由于计算 eb 中的乘法运算,单个regulation module 的时间复杂度也为 O(k);而由于 gb 中的参数是field-wise 的,其空间复杂度为 O(1)

    上述分析表明这两个模块是轻量级的,关于模型效率的实证研究将在实验部分详细阐述。

  2. 兼容性分析:EDCN 提出了两个核心模块,即bridge module and regulation module ,可以无缝应用于主流的并行结构的模型,如DeepFMDCNxDeepFMAutoInt 等。

    • bridge module 捕获不同并行网络之间的layer-wise interaction ,增强跨网络的交互信号。

    • regulation module 可以为不同的并行网络来区分特征分布。

    这两个模块可以很好地推广到并行结构的模型,这由实验部分中阐述的兼容性研究所证明。具体而言,为了应对隐式网络和显式网络具有不同层的情况,我们利用层数较少的子网络的最后一层输出与另一个子网络重复执行桥接操作。

46.3 实验

  1. 数据集:两个流行的benchmarks (即AvazuCriteo )和一个工业数据集。Table 1 总结了所有三个数据集的统计数据。

    • Avazu 数据集包含23fields ,涵盖从user/device 特征到广告属性。我们以8:1:1 的比例将数据集随机分为训练集、验证集和测试集。

    • Criteo 数据集包含26categorical fields13numerical fields,其中第1-7天用于训练,第8 天和第9 天分别用于验证和测试。我们遵循PNN中的相同数据处理程序,通过执行negative down-sampling 以保持positive ratio 接近50% ,并将数值特征转换为categorical 特征。

    • 工业数据集包含从华为广告平台采样的连续9 天的点击日志。该数据集的feature set44categorical 特征和41numerical 特征组成,它们通过各种混杂的、手动设计的规则进行离散化。我们将第1-7 天设置为训练集,第8 天设置为验证集,第9 天设置为测试集。

  2. 评估指标:AUC, LogLoss 。所有实验重复5 次以获得平均性能。进行two-tailed unpaired t-test 以检测EDCNbest baseline 之间的显著差异。

  3. baseline 与实现细节:

    • 为了证明EDCN的有效性,我们将它与代表性的deep CTR 模型进行了比较,包括FNNWide & DeepDeepFMDCNDCN-V2xDeepFMAutoIntPNN

    • 所有模型均在TensorFlow上实现,我们使用mini-batch Adam 对所有模型进行优化,其中学习率从 [105,104,,102] 中搜索,batch size 固定为2000 。此外,embedding size 设置为40deep network 的隐层默认固定为400-400-400 ,并应用Batch NormalizationL2 正则化的权重从 [105,104,,103] 中搜索,dropout rate[0.1,0.2,,0.9] 中搜索。

      具体来说,DCNDCN-V2xDeepFM 中用于建模显式的feature interactions 的网络结构(即CrossNetCIN)均设置为3层。AutoIntmulti-head attentionhead 设为12attention factor 设为20 。默认情况下,bridge module 中的交互函数选择Hadamard Productregulation module 中的 g^ib 初始化为1.0 ,以确保开始时每个field 的权重相等。

46.3.1 性能比较

  1. Table 2 展示了模型在这三个数据集上的表现,从中我们得到以下观察结果:

    • 在三个数据集上,EDCNAUCLogLoss方面的表现都远远优于所有SOTA baselines ,这证明了EDCNCTR预测任务中的卓越性能。

    • 在三个数据集上,与原始DCN模型相比,EDCNAUC分别提高了0.54%0.48%0.65%。我们认为这一显著改进归因于以下原因:

      • (1):基于dense fusion 策略的bridge module 有助于加强并行网络之间的 layer-wise interaction and supervision 。虽然deep layers 的网络宽度被扩展为与embedding layer 相同,但性能的提高并不是通过额外的hidden neurons 来实现的(因为在三个数据集上extended-width DCN 实现的平均AUC 仅提高了不到0.03% )。

      • (2)regulation module 调制了shared embeddingsfused information ,将差异化的特征分布传递到不同的子网络中,这帮助子网络soft-select 合适的特征。

46.3.2 与不同模型的兼容性分析

  1. Bridge Module 的兼容性分析:为了证明我们提出的bridge module 的兼容性,我们在三种流行的deep parallel CTR 模型(即xDeepFMDCNDCN-V2)中为每个hidden layer 引入了bridge module 。配备bridge module 的模型 M 记作 MBridge

    Table 3 中,我们可以观察到bridge module 一致性地提高了deep parallel CTR 模型的性能。AUC 指标的平均改进分别为xDeepFM 上改进0.13%DCN 上改进0.42%DCN-V2 上改进0.20% ,这证明了bridge module 的有效性。原因在于layer-wise bridge module 利用dense fusion 策略来捕获interactive correlation signals,并随后为explicit and implicit feature modeling 带来好处。此外,由于引入了不同子网络之间的multi-paths ,反向传播时梯度更新更加均衡,从而可以很好地缓解梯度倾斜问题。

  2. Regulation Module 的兼容性分析:我们提出的regulation module 也是与模型无关的。在本节中,我们进行了广泛的实验来证明其兼容性,方法是将regulation module 应用于五种SOTA 的并行CTR模型:DeepFMxDeepFMAutoIntDCNDCN-V2以及 DCNBridge。除 DCNBridge 之外的所有这些模型都应用了late fusion 策略,因此我们仅在embedding layer 上执行regulation module 。配备regulation module 的模型 M 记作 MRegulate。请注意,DCNBridgeRegulate 实际上是我们提出的EDCN 。从Table 4 中可以观察到一致的改进。

    如前所述,regulation module 差异化特征分布并将它们传递到不同的子网络中,在这些子网络中将分别利用不同的feature collections 。从反向传播的角度来看,由于并行结构的模型中的shared embeddings ,来自多个子网络的梯度可能会在一定程度上相互冲突。通过regulation module ,在反向传播到embedding layer 之前对梯度进行调制,从而缓解梯度冲突。

46.3.3 Regulation Module 的分析

  1. 为了生动地说明regulation modulefeature regulation 结果,我们将EDCN 中并行网络的每个hidden layer 的权重分布 g^b 可视化(使用min-max 归一化将每个元素 g^ib 缩放到[0,1] 之间以直观呈现)。Avazu 数据集上的结果如Figure 5 所示。请注意,颜色越深,表示该field 越倾向于相应的特征交互方式(即EDCN 中的交叉网络和深度网络)。

    注意,图中的 G^ 就是笔记中的 g^

    从热力图中我们可以观察到特征分布在不同layers 和不同feature interaction 方式之间有所不同。具体而言:

    • 对于交叉网络和深度网络,f11layer0layer1 中具有较大的权重。

    • f2 在交叉网络的layer2 更具差异性,而f16 在深度网络的layer2 更具差异性。

    • 此外,交叉网络中的热力图更加多样化,表明某些fieldsbounded-degree explicit feature interaction 中比其他fields 发挥更重要的作用。相反,大多数fieldsimplicit feature interactions 的贡献相对地相似。

    • 另一个观察结果是,随着层数的增加,不同子网络的偏好更加明显。特征分布在layer0 相对接近,而在layer 2 则明显不同。因此,EDCN 利用regulation modulesoft-select 差异化的特征分布,从而充分利用不同的特征。

47.3.4 消融研究

  1. Bridge Module:为了比较bridge module 中不同交互函数的性能,我们探索了四个交互函数 f(),即逐点加法(EDCN-ADD)、hadamard productEDCN-PROD)、拼接(EDCN-CON)、以及attention poolingEDCN-ATT )。

    Figure 6 可以看出,hadamard product 的表现明显优于其他函数,这可能是由于以下原因。

    • 一方面,hadamard product 是无参数的,因此不涉及任何额外的learnable parameters,比有参数的方法(例如拼接和attention pooling)更容易稳定地训练。

    • 另一方面,与逐点加法相比,乘积操作是推荐模型中更好的interaction modeling 操作,如DeepFM, PNN, FM 所示。

    下图应该是(a) Avazu(b) Criteo

  2. Regulation Module:为了证明我们提出的regulation module 的有效性,我们进行了实验,用三种方法替换了regulation module (RM)

    • Fully connection (FC):全连接是一种常用的变换方法,从前一层提取representation

    • Squeeze-and-Excitation (SE)Squeeze-and-Excitation Networ 执行Squeeze, Excitation and Re-Weight 步骤,从而使用informative featuresre-scale representation

    • GateNet (GN)GateNet 提出feature embedding gate 来从feature-level 选择显著的信息(salient information)。

    Figure 7 显示了这些方法之间的比较。我们可以观察到:

    • 简单的FC 获得最差的结果。

    • 此外,与nonregulation (即 DCNBridge )相比,GNSE 方法在Avazu 上取得了改进,而在Criteo 上略有下降。

    • RM 始终比其他竞争对手取得显著改进,证明了我们提出的regulation module 的有效性。

46.3.5 模型复杂度

  1. 为了定量分析我们提出的EDCN 的空间复杂度和时间复杂度,我们比较了三个具有并行结构的代表性的deep CTR 模型的模型参数和推理时间(在整个测试集上)。所有实验均在具有16G 内存的NVIDIA Tesla P100-PCIE GPU 上进行。Table 5 报告了Avazu 数据集上的比较结果。

    我们可以观察到:

    • DCN 相比,EDCN 增加的模型参数和推理时间是可以接受的,表明EDCN 引入的两个模块在实际工业应用中是轻量级的和可行的。

    • 此外,xDeepFM 的推理时间比EDCN长得多,而EDCN增加的模型参数比AutoInt小得多。

46.3.6 Online A/B Test

  1. online A/B test310日到410日进行了一个月。比较的基线表示为 Mbase,这是一个高度优化的并行结构模型。我们部署了基于 Mbasebridge moduleregulation module ,命名为 Menhance 。这两个模型都是根据最新的点击日志进行训练的,其中执行相同的数据处理过程。评估指标CTReCPM

    连续30 天的在线结果表明,我们提出的模块比基线 Mbase 有显著的改进,其结果如Table 6 所示。我们可以观察到:

    • Instant AccessVideo Page )场景中, Menhance 分别实现了7.30%2.42%)和4.85%1.71%)的CTReCPM改进。

    • 此外,增加的serving latency 在工业界中也是可以接受的。

    结果表明,bridge module and regulation module 在用户体验和平台收入方面带来了显著的性能改进,同时只有轻微的latency overload

 

四十七、GDCN[2023]

《Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction》

  1. 有效地建模feature interactions 对于提高CTR 模型的预测性能至关重要。然而,现有的方法面临三个重大挑战:

    • 首先,虽然大多数方法可以自动捕获高阶feature interactions ,但随着feature interactions 的阶次增加,它们的性能往往会下降。

    • 其次,现有方法缺乏能力对预测结果提供令人信服的解释,特别是对于高阶feature interactions ,这限制了其预测的可信度。

    • 第三,许多方法都存在冗余参数,特别是在embedding layer 中。

    本文提出了一种称为Gated Deep Cross Network (GDCN) 的新方法,以及一种Field-level Dimension Optimization (FDO) 方法来应对这些挑战。作为GDCN 的核心结构,Gated Cross Network (GCN) 捕获显式的高阶feature interactions,并在每个阶次中使用information gate 来动态地过滤important interactions 。此外,我们使用FDO 方法,根据每个field 的重要性来学习condensed dimensions 。在五个数据集上进行的综合实验证明了GDCN 的有效性、优越性和可解释性。此外,我们验证了FDOlearning various dimensionsreducing model parameters 方面的有效性。

  2. 大多数CTR 建模方法通常由三种layer 组成:feature embedding, feature interaction, and prediction 。为了提高CTR 预测的准确性,人们已经提出了许多专注于设计有效feature interaction 架构的方法。然而,以前的工作,如Logistic Regression (LR)FM-based 的方法,只能建模低阶feature interactions 或固定阶次的feature interactions 。随着互联网规模的推荐系统变得越来越复杂,对捕获高阶feature interactions 的方法的需求日益增长。因此,一些最新的方法能够对显式的和隐式的高阶feature interactions 进行联合建模,并实现显著的性能改进。虽然这些方法取得了很大进展,但它们仍然有三个主要局限性:

    • 首先,随着feature interactions 阶次的增加,这些方法的有效性趋于下降。一般来说,所能够捕获的交互的最大阶次由feature interactionsdepth 决定。随着interaction layers 的加深,interactions 的数量呈指数增长,这使得模型能够生成更多的高阶交互。然而,并不是所有的交互都是有帮助的,这也带来了许多不必要的交互,导致性能下降和计算复杂度增加。许多现有的SOTA 工作已经通过hyper-parameter analysis 证实,当交互阶次超过一定深度(通常是三阶)时,它们的性能会下降。因此,至关重要的是进行改进从而确保高阶交互具有positive 影响,而不是引入更多噪音并导致次优性能。

    • 其次,现有方法缺乏可解释性,限制了其predictions and recommendations 的可信度。大多数方法由于隐式的feature interactions (通过DNN)、或为所有feature interactions 分配相等的权重,从而导致可解释性较低。尽管一些方法(《DCAP: Deep Cross Attentional Product Network for User Response Prediction》《Interpretable click-through rate prediction through hierarchical attention》《Autoint: Automatic feature interaction learning via selfattentive neural networks》 )试图通过self-attention 机制学到的attention scores 来提供解释,但这种方法倾向于融合(fuse)所有features information ,因此很难区分哪些交互是必不可少的,尤其是对于高阶的crosses 。因此,开发方法能够从模型的和实例的角度来提供有说服力的解释,至关重要,从而实现更可靠的、更可信的结果。

    • 第三,大多数现有模型包含大量冗余参数,尤其是在embedding layer 中。许多方法依赖于feature-wise 的交互结构,这些结构假设所有fieldsembedding dimensions 是相等的。然而,考虑到fields 的信息容量,有些fields 只需要相对较短的维度。因此,这些模型在embedding layer 产生大量冗余参数。但直接降低embedding 维度会导致模型性能下降。同时,大多数方法仅侧重于减少non-embedding 参数,与减少embedding 参数相比,对整体参数减少的影响并不显著。尽管DCNDCN-V2 使用经验公式为每个field 分配不同的维度,该公式仅基于feature numbers 来计算维度,但它们忽略了每个field 的重要性,并且经常无法减少模型参数。因此,我们的目标是为每个field 分配field-specific and condensed dimensions ,考虑其固有的重要性,并有效减少embedding 参数。

    本文提出了一种称为Gated Deep Cross Network (GDCN) 的模型、以及一种称为Field-level Dimension Optimization (FDO) 的方法来解决上述限制。在DCN-V2 优雅而高效的设计的基础上,GDCN 进一步提高了低阶交互和高阶交互的性能,并且在模型的和实例的视角下都表现出了很好的可解释性。GDCN 通过提出的Gated Cross Network (GCN)explicit feature interactions 进行建模,然后与DNN 集成以学习implicit feature interactionsGCN 由两个核心组件组成:feature crossinginformation gatefeature crossing 组件在bounded degree 内捕获显式的交互,而information gate 则在每个cross order 上选择性地放大重要性高的important cross features 并减轻不重要特征的影响。此外,考虑到field 各自的重要性,FDO 方法可以为每个field 分配压缩的和独立的维度。

  3. 贡献:

    • 我们引入了一种新方法GDCN ,通过GCNDNN 学习显式的和隐式的feature interactionsGCN 设计了一个information gate 来动态地过滤next-order cross features 并有效地控制信息流。与现有方法相比,GDCN 在捕获更深层次的高阶交互方面表现出更高的性能和稳定性。

    • 我们开发了FDO 方法,为每个field 分配压缩的维度,考虑到每个field 固有的重要性。通过使用FDOGCN 仅以原始模型参数的23% 实现了可比性能,并且以更小的模型大小、以及更快的训练速度超越了现有的SOTA 模型。

    • 综合实验表明GDCN 在五个数据集上具有很高的有效性和泛化能力。此外,我们的方法在model levelinstance level 提供了出色的可解释性,增强了我们对模型预测的理解。

    论文其实创新点不多也不大,更多的是工程上的工作。而且创新点之间(GCNFDO )没啥关系,强行拼凑一起得到一篇论文。

47.1 GDCN

  1. DCN-V2 的启发,我们开发了GDCN ,它由embedding layergated cross network (GCN)deep network (DNN) 组成。

    • embedding layer 将高维稀疏的输入转换为低维稠密的representations

    • GCN 旨在捕获显式的feature interactions ,并使用information gate 来识别重要的交叉特征。

    • 然后,DNN 被集成进来从而建模隐式的feature crosses

    本质上,GDCNDCN-V2 的泛化,继承了DCN-V2 出色的表达能力,并具有简单而优雅的公式,易于部署。然而,GDCN 通过采用information gates 从而引入了一个关键的区别,它在每个阶次中自适应地过滤交叉特征,而不是统一聚合所有特征。这使GDCN 能够真正利用deeper 的高阶cross-information ,而不会出现性能下降,并为GDCN 赋予了针对每个实例的动态可解释性。GDCN 的架构如Figure 1 所示,展示了结合GCNDNN 网络的两种结构:(a) GDCN-S and (b) GDCN-P

  2. Embedding Layer:输入实例通常是multi-field tabular data records ,其中包含 F 个不同fieldsT 个特征。每个实例都由一个field-aware one-hot vector 来表示。embedding layer 将稀疏的高维特征转换为稠密的低维embedding matrix E=[e1;;eF]。大多数CTR 模型要求embedding 维度相同,从而匹配特定的interaction 操作。然而,GDCN 允许任意embedding 维度,并且embedding layer 的输出以向量拼接来表示:c0=[e1||||eF]RDD 为拼接后的维度。

  3. Gated Cross Network (GCN):作为GDCN 的核心结构,GCN 旨在通过information gate 来建模显式的有界的feature crossesGCN 的第 (l+1)gated cross layer 表示为:

    cl+1=c0(Wl(c)cl+bl)Feature Crossingσ(Wl(g)cl)Information Gate+cl

    其中:

    • c0 为来自embedding layerbase input,其中包含一阶特征。

    • clRD 是是来自前一个gated cross layer (即,第 lgated cross layer )的输出特征,用作当前第 (l+1)gated cross layer 的输入。

    • cl+1RD 是当前第 (l+1)gated cross layer 的输出。

    • Wl(c),Wl(g)RD×D 为可学习的权重矩阵,blRD 为可学习的偏置向量。

    • σ()sigmoid 函数, 为逐元素乘积。

    Figure 2 可视化了gated cross layer 的过程。

    下图中的 × 实际上是矩阵乘法。

    在每个gated cross layer 中,都有两个核心组件:feature crossinginformation gate ,如公式和Figure 2 所示。

    • feature crossing 组件以bit-level 计算一阶特征 c0l 阶特征 cl之间的交互。然后,它输出下一个多项式阶次的交互,其中包含所有 (l+1) 阶交叉特征。矩阵 Wl(c) 称为交叉矩阵(cross matrix ),表示第 l 阶中各个field 之间的固有重要性。

      但是,并非所有的 (l+1) 阶特征都对预测产生positive 影响。随着cross depth 的增加,交叉特征呈现指数级增长,这会引入交叉噪声并可能导致性能不佳。

    • 为了解决这个问题,我们引入了information gate 组件。作为soft gate ,它自适应地学习第 (l+1) 阶特征的重要性。通过将sigmoid 函数 σ() 应用于 (Wl(g)cl),可获得gate values 。然后将它们逐元素乘以feature crossing 的结果。此过程放大了重要特征,并减轻了不重要特征的影响。随着cross layers 数量的增加,每个cross layerinformation gate 都会过滤下一阶次的交叉特征并有效控制信息流。

    最后,通过将输入 clfeature crossing and information gate 的结果相加,生成最终的output cross vector cl+1,从而包含从第0 阶到第 (l+1) 阶的所有特征交互。

    事实上,GCNDCN 的变体,区别在与 GCN 多了一个 Information Gate 而已。那么,是否有更好的 Information Gate?比如,直接用 c0 作为 information gate 的输入?

  4. Deep Neural Network (DNN)DNN 的目标是建模隐式feature interactionsDNN 的每个deep layer 表示为:

    hl+1=f(Wlhl+bl)

    其中:

    • WlRnl+1×nl,blRnl+1 为第 ldeep layer 中可学习的权重矩阵和偏置向量。

    • hlRnl,hl+1Rnl+1 为第 ldeep layerinputoutputnl,nl+1 分别为对应的维度。

    • f() 为激活函数,通常为ReLU

  5. 整合GCNDNN:现有的研究主要采用两种结构来整合显式的和隐式的交互信息:堆叠和并行。因此,我们也以两种方式将GCNDNN结合起来,得到了两个版本的GDCN

    • Figure 1(a) 展示了堆叠结构:GDCN-S

      • embedding 向量 c0 被馈入到GCN 并输出 cLc

      • 然后 cLc 馈入DNN 从而生成最终的交叉向量 cfinal=hLd

      LcLd 分别是gated cross layer and deep network 的深度。

    • Figure 1(b) 展示了并行结构:GDCN-P

      • embedding 向量 c0 被并行地馈入GCNDNN 中。

      • GCNDNN 的输出(即 cLchLd )被拼接起来以获得最终的交叉向量 cfinal =[cLc||hLd]

  6. 训练和预测:最后,我们通过标准的逻辑回归函数计算预测点击率:

    y^i=σ(wlogitcfinal)

    其中:

    • wlogit 是待学习的权重向量。

    • σ(z)=1/(1+exp(z))sigmoid 函数。

    损失函数是广泛使用的二元交叉熵损失(又名LogLoss):

    Lctr=1Ni=1N(yilog(y^i)+(1yi)log(1y^i))

    其中:y^iyi 分别是预测点击率和真实点击率;N 是所有训练实例的数量。

  7. DCN-V2 的关系:GDCNDCN-V2的推广。当省略information gate 或所有gate values 都设置为1时,GDCN会退回到DCN-V2。在DCN-V2中,cross layer(即CN-V2)平等对待所有交叉特征并直接将它们聚合到下一个阶次,而未考虑不同交叉特征的不同重要性。然而,GDCN引入了GCN,在每个gated cross layer 中都包含一个information gate 。这个information gate 自适应地学习所有交叉特征的bit-wise gate values ,从而实现对每个交叉特征的重要性的细粒度控制。值得注意的是,GDCNDCN-V2 都能够建模bit-wise and vector-wise 特征交叉,如DCN-V2 中所示。

    虽然GDCNDCN-V2都使用了门控机制,但它们的目的和设计原理不同。

    • DCN-V2引入了MMoE的思想,将cross matrix 分解为多个较小的子空间或“专家”。然后,门控函数将这些专家组合在一起。这种方法主要减少了cross matrices 中的non-embedding 参数,同时保持了性能。

    • 不同的是,GDCN 利用门控机制自适应地选择重要的交叉特征,真正利用deeper 的交叉特征,而不会降低性能。它提供了动态的instance-based 的可解释性,可以更好地理解和分析模型的决策过程。

    为了进一步提高GDCNcost-efficiency ,接下来提出了一种field-level 维度优化方法,以直接减少embedding 参数。

47.2 FDO

  1. embedding 维度通常决定了编码信息的能力。然而,为所有field 分配相同的维度会忽略不同field 的信息容量。例如,“性别” 和“item id ” 等field 中的特征的数量范围从 O(2)O(106)DCN-V2DCN 采用经验公式根据每个field 的特征的数量,为每个field 分配独立的维度,即 (feature number)0.25 。这是一种先验的方法,但忽略了每个field 的真正重要性。 FmFM 的启发,我们使用后验的 Field-level Dimension Optimization (FDO)方法,该方法根据每个field 在特定数据集中的固有重要性来学习其独立的维度。

    • 首先,我们训练一个完整模型,采用固定的field 维度为16 ,正如先前的研究所建议的那样。此过程使我们能够为每个field 生成一个informative embedding table

    • 接下来,我们使用PCA 为每个fieldembedding table 计算一组奇异值,按奇异值的幅值(magnitude)降序排列。通过评估信息利用率(即information ratio ),我们可以通过识别对整体information summation 贡献最大的 argmink 个奇异值来确定最佳维度。此步骤使我们能够为每个field 选择合适的压缩维度。

    • 最后,我们使用上一步中学到的field 维度训练一个新模型。

    实际上,我们只需要基于full model 学习一次一组field dimensions ,然后在后续模型refresh 时重复使用它。

    Table 1 列出了具有80%95%information ratio 时,每个field 的优化后的维度。

    • 当保留95% 比率时,field 维度范围为215

    • 降低 information ratio 会导致每个field 的维度减少。

    • 具有大量特征的field 有时需要更高的维度,如在fields {#23, #24} 中观察到的那样。然而,情况并非总是如此;例如,fields {#16, #25} 表现出更小的维度。在实验部分中,我们提供了实验证据,表明field 的维度与其在预测过程中的重要性密切相关,而不是其特征数量

    • 此外,通过保留超过80%information ratio ,我们可以获得更轻的GCN 模型,其性能略优于具有完整embedding 维度的GCN 模型,并超过其他SOTA 模型。

    我们还对FDO 进行了更全面的分析,以了解field 维度与其固有重要性之间的联系。

  2. 参数分析:定义:

    • E=[E1,E2,,EF] 为所有特征的embeddingEffeature representations 子集,对应于第 ffield1fF

    • ffield 中的特征的数量记作 |Ef| ,数据集中的特征的总数量为 T=f=1F|Ef|

    • 类似地,令 d=[d1,d2,,dF] 表示每个fieldembedding 维度,其中 df 为第 ffieldembedding 维度。

    对于一个输入的实例,算数平均的维度为 K¯=(f=1Fdf)/Fembedding layer 的输出维度为 D=FK¯ 。考虑所有特征,加权平均维度记作 D¯=(f=1Fdf|Ef|)/Tembedding 参数的总量为 Pe=f=1Fdf|Ef|=TD¯ 。在互联网规模数据集中,特征总数 T 的数量通常非常庞大。例如,在著名的Criteo 数据集中,原始特征数量超过30M ,稀疏度超过99.99%embedding 参数占据了模型参数的绝大部分。因此,D¯ 决定了embedding 参数的数量,而 K¯ 主要影响non-embedding 参数的数量,例如DCN-V2GCN 中的cross matrix W(c)R(FK¯)×(FK¯)

    时间复杂度主要与 K¯ 有关。

    通过采用FDO 方法,我们可以通过缩小某些field 的不必要维度来refine 特征维度,以减少冗余的embedding 参数。

    • 当使用固定维度16 时,embedding 参数为 16T

    • 然而,在95% information ratioFDO 之后,embedding 参数减少到 5.92T,仅占原始embedding 参数的37%

    • 如果我们根据公式(即 df=|Ef|0.25)计算field 维度,加权平均维度 D¯ 变为18.66 ,导致emebdding 参数为 18.66T,大于 16T 。此公式为具有大量特征的field 分配了更大的维度,忽略了每个field 的特定重要性。相比之下,FDO 是一种后验方法,它基于从训练好的embedding table 中提取的特定信息来学习field-level 维度。

    随着field 维度的降低,算术平均维度 K¯ 也相应降低(例如,从16 降至7.87 )。这样,GCN 网络中的non-embedding 参数,即cross matrix W(c)R(FK¯)×(FK¯)gate matrix W(g)R(FK¯)×(FK¯) 也自然减少了。

47.3 实验

  1. 数据集:CriteoAvazuMalwareFrappeML-tag 。这些数据集的统计数据如Table 2 所示,详细描述可在给定的参考文献中找到。

  2. 数据预处理:

    • 首先,我们将每个数据集随机分成训练集(80%)、验证集(10%)和测试集(10% )。

    • 其次,在CriteoAvazu中,我们删除某个field 中出现次数少于阈值的低频特征,并将其视为dummy feature "<unkonwn>"CriteoAvazu 的阈值分别设置为{10, 5}

    • 最后,在Criteo数据集中,我们通过将实数值 z 转换为:当 z>2log2(z) ;否则为1 。这是Criteo 竞赛的获胜者所采用的。

  3. 评估指标:AUCLogloss

  4. baseline 方法:我们与四类代表性的方法进行了比较。

    • 一阶方法,例如LR

    • 建模二阶交叉特征的基于FM 的方法,包括FMFwFMDIFMFmFM

    • 捕获高阶交叉特征的方法,包括CrossNet(CN)CINAutoIntAFNCN-V2IPNNOPNNFINTFiBiNETSerMaskNet

    • 代表性的集成/并行方法,包括WDLDeepFMDCNxDeepFMAutoInt+AFN+DCN-V2NONFEDParaMaskNet

    我们没有展示某些方法的结果,例如CCPMGBDTFFMHoFMAFMNFM,因为许多模型已经超越了它们。

  5. 实现细节:

    • 我们使用Pytorch实现所有模型,并参考现有工作。

    • 我们使用Adam 优化器优化所有模型,默认学习率为0.001。我们在训练过程中使用Reduce-LR-On-Plateau scheduler ,当性能在连续3 epochs 停止改善时,将学习率降低10 倍。

    • 我们在验证集上应用patience = 5 的早停(early stopping),以避免过拟合。

    • batch size 设置为4096 。所有数据集的embedding 维度均为16

    • 根据先前的研究,我们对涉及DNN的模型采用相同的结构(即3层,400-400-400 ),以便进行公平比较。除非另有说明,所有激活函数均为ReLUdropout rate = 0.5

    • 对于我们提出的GCNGDCN-SGDCN-P ,除非另有说明,默认的gated cross layer 数量为3

    • 对于其他baseline ,我们参考了两个benchmark 工作(即 BARSFuxiCTR )及其原始文献来微调它们的超参数。

  6. 显著性检验:为了确保公平比较,我们在单个GPUNVIDIA TITAN V)上使用随机种子运行每种方法10次,并报告平均的测试性能。我们执行双尾t-test 来检测我们的方法与最佳baseline 方法之间的统计显着性。在所有实验中,与最佳baseline 相比的改进具有统计学意义(p<0.01),在Table 3Table 4 中用 ★ 表示。

47.3.1 整体性能

注意,这里的结果是在没有应用 FDO 的情况下得出的。

  1. 与堆叠式模型的比较:我们将GCNGDCN-Sstacked baseline 模型进行比较,包括一阶、二阶和高阶模型。整体性能总结在Table 3 中。我们有以下观察结果:

    • 首先,在大多数情况下,高阶模型优于一阶模型和二阶模型,证明了学习复杂的高阶feature interactions 的有效性。值得注意的是,OPNNFiBiNetFINTSerMaskNet 等模型表现更佳,它们使用一个stacked DNN 同时捕获显式的和隐式的特征交叉。这证实了对显式的和隐式的高阶feature interactions 进行建模背后的原理。

    • 其次,GCN 通过仅考虑显式的多项式feature interactions ,始终优于所有堆叠的baseline 模型。GCNCN-V2的泛化,增加了一个information gate 来识别有意义的交叉特征。GCN 的性能验证了并非所有交叉特征都对最终预测有益,大量不相关的交互会引入不必要的噪音。通过自适应地re-weighting 每个阶次中的交叉特征,GCNCN-V2 实现了显著的性能提升。此外,它优于SerMaskNet ,平均 ΔAUC 提高0.14% ,平均 ΔLL 改善了0.45%

    • 第三,GDCN-S 超越了所有堆叠的baseline 并实现最佳性能。在 GDCN-S 中,stacked DNN 进一步学习GCN 结构之上的隐式交互信息。因此,与其他堆叠式模型(例如OPNNFINTSerMaskNet)相比,GDCN-S优于GCN并实现更高的预测准确率。具体来说,与SerMaskNet相比,GDCN-S实现了平均0.28%ΔAUC )和2.70%ΔLL )的改善。

  2. 与并行式模型的比较:Table 4 展示了SOTAensemble/parallel 模型的性能。每种方法都包含并行网络,例如DeepFM 中的FMDNN,以及DCN-V2 中的CN-V2DNN。此外,我们将这些模型与常规的DNN 模型进行比较,并在此基础上计算 ΔAUC