2025_FAT

一、 FAT [2025]

《From Scaling to Structured Expressivity: Rethinking Transformers for CTR Prediction》

尽管在 scale up 方面投入巨大，但用于点击率（click-through rate: CTR）预测的 deep models 往往表现出快速的收益递减效应——这与大型语言模型（LLM）中观察到的平稳的、可预测的性能提升形成鲜明对比。我们发现其根本原因在于结构错位（structural misalignment）：Transformers 假设序列组合性（sequential compositionality），而 CTR data 需要对高基数（high-cardinality）的 semantic fields 进行组合推理（combinatorial reasoning）。无结构化的注意力（unstructured attention）会无差别地分配模型容量（capacity），在极端稀疏性（extreme sparsity）下放大噪声，并破坏可扩展学习（scalable learning）。
为了恢复这种对齐关系（alignment ），我们提出了 Field-Aware Transformer: FAT，该模型通过 decomposed content alignment 和 cross-field modulation，将 field-based interaction priors 嵌入到 attentionfields $F$ total vocabulary size $n$ $n \gg F$ ），从而实现更严格的泛化能力；并且至关重要的是，随着模型宽度增加，AUC 值呈现出 power-law scaling 特性。我们基于拉德马赫复杂度（Rademacher complexity），提出了首个针对 CTR 模型的正式 scaling law ，用于解释和预测这一现象。
在 large-scale benchmarks 中，FAT 相较于现有最优方法，AUC 值最高提升了 0.51% 。在线上部署后，它实现了 2.33% 的点击率提升和 0.66% 的每千次展示收入（RPM）提升。我们的研究表明，推荐系统中的 effective scaling 并非源于模型大小，而是源于结构化表达（structured expressivity）——即架构与 data semantics 的一致性（coherence）。
大型语言模型（LLMs）的成功揭示了一个重要事实：当模型架构与data 对齐时，scaling 会变得可预测。随着模型大小、数据量和计算量的增加，性能会平稳提升——这一过程由经验性的 scaling laws 主导，从而实现系统性的进步。这一原则启发了人们将Transformer 架构移植到工业推荐系统中的广泛尝试，尤其是在点击率（CTR）预测领域。
然而，尽管取得了一定的收益，大多数现有方法仍停留在架构模仿（architectural mimicry）层面：它们通过将 CTR 特征进行令牌化（tokenization）并应用标准的 Transformer ，从而直接移植 LLM designs ；要么采用传统的 pointwise prediction 框架，要么采用生成式重构（generative reformulations）方法。虽然这些方法受益于 model capacity 的增加，但实证研究发现，随着模型规模的 scale up，性能提升会逐渐递减（《Scaling new frontiers: Insights into large recommendation models》），这表明架构扩展与 effective learning 之间存在脱节。
我们认为，这种差异（divergence）并非源于资源不足，而是源于标准的 Transformer 中包含的假设（assumptions）与 CTR data 特性之间的根本性结构错位（fundamental structural misalignment）。乍看之下，这两种模态都涉及 sequences of discrete tokens，但它们的 semantic structures 存在深刻差异：
- 在语言中，语义（meaning）通过组合语法（compositional syntax）来产生：单词在语法规则（grammatical rules）下层次地组合，形成短语和句子，单词的语义（semantics）依赖于顺序（order）和上下文（context）。tokens是同构（homogeneous）的（来自一个共享的 vocabulary），并基于语法角色（syntactic role）和语义相似性（semantic similarity）进行注意力分配。
- 在 CTR prediction 中，预测能力源于组合交互（combinatorial interactions ）：用户的 click behavior 由 cross-field conjunctions 来驱动，例如 'young user x luxury brand' 或 'mobile device x evening session'。Inputs 是异质（heterogeneous）的高基数的（high-cardinality）categorical features set，每个特征都属于一个 semantic field（例如，user_age、ad_category、device_type）。顺序（order）是任意的；关键在于哪些 fields 发生交互，以及交互的非对称性如何。
标准的 self-attention 机制专为 dense, ordered sequences 的组合语义（compositional semantics）来设计的，无法区分这一差异。它通过全局共享的 projection 矩阵来统一处理所有 embeddings，将表征容量（representational capacity）无差别地分配到不同 feature types 上。在极端稀疏性（extreme sparsity）下——大多数 field-value combinations 很少被观察到——这种无结构化的注意力（unstructured attention）会放大噪声、扭曲梯度，并最终破坏 scalable learning。
更令人担忧的是，推荐系统中缺乏 scaling 的理论基础。虽然 LLM 受益于完善的泛化边界（generalization bounds）和基于统计学习理论的 scaling laws，但 CTR 模型尚无此类框架。没有它，scaling 就变成了试错过程，与架构设计原则（architectural design principles）脱节。
这引出了一个关键问题：我们能否重新设计用于推荐系统的 Transformer，使其表达能力与数据的潜在的交互复杂度（interaction complexity）协调增长——不仅是 raw parameter count 的增长，更是结构化表达能力（structured expressivity）的提升？
为了回答这个问题，我们回归到一个经典的洞察：field-aware interaction modeling。诸如 Field-aware Factorization Mchines: FFMordered field pair $(f_{i}, f_{j})$ 分配专有的 latent vectors ，支持非对称的（asymmetric）且上下文敏感的（context-sensitive）的 modeling of interactions （例如，user_gender 如何影响针对 ad_category 的 response）。然而，FFM 是浅层的且静态的，无法进行深度组合（deep composition）或上下文优化（contextual refinement）。
受这一原则启发，一个自然的架构扩展方向是使 attention 机制中的 query/key/value projections 针对每个 field pair 进行专门化（specialized），允许每个 attention head 捕获 source field 和 target fieldinteraction patterns $F$ 个 semantic fieldsinteraction-specific parameters $O(F^{2} d^{2})$ $d$ embedding size $F \sim 10^{3}$ $d \sim 128$ 时，即使是一个规模适中的 base model ，参数数量也可能从 100 million 膨胀到 10 trillion 以上——这使得训练和部署变得不可行。
为了解决表达能力（expressivity）与可扩展性（scalability）之间的这一矛盾，我们提出了 Field-Aware Transformer: FAT ，这是一种基于两种协同机制（synergistic mechanisms）构建的新型架构。
- 首先，Field-Decomposed Attention 将完整的 field-pair-specialized transformation 分解为两个组件：
  - (i) ：field-aware content alignment ，其中 query 和 key 通过各自 field-sepecificscaling $O(F d^{2})$ ）。
  - (ii)：field-pair interaction modulation，通过轻量级的标量（lightweight scalars）控制 field pairsscaling $O(F^{2})$ ）。
  这种分解（decompositionfields $F$ $n$ $n \gg F$ 。
  $n$ $n$ embedding size $d$ 有关。
- 其次，为了进一步将模型容量（model capacity ）与 fields 数量解耦并消除存储开销（storage overhead ），FAT 采用了基于超网络的生成机制（Hypernetwork-Based Generation mechanism）：field-specific parameters 通过轻量级神经模块从一组紧凑的基矩阵（basis matrices）中动态地合成。
至关重要的是，我们通过拉德马赫复杂度分析（Rademacher complexity analysis），为 CTR 模型推导了首个具有理论依据的 scaling law 。我们表明，FAT 的泛化误差（generalization error）取决于 field interactions 的组合结构（combinatorial structure）——特别是 fields 的数量——而非 vocabulary size。这种结构对齐（structural alignment）解释了为什么 FAT 随着模型宽度增加，AUC 值呈现出平稳的 power-law scaling，而这一现象在 baseline Transformer 中是不存在的。
$d$ 。
我们的贡献如下：
- 架构（ Architecture）：提出 FAT，一种将 field-aware priors 整合到 attention 机制中的 Transformer 变体，支持对组合语义进行结构化的、可解释且可扩展的建模。
- 可扩展性机制（Scalability Mechanism）：通过 Field-Decomposed Attention 和 Hypernetwork-Based Generation，设计了参数高效（parameter-efficient）的实现方案。
- 理论（ Theory）：针对 CTR 模型提出首个 generalization-aware scaling law，证明 effective scaling 需要架构与 data structure 的一致性——而不仅仅是更大的模型。
- 实证验证（ Empirical Validation）：在 large-scale benchmarks 中，FAT 相较于 SOTA 方法，AUC 值最高提升了0.51% 。在线上部署后，实现了 2.33% 的点击率提升和 0.66% 的每千次展示收入（RPM）提升，展现出显著的业务价值。
本研究表明，CTR prediction 中的 scalable 性能并非仅源于模型大小，而是源于结构化表达（structured expressivity）——即，架构设计（architectural design）与特征交互组合语义（combinatorial semantics of feature interactions）的刻意对齐。FAT 超越了对 LLM 的单纯的架构模仿，为构建更大的、更强的且更可预测的推荐系统提供了一条具有理论依据的路径。

1.1 相关工作

我们围绕现代 CTR modeling 中的两个核心挑战展开讨论：
- (1)：捕获结构化的 feature interactions 。
- (2)：实现可预测的 scaling。
我们的工作填补了这两个目标之间的关键空白。
Modeling Structured Feature Interactions：有效的 CTR 模型必须捕获 semantic fields之间的高阶的、非对称的 interactions。
- Factorization Machines: FM 引入了低秩的（low-rank）pairwise 的建模，随后被 FFM 改进；FFM 为 field-pair 分配特定的 latent vectors 以建模上下文敏感效应（context-sensitive effects）。这些模型具有可解释性（interpretable）和参数高效性（parameter-efficient），但仅限于浅层交互（shallow interactions）。
- DeepFM、AutoInt 和 DCNv2 等神经扩展（neural extensions ）使用多层感知机（MLPs）或 attention 机制来学习复杂的模式。这些方法的一个普遍局限性是，结构化交互建模（structured interaction modeling）仍然局限于浅层架构——通常只有少数几层——这阻碍了深度组合（deep compositionality），并使 principled scaling 变得不可行。
Towards Predictable Scaling in Recommendation：受 Transformer 在语言建模中的成功启发，近期研究尝试将其架构应用于 CTR prediction 。然而，标准 self-attention 的假设——序列顺序（sequential order）、稠密令牌（dense tokens）、组合语法（compositional syntax）——在推荐系统中并不成立，因为推荐系统的 inputs 是具有组合语义（combinatorial semantics）的无序（unordered）的且稀疏（sparse）的集合。应用无结构化注意力（unstructured attention）可能导致低效的 representation learning 、以及稀疏性下的泛化性能不佳。
更根本的是，与遵循 well-characterized scaling laws 的 LLM 不同，CTR 模型在 scaling 时往往表现出性能饱和或下降（《Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations》）。这表明架构容量（architectural capacity）与数据结构（data structure ）之间存在错位，且没有任何研究将 model design 与 scalable behavior 以一个 principled way 来联系起来。
这些空白揭示了一个关键挑战：如何构建模型从而同时支持表达性（expressive ）的、可解释性（interpretable）的 interaction modeling，和可预测的、稳定的 scaling。现有研究至少在一个维度上存在不足。我们的工作表明，弥合这一鸿沟需要将 domain-aware inductive biases 直接嵌入到架构的核心计算中。

1.2 方法

如 Figure 1 所示，Field-Aware Transformer: FAT 通过沿 semantic fields 分解 attention 来实现 structured expressivity： query/key/value projections 通过 field-aware content alignment 和 field-pair interaction modulationfield pair $(f_{i}, f_{j})$ parameter dependency $O(F^{2} d^{2})$ $O(F d^{2}+F^{2})$ 。这种 structural prior 确保 effective model complexityfields $F$ vocabulary size $n$ $n \gg F$ ，从而在极端稀疏性（extreme sparsity）下实现更严格的泛化边界（tighter generalization bounds）。
为了将模型容量（model capacity）与 fields 数量解耦，FAT 采用超网络（hypernetwork）来生成 field-specific parameters，在不增加推理成本的情况下消除存储开销。接下来，我们详细介绍架构和 parameterization。
核心的 idea 就是修改 attention 公式：
- 对每个 field 采用不同的投影矩阵，而不是全局共享的投影矩阵。
- 对 attentionpair-wise $w_{f_i,f_j}$ ）。

1.2.1 Structured Tokenization via Field-Aware Representation Learning

在 CTR prediction 中，inputs 是来自 distinct semantic fields（例如，user、item、context）的 heterogeneous features 的集合——包括 categorical 特征、numerical 特征和 sequential 特征。与 language 中语义由序列组合性（sequential compositionality）驱动不同，CTR data 的语义源于 fields 之间的组合交互（combinatorial interactionsstructured interaction modeling $x_{i}$ representation space $\mathbb R^{d}$ ，通过 type-specific transformationsembedded token $\mathbf{\vec e}_{i}$ ：
- categorical 特征使用 embedding lookup tables 。
- numerical 特征通过单调网络（monotonic networks）或 quantile discretization with embedding lookup tables 进行处理。
- sequential 特征通过专用的编码器（例如，DIN）汇总为 field-level representations 。
embeddings $d$ 以确保兼容性。至关重要的是，由于 input order 是任意的，我们用反映语义角色（semantic roles ）而非语法位置（syntactic positions）的 field-aware biases 替换 index-based positional encodingsfield $f_{i}$ token $i$ ，其 final input representation 为：
${\vec{h}}_{i} = {\vec{e}}_{i} + {\vec{b}}_{f_{i}}$
$\mathbf{\vec b}_{f_{i}} \in \mathbb{R}^{d}$ field $f_{i}$ 的 learnable bias vector 。这注入了与 field semantics 对齐的 structural priors，确保在排列组合（permutation）下的一致的泛化（consistent generalization）。
$\mathbf{\vec b}_{f_{i}}$ $\mathbf{\vec b}_{f_{i}}$ ）。即使座位固定，老师（模型）也能一眼看出谁是计算机专业（b_cs），谁是生物专业（b_bio），从而采用不同的互动方式。没有这顶帽子，老师就需要通过长时间的对话（从数据中学习）才能分辨出他们的专业。
在 CTR 模型中，输入字段的顺序通常是固定的，也就是 field name 和 field position 是一一对应的。此时 position embedding 等价于 field-aware biases 。也可以对每个 field 采用 free variable 来训练。
但是，在 Hiformer 论文中，作者发现添加了 position embedding 的 Transformer 的效果不如 Transformer without position embedding 。
$\mathbf H=\left[\mathbf{\vec h}_{1}, \cdots, \mathbf{\vec h}_{F}\right]$ 形成了基于语义的、field-identified 的 token stream，为 FAT 中可解释的（interpretable）和可扩展（scalableinteraction modeling $F$ 为 fields 的数量。

1.2.2 From Standard Transformer to Field-Pair-Specialized Attention

在标准 Transformerattention $\alpha(i, j)$ 计算如下：
$α (i, j) = \frac{({\vec{h}}_{i} W_{Q}) {({\vec{h}}_{j} W_{K})}^{⊤}}{\sqrt{d}}$
query $\mathbf W_Q\in \mathbb R^{d\times d}$ key $\mathbf W_K\in \mathbb R^{d\times d}$ 。
这统一处理所有 tokens，忽略它们的 field 来源——这在 interactions 是非对称（asymmetric）且上下文敏感（context-sensitive）的时候是一个关键的局限。
受 FFM 的启发（FFM 通过专用的 latent vectors 建模 pairwise field interactions），我们考虑一种自然的泛化：使 query/key/value projectionsfield pair $(f_{i}, f_{j})$ 进行专门化（specializedattention head $h$ ，定义：
${\vec{q}}_{i} = {\vec{h}}_{i} W_{Q}^{(f_{i}, f_{j})}, {\vec{k}}_{j} = {\vec{h}}_{j} W_{K}^{(f_{i}, f_{j})}, {\vec{v}}_{j} = {\vec{h}}_{j} W_{V}^{(f_{i}, f_{j})}$
然后计算：
$α (i, j) = \frac{{\vec{q}}_{i} {\vec{k}}_{j}^{⊤}}{\sqrt{d}}$
这种设计支持细粒度的控制：user_gender 中的 query 对 ad_category 的注意力分配，可能与对 device_type 的注意力分配存在根本性差异。它捕获了非对称性（asymmetry）、上下文敏感性（context sensitivity ）和域角色感知（field-role awareness）——直接反映了 CTR data 的组合语义（combinatorial semantics）。
$O(H F^{2} d^{2})$ $H \sim 8$ attention head $F \sim 10^{3}$ $d \sim 128$ 时，这一成本是不可行的。即使是 base model，参数数量也可能超过数百亿。因此，虽然概念上理想，但完全的 field-pair specialization 对于工业部署而言不切实际。我们现在推导一种更具 scalable 的实现方案，同时保留其语义本质。

1.2.3 Filed-decomposed Attention: Field-Aware Content Alignment with Field-Pair Interaction Modulation

为了在确保 scalability 的同时保留 field-pair modeling 的表达能力，我们将 attention 机制分解为两个互补的组件：
- 域感知内容对齐（Field-aware content alignment）：给定两个 tokens 各自的语义角色（semantic roles），该组建刻画它们的交互程度。
  这个思想已经在 Hiformer （《Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems》）中被提出了。
  此外，Hiformer 不仅在 attention layer 进行域感知内容对齐，也在 FFN layer 进行了域感知内容对齐。
- 域对交互调制（Field-pair interaction modulation）：信息从一个 field 流向另一个 field 的强度。
这种分解允许我们以极低的成本保留细粒度的 interaction modeling 。具体而言，我们将 attention score 定义为：
$\begin{matrix} α (i, j) = ({\vec{q}}_{i} {\vec{k}}_{j}^{⊤}) \times w_{f_{i}, f_{j}} \\ {\vec{q}}_{i} = {\vec{h}}_{i} W_{Q}^{(f_{i})}, {\vec{k}}_{j} = {\vec{h}}_{j} W_{K}^{(f_{j})} \end{matrix}$
$\left(\mathbf{\vec q}_i \mathbf{\vec k}_j^\top\right)$ 不再是通用的相似性度量（similarity measure）——它是 field-aware content alignment ，因为 query 和 key 都通过依赖于 source fields 的矩阵进行投影：
- $\mathbf W_{Q}^{(f_{i})}$ token $i$ 的变换（transformationtoken $i$ field $f_{i}$ 成员的角色（例如，user-side vs. item-side encoding ）。
- $\mathbf W_{K}^{(f_{j})}$ field $f_{j}$ 的语义来调整 key 。
因此，即使不考虑跨域强度（cross-field strength ），模型也能区分：an age value 在与 a user context 计算注意力，以及与 a contextual ad signal 计算注意力时，是否应进行不同编码。这代表了一种粗粒度但至关重要的 field awareness：每个 field 学习自己的 "encoding style"，支持 tokens 之间基于语义的比较。
$w_{f_{i}, f_{j}} \in \mathbb{R}$ 作为 field-pair modulation factor，基于 source fields 和 target fields 来调整 attention weightsemantic fields $w_\text{adcategory,userbehavior}$ behavior-category $w_\text{adcategory,devicetype}$ 会抑制无关的耦合（irrelevant couplings）。
总之，这种分解分离了不同关注点：
- $\mathbf{\vec q}_i \mathbf{\vec k}_j^\top$ ：在特定于域的解释（field-specific interpretation）下，捕获 tokens represent。
- $w_{f_{i}, f_{j}}$ ：控制此类 representations 是否交互以及交互强度。
value vector 遵循相同原则：
${\vec{v}}_{j} = {\vec{h}}_{j} W_{V}^{(f_{j})}, W_{V}^{(f_{j})} \in R^{d \times d}$
从而确保 output transformations 也与 field semantics 对齐。
multi-head attention 聚合 output 如下：
$\begin{matrix} {FATAttn}_{h} (i) = \sum_{j = 1}^{F} α_{h} (i, j) {\vec{v}}_{j}^{(h)} \\ α_{h} (i, j) = \frac{\exp (({\vec{q}}_{i, h} {\vec{k}}_{j, h}^{⊤}) \times w_{f_{i}, f_{j}}^{(h)} / \sqrt{d})}{\sum_{k = 1}^{F} \exp (({\vec{q}}_{i, h} {\vec{k}}_{k, h}^{⊤}) \times w_{f_{i}, f_{k}}^{(h)} / \sqrt{d})} \\ {\vec{q}}_{i, h} = {\vec{h}}_{i} W_{Q}^{(f_{i}, h)}, {\vec{k}}_{j, h} = {\vec{h}}_{j} W_{K}^{(f_{j}, h)}, {\vec{v}}_{j, h} = {\vec{h}}_{j} W_{V}^{(f_{j}, h)} \end{matrix}$
这种公式具有以下几个优点：
- 多层次的 field 感知（Hierarchical Field Awareness）：content alignment 在 per-field level（粗粒度）运作，编码了语义角色（semantic roles）；interaction modulating 在 field-pair level （细粒度）运作，控制路由强度（routing strength）。
- Interpretability $w_{f_{i}, f_{j}}$ 提供了对 interaction 模式的洞察。
- Asymmetry $w_{f_i, f_j} \neq w_{f_j, f_i}$ 自然地建模了方向性效应（directional effects）。
- 效率和可扩展性（Efficiency and Scalability）：朴素的 field-pair projectionshead $O(F^{2} d^{2})$ FAT $O(F d^{2}+F^{2})$ 个参数，在典型场景下（例如，从 16B 减少到 50M ）将参数数量减少 99% 以上。这使得训练大型模型而不牺牲语义保真度（semantic fidelity ）成为可能。
通过将 field-aware representation 与 field-pair-governed routing 分离，FAT 实现了结构化表达（structured expressivity）：它不是通过增加无结构化容量（unstructured capacity）来扩展，而是通过以可控的、可解释的方式深化语义分辨率（semantic resolution）。

1.2.4 Basis-Composed Hypernetwork for Scalable Parameter Generation

$3F$ $F \approx 10^{3}$ $\left\{\mathbf W_{Q}^{(f)}, \mathbf W_{K}^{(f)}, \mathbf W_{V}^{(f)}\right\}_{f=1}^F$ 在 large-scale systemsfields $F$ embedding size $d$ 都很大时。为了在保留语义保真度（semantic fidelity ）的同时将参数增长（parameter growthfields $F$ 解耦，我们引入了 a basis-composed hypernetwork ，动态生成 field-specific projections。
$\mathcal B = \{\mathbf B_1, \cdots, \mathbf B_M\}$ $M$ basis matrices $\mathbf B_m \in \mathbb{R}^{d \times d}$ ，代表规范线性变换（canonical linear transformations）（例如，缩放 scaling、旋转rotation ）。这些矩阵通过端到端来学习，并在所有 fields 之间共享。
$M$ $F$ 小得多，从而为了降低参数规模。
FAT Layer $\{\phi_f\}_{f=1}^F$ $\mathcal B$ 。
field $f$ a meta-embedding $\phi_f \in \mathbb{R}^k$ MLP $g_{\psi}: \mathbb{R}^k \to \mathbb{R}^M$ ：
${\vec{s}}^{(f)} = g_{ψ} (ϕ_{f}) \in R^{M}$
meta-embedding $\phi_f$ $\mathbf{\vec b}_{f}$ 。
Top-K sparse selection $K \ll M$ ）：
$\begin{matrix} π_{f} = TopK ({\vec{s}}^{(f)}) \\ α_{m}^{(f)} = \frac{\exp (s_{m}^{(f)})}{\sum_{m^{'} \in π_{f}} \exp (s_{m^{'}}^{(f)})}, \forall m \in π_{f} \end{matrix}$
$\pi_f$ 是一个集合。
并将 query projection 综合如下：
$W_{Q}^{(f)} = \sum_{m \in π_{f}} α_{m}^{(f)} B_{m}$
basis set $\mathbf W_K^{(f)}$ $\mathbf W_V^{(f)}$ 。
Top-K parse selection 如何训练？读者猜测：利用直通估计器（Straight-Through Estimator: STE）。这是处理离散操作最常用、最直接的方法。
- Top-K selection $\pi_f$ 。只有这些索引对应的基矩阵会参与加权求和。
- $K$ $s_m^{(f)}$ ，就像 selection 操作本身是可微的一样。
- 效果：虽然梯度在数学上不精确，但在实践中非常有效，能让模型学习到哪些基矩阵应该被选中。
hypernetwork 支持 scalable 的架构设计，具有两个关键优点：
- 与 field growthfield-specific projections $O(F d^2)$ shared bases $O(M d^2)$ meta-embeddings $O(F k)$ $F$ 的增长进行稳定高效的 scaling ——这对于不断引入新特征的工业 applications 至关重要。
- $\mathbf W_Q^{(f)},\mathbf W_K^{(f)},\mathbf W_V^{(f)}$ ——在训练后预先计算并缓存。在 serving 时不执行 hypernetwork evaluation ，确保与 low-latency 的 production pipelines 完全兼容。

1.2.5 CTR Prediction

FAT $L$ 层 field-decomposed attention，每层之后跟随一个前馈网络（FFN）、residual connection 、以及 layer normalization ：
$\begin{matrix} Z^{(l + 1)} = FFN (LayerNorm (FATAttn (Z^{(l)}))) + Z^{(l)} \\ Z^{(0)} = H \end{matrix}$
根据论文的 Figure 1，它每层的结构应该为：
$Z^{(l + 1)} = FFN (LayerNorm (FATAttn (Z^{(l)}) + Z^{(l)}))$
即：先添加残差、再进行 RMS Norm、最后馈入 FFNRMS Norm $\frac{x}{\sqrt{(\sum_{i=1}^n x_i^2)/n + \epsilon}}\times \gamma$ 。
然后应用池化操作并生成 final prediction：
$p (y = 1 ∣ X) = σ (w^{⊤} \sum_{i = 1}^{F} {FATOutput}_{i}^{(L)})$
其中：
- $\sigma(\cdot)$ 为 sigmoid 函数。
- $\mathbf{\vec w}\in \mathbb R^d$ 为learnable 的权重向量。
- $\text{FATOutput}^{(L)}_i$ field $i$ 的 final-layer representation。

1.3 理论意义：A Principled Scaling Law

推荐系统中最受追捧的目标之一是随着模型大小增加，实现可预测的、平稳的性能提升——这一现象在 LLM 中通过 empirical scaling laws 得到了充分证明。然而，在 CTR prediction 中，naive scaling 往往导致性能饱和或下降，因为 unstructured capacity growth 放大了 noise 而不是放大了 signal 。
我们表明，FAT 通过使 architectural design 与 combinatorial semantics of feature interactions 进行对齐，实现了 principled scaling。具体而言，我们证明 FAT 的有效模型复杂度（effective model complexitysemantic fields $F$ 和 interaction structure ranktotal vocabulary size $n = \sum_{i=1}^F |\mathcal V_i|$ $n$ $10^9$ $\mathcal V_i$ field $i$ 的 vocabulary 。这种 structural alignment 产生了更严格的泛化边界（generalization bounds），并为表现良好的 scaling law 铺平了道路。
我们的主要理论结果建立了单个 FAT attention layer 泛化误差的上界。基于拉德马赫复杂度分析（Rademacher complexity analysis）的完整证明见附录 A。
定理 4.1Generalization Bound for FAT $\mathcal D$ input sequences $\mathbf H = \left[\mathbf{\vec h}_1, \cdots, \mathbf{\vec h}_F\right]$ $\left\|\mathbf{\vec h}_i\right\|_2 \leq R$ $\mathbf W_Q^{(f)}, \mathbf W_K^{(f)}, \mathbf W_V^{(f)}$ Frobenius norm $B$ interaction scalars $w_{f_i,f_j}$ $B_w$ $m$ $1 - \delta$ 的情况下，单个 FAT layergeneralization error $L_\text{gen}$ 满足：
$L_{gen} \leq L_{train} + O (\frac{\sqrt{F d^{2} + F^{2}}}{\sqrt{m}} \times C (R, B, B_{w}, d) + \sqrt{\frac{\log (1 / δ)}{m}})$
$C(R, B, B_w, d) = O(R^2 B^2 B_w \sqrt{d} + R B B_w)$ 是一个依赖于范数边界（ norm bounds ）和 embedding size 的常数。
这个上界揭示了 FAT 相较于 standard Transformer 的根本优势。
- 标准 self-attentionhypothesis space complexity $O(n d^2)$ 缩放，因为它能够形成任意的 token-level interactions，这使得它在极端数据稀疏性（extreme data sparsity）下极易过拟合。
  注意，这里讨论的是 “假设空间复杂度”。因为在标准 self-attention 中，每个 tokentoken $O(nd^2）$ 。
  而在 FATfield-level $n$ $F$ 有关。
- 相比之下，FATsemantically valid pathways $F$ field-specific transformations $F^2$ 个 cross-field modulations 。这种结构约束（structural constrainteffective hypothesis space $\text{poly}(n)$ $\text{poly}(F)$ $F \ll n$ $F \sim 10^3 \text{ vs. } n \sim 10^9$ ）。因此，每个参数在其 field 内的大量数据中共享，显著提高了统计效率（statistical efficiency）并减轻了过拟合。
至关重要的是，这种严格的泛化边界支持可预测的 scalingfield schema $F$ embedding size $d$ $N_\text{params} \propto F d^2$ field-aware content alignment $\mathbf W_Q^{(f)}, \mathbf W_K^{(f)}$ field-pair interaction modulation $w_{f_i, f_j}$ ）的表征保真度（representational fidelity）。这允许模型学习 fieldshigher-rank $L_\text{train}$ 。由于架构与 data’s combinatorial structure 对齐，这些额外参数细化了有意义的模式，而非拟合噪声。
注意，这里的总参数数量仅包含 FAT layer 的参数，不包括 embedding layerembedding layer $n$ 由 vocabulary 决定，它不是一个可以调整的超参数。
结合这两种效应——增强表达能力带来的偏差（ bias ）减少、以及严格泛化带来的方差（varianceprincipled scaling law $m$ field schema $F$ 的情况下，随着模型宽度增加，测试集性能根据 power-law 趋势提升：
$Δ AUC \propto N_{params}^{β}, β > 0$
$\Delta \text{AUC}$ 是相对于 baseline 的性能增益。这为 CTR 模型中观察到的经验性的 power-law scaling 趋势提供了理论依据，将architectural design 与 predictable scalability 联系起来。这一定律的实证验证见实验章节。

1.4 实验

我们进行了全面的实验，以严格评估我们提出的 Field-Aware Transformer: FAT 的有效性、可解释性、可扩展性和可部署性。我们旨在回答五个关键研究问题：
- RQ1：FAT 在预测准确性方面是否优于 SOTA 的 CTR 模型？
- RQ2：各个组件对性能的贡献如何？decomposition 是否有效？
- RQ3：FAT 能否提供对 field-level interactions 的可解释洞察？
- RQ4：FAT 是否表现出理论预测的良好 scaling law ？
- RQ5：当部署在实际在线系统中时，FAT 在 A/B testing 中是否改善了业务指标？
数据集：我们在来自 Taobao's sponsored search 的 a large-scale CTR dataset 上进行评估，该数据集包含两周内收集的超过 14 billion 的 user impressions 。输入包括数百个异质特征（heterogeneous features）——features—categorical 特征（例如，user/item IDs ）、numerical 特征（例如，CTR、停留时间 dwell time）、以及 sequential 特征（例如，行为轨迹 behavior trails）——涵盖数十亿 users and items。这种 setting 捕获了工业推荐的核心挑战：极端规模、高稀疏性和复杂的跨域交互（cross-field interactions）。
baselines ：我们与具有代表性的 SOTA 方法进行比较，按建模范式分类：
- 传统交互模型（Traditional Interaction Models）：FFM、DeepFM、AutoInt 和 DCNv2，这些模型强调 structured or learned 的 pairwise feature crosses 。
  此外，我们将 Embedding+MLP 用于 feature crossing 从而作为 strong baseline，记为 DeepCTR。
- 面向 scaling 的架构（Scaling-Oriented Architectures）：HiFormer、Wukong、HSTU 和 RankMixer，代表了 scalable and adaptive model design 的最新进展。
这一选择涵盖了 CTR 建模的进化谱系——从 field-aware factorization 到 large-scale representation learning ——使我们能够以 principle 的方式评估 structured field awareness 是否能够超越经典交互机制（classical interaction mechanisms）和现代缩放范式（modern scaling paradigms）。
实现细节：
- 所有实验都在配备 128 个 NVIDIA GPU 的分布式训练系统上进行，使用同步数据并行 SGD （synchronous data-parallel SGD）。
- 模型使用 TensorFlowAdam optimizer $\beta_1 = 0.9, \beta_2 = 0.999$ ）进行优化。global batch size = 262,144（每个 GPU 为 2048）；对每个模型和每个 scale configuration ，初始学习率在 {1e-4, 3e-4, 5e-4, 1e-3} 中进行调优。
- 为了进行公平且有洞察力的比较，我们采用了与 architectural design principles 对齐的双规模评估协议（dual-scale evaluation protocol）：
  - Traditional Interaction Models （DeepCTR, FFM, DeepFM, AutoInt, DCNv2）：在约 50M 参数的典型容量下进行评估。所有超参数——包括 embedding size、hidden size、dropout（0.1-0.5）、L2正则化（1e-6 to 1e-3）和网络深度——通过在验证集上的贝叶斯搜索（Bayesian search）进行优化，以确保最佳性能。
  - Scaling-Oriented Architectures（HiFormer, Wukong, HSTU,RankMixer）：通过调整 width 或 depth，在保持核心架构约束（例如，RankMixer 中的 experts 数量、HSTU 中的 hierarchy levels）的同时，统一扩展到约 0.5B 参数。在这一固定容量范围内重新调优超参数。
  我们根据上述协议定义了 FAT 的三个实例：
  - FAT-Small ：约 50M 参数，与 Traditional Interaction Models 进行比较；
  - FAT-Large ：约 0.5B 参数，与Scaling-Oriented Architectures 进行比较；
  - FAT-XL：约 1.5B 参数，专门用于分析 scaling 趋势。
- 所有模型共享相同的：
  - (1)：特征预处理：categorical 特征使用 hashed vocabularies ；numerical 特征离散化为不同的 bins ；sequential 特征（例如，user behavior history ）通过共享的 DIN 风格的兴趣提取器（interest extractor ）来处理。
  - (2)embedding size $d \in \{8, 16, 32, 64\}$ 。
- FAT-specific 配置：
  - multi-head attention $H = 8$ 个 heads 。
  - field meta-embeddings $\phi_f \in \mathbb{R}^{64}$ 随机初始化并在各层之间共享。
  - hypernetwork $M = 64$ 个共享的基矩阵（basis matrices），采用 Top-𝐾 = 3 sparse activation 。
  - field-pair interaction scalars $w_{f_i, f_j}$ $\mathcal N(0, 0.01)$ 中初始化。

1.4.1 Main Results (RQ1): Superior Predictive Performance

本节评估 FAT 是否比 SOTA 的 CTR 模型实现了更优的性能——更关键的是，为什么。我们没有报告孤立的收益，而是设计了一个严格的比较框架，以区分架构优势与参数膨胀（parameter inflation）。核心问题是：FAT 性能更好是因为其结构设计，还是仅仅因为更大的容量？
为了回答这个问题，我们采用了双规模评估框架（dual-scale evaluation framework），支持三个关键调查：
- (1)：FAT 是否优于现有模型？
- (2)：FAT 的改进是否归因于更好的架构，而非更多的参数？
- (3)：FAT 的相对优势在 scaling 下是否持续——甚至增长？
如 Table 1 所示，我们报告了相对于 baseline（DeepCTR ）的 ΔAUC。
- 在小规模场景（约 50M 参数）下，FAT-Small 优于 traditional interaction models，包括 DeepCTR, FFM, DeepFM, AutoInt, and DCNv2。这一点尤为重要，因为这些方法在这一容量下已达到性能上限，进一步 scaling 只会带来递减收益。例如，我们也将 traditional interaction models 扩展到 0.48B 参数（例如，DeepCTR-Large），但未观察到进一步的改进——表明性能很早就饱和了。
  FAT 在相同参数约束下的收益表明，其 field-aware attention decomposition 能够更有效地利用有限的模型容量。
- 在大规模场景（约 0.5B 参数）下，FAT-Large 超越了 scalable architectures （包括 Hiformer, Wukong, HSTU, and RankMixer），尽管参数大小完全匹配。所有 baselines 在保持架构完整性的同时，通过 width/depth 进行了统一扩展，并且为了公平起见重新调优了超参数。
  FAT 的持续领先表明，其性能优势并非源于规模，而是源于更优的归纳偏置（inductive bias）：field-aware content alignment 和 interaction-aware routing 的分离允许更基于语义且更稳定的信息流。
- 值得注意的是，当进一步扩展到 1.5B 参数（FAT-XL）时，性能继续提升，没有出现饱和迹象——这初步表明了良好的 scaling 行为（将在接下来的实验中深入分析）。
总之，在公平的容量控制下，FAT 始终优于经典的和现代的 CTR 模型。其收益并非参数数量的产物，而是结构化表达（structured expressivity）的结果。这确立了 FAT 作为一种根本上更强大的架构——其优势源于设计，而非仅仅是规模。

1.4.2 Ablation Study (RQ2): Component-wise Analysis

为了理解 FAT 收益的来源，我们进行了消融实验，测量相对于 baseline（DeepCTR）的相对 AUC 改进（Table 2）。所有变体保持相似的 training setups，支持对 design choices 的受控比较。
- 完整的 FAT（FAT-Large）实现了最高的收益（+0.41），验证了我们整体设计的有效性。
- 移 field-aware biases（ w/o field-aware biases）导致轻微下降至 +0.35，表明虽然结构先验（structural priors）有帮助，但并非性能的主要驱动因素。
- 至关重要的是，attention 机制的分解（decomposing）揭示了明确的贡献层次：
  - Field-Aware Content Alignmentfield-specific query projections $\mathbf W_Q^{(f)}$ ）——是最关键的组件。移除它会使性能下降至 +0.24 ，损失 0.17 个百分点，大于任何其他单一消融。这表明，按字段角色（field role）（例如，user, item, context ）进行早期专门化（early specialization），构成了有意义交互建模（meaningful interaction modeling）的基础。
  - Interaction Modulatingfield-pair-specific scalars $w_{f_i, f_j}$ ——也有贡献，移除后收益减少为 +0.29（损失 0.12 个百分点）。虽然它的粒度更细，但它的影响是次要的，这表明非对称交互强度（asymmetric interaction strength）很重要，但仅在 content representations 被正确地对齐之后。
- 对于 scalability，用完整的参数矩阵替换 hypernetwork 会产生相似的性能（ +0.38），但参数成本增加 5 倍，这表明 dynamic generation 以最小的存储实现了接近最优的表达能力。
- 最重要的是，没有参数分解（parameter decomposition）的 naïve field-pair-specialized attention 由于内存溢出（>150B 参数）而完全失败，这凸显了无结构化容量增长（unstructured capacity growth）在实际系统中是不可行的。

1.4.3 Interpretability Analysis (RQ3): Uncovering Semantic Interaction Patterns

为了理解 FAT 如何捕获语义交互（semantic interactionsmodulation weights $w_{f_i, f_j}$ field $f_j$ field $f_i$ 的强度。这些参数在同一 field pair 的 tokens 之间共享，反映了全局交互模式（global interaction patterns）。我们在 Figure 2attention heads $w_{f_i, f_j}$ ，揭示了两个关键特性：结构化一致性（structured coherence）和非对称影响（asymmetric influence）。
Structured Coherence：权重矩阵是稀疏的，表现出明确的块结构（block-wise structure）。high values 集中在语义有意义的 pairs 上：
- Candidate item features （例如，item_cate, shop_level）与 real-time user signals（例如，recent_clicks）显示出强烈的关联。
- User profile fields（例如，age, gender）与长期偏好指标（例如，fav_brands, longterm_clicks）的交互最强。
相比之下，不相关模态之间的 cross-field interactions（例如，device_type -> income）接近于零。这种模式与业务先验（business prior）一致：短期意图（short-term intent）驱动物品相关性（item relevance），而静态画像（static profiles ）塑造稳定偏好（stable preferences）。FAT 在没有显式监督的情况下自然地学习到这种 separation，表明其结构化表达（structured expressivity ）将容量集中在有意义的路径上。
由于数据隐私的要求，作者没有给出热力图中每个字段的名字。所以也不知道具体是什么情况。
Asymmetric Influence：交互强度（interaction strength）具有高度的方向性。如 Table 3 所示：
- 当 item feature 作为query 时，它为 recent user behaviors （及 rec_clicks）分配高权重（ 0.97），表明对当前意图的强烈依赖。
- 相比之下，当 recent behavior feature （例如，rec_clicksquery $w_\text{recclicks,item} = 0.23$ ），表明有限的预测能力。
这些结果证实，FAT 学到了可解释的且语义合理的交互模式。与广泛分配 attention 的 standard Transformer 不同，FAT 的 field-aware design 确保 interaction strengths 既结构化又具有方向性。

1.4.4 Scaling Behavior (RQ4): Validating the Theoretical Law

我们检验了 FAT 是否表现出理论的泛化边界（定理 4.1 ）所暗示的可预测的且持续的 scaling 行为。具体而言，我们研究在固定的 feature semantics 下，性能是否随着模型容量的增加而系统地提升——这是 structured and controllable scalability 的标志。
“固定的 feature semanticsfields $F$ 和顺序。
为此，我们评估了一系列从 50M 到 1.5B 参数的 FAT 变体，在相同数据集上使用一致的超参数和基础设施进行训练。如 Figure 3 所示，ΔAUC 在三个数量级上随参数数量单调增加，遵循 power-law 趋势。观察到的 relationship 可以通过经验函数很好地描述：
$Δ AUC = 5.81 \times 10^{- 5} \times N_{params}^{0.433}$
在测试范围内未观察到饱和，表明 FAT 继续从 increased capacity 中受益——这在 CTR 模型中是不常见的，因为 unstructured architectures 在 scaling 下通常会达到平台期或性能下降。
这种平稳的 scaling 行为与定理 4.1FAT $O(F d^2 + F^2)$ token vocabulary size $n$ 无关。通过将 expressive capacity 限制在 field-aware interaction pathways 上，FAT 确保额外参数细化了语义有意义的模式（semantically meaningful patterns），而非过拟合稀疏组合（parse combinations）。因此，通过增加 embedding size 和 depth 所实现的容量增加转化为一致的收益。
$d$ 的增加。
$F$ 定义了交互拓扑（interaction topologyscaling $F$ 会改变 input schema 并引入新的组合挑战（combinatorial challenges），这超出了 standard scaling laws 的范畴。相比之下，Figure 3 中的趋势反映了架构内可扩展性（intra-schema scalability）：在固定结构基础上，随着表征保真度（representational fidelity）的深化，性能可预测地提升。
进一步的消融实验表明，移除 field-decomposed projections 会破坏这种 scaling 趋势，证实观察到的行为源于架构设计，而非单纯的参数膨胀（parameter inflation ）。
总之，FAT 展示了 CTR prediction 中首个经验验证的 scaling law ：性能遵循由 structured expressivity 所主导的可重现的 power-law 轨迹。这实现了理论与实践之间的闭环，为 scalable recommendation modeling 提供了一条 principled 的路径。

1.4.5 Online A/B Test Results (RQ5): Business Impact in Production

为了评估 FAT 的实际影响，我们在 Taobao’s sponsored search system （全球最大的电子商务推荐系统之一）上进行了大规模online A/B test。流量平均分配给对照组和实验组：
- 对照组：服务于现有的 production 模型，一种高度优化的带有手动 feature crosses 的传统 CTR 模型。
- 实验组：仅用 FAT-Large （约 0.5B 参数）替换 prediction module 。所有其他组件——包括 feature extraction、embedding lookup、以及 serving 基础设施——保持不变，以确保公平比较。
我们报告了两个关键业务指标的相对改进：
- (1) CTR：点击率，衡量 user engagement。
- (2) RPM：每千次展示收入，反映货币化的效率。
如 Table 4 所示，FAT 实现了统计显著的收益：CTR 提升 2.33%，RPM 提升 0.66%。结果证实，FAT 的 structured expressivity 在实际条件下转化为可衡量的业务价值。更重要的是，它们表明，由 field-aware inductive biases 指导的 principled architectural scaling，不仅改善了离线性能，还推动了一致的在线收益，验证了其工业适用性和影响。

1.5 结论

我们发现 standard Transformer 与 combinatorial semantics of CTR data 之间存在根本性不匹配：虽然语言模型受益于序列组合性（sequential compositionality ），但推荐系统需要对无序的、高基数的 semantic fields 进行结构化推理。盲目扩展 unstructured attention 会导致泛化性能不佳和性能提升无效。
为了解决这一问题，我们提出了 Field-Aware Transformer: FAT，通过 field-decomposed attention 使 architectural inductive biases 与 data structure 对齐。通过支持非对称的、可解释的 cross-field interactions，FAT 实现了结构化表达（tructured expressivity ）——模型容量与 interaction complexity 和谐地增长。理论上，我们表明 FATfields $F$ vocabulary size $n$ ，为 CTR 模型提供了首个 principled scaling law。实验表明，FAT 始终优于 SOTA 方法，AUC 最高提升 0.51%，并且在模型规模和数据量上呈现出平稳的 power-law scaling 。它已部署在 production 推荐系统中，产生了显著的在线收益。我们的研究表明，推荐系统中的 scalable performance 并非仅源于规模，而是源于架构与 domain semantics 之间的结构对齐（structural alignment ）。