2015_HRM

一、HRM [2015]

《Learning Hierarchical Representation Model for Next Basket Recommendation》

购物篮分析（market basket analysis）可以帮助零售商更好地了解用户的购买行为，从而作出更好的决策。购物篮分析最重要的任务之一是 next basket recommendation：根据每个用户的序列交易数据来推荐用户下一次访问时可能想要购买的item 。其中，交易（transaction）是在某个时刻购买的一组 item（如鞋子、包包）。该问题有两种建模范式：
- 序列推荐器（sequential recommender）：主要依赖于马尔科夫链。它根据最近的动作预测next purchase 来探索序列交易数据。该模型的一个主要优点是它能够捕获序列行为从而用于良好的推荐。例如，对于最近购买手机的用户，它可能会推荐该用户购买手机配件，其中这些手机配件是其它用户购买手机后也来购买的。
- 通用推荐器（general recommender）：丢弃任何序列信息并学习用户感兴趣的 item 。这类方法中最成功的方法之一是基于模型的协同过滤（如矩阵分解模型）。显然，通用推荐器擅长通过学习用户的整个购买历史来捕获用户的通用兴趣（general taste）。
next basket recommendation 的更好的解决方案是同时考虑序列行为和用户的通用兴趣。个性化的马尔科夫链（personalized Markov chain: FPMC）朝着这个方向迈出了一步，它能够同时建模序列行为（通过前一个交易中的 item 与后一个交易中的 item 之间的交互）、以及用户的通用兴趣（通过用户与 next basket 中的 item 之间的交互），因此比单独的序列推荐器或者单独的通用推荐器表现更好。然而，FPMC 的一个主要问题在于它的所有组件都是线性组合的，表明它在多个因子之间做出了强独立性假设（即，每个组件都是独立地影响用户的 next purchase ）。不幸的是，根据论文《Learning Hierarchical Representation Model for Next Basket Recommendation》的分析，作者表明独立性假设不足以提供良好的推荐。
为解决上述问题，论文《Learning Hierarchical Representation Model for Next Basket Recommendation》为 next basket recommendation 引入了一种新颖的 hierarchical representation model: HRM 。具体而言，HRM 将每个用户和每个 item 表达为连续空间中的一个向量，并使用 two-layer 结构来构建用户、以及上一次交易的 item 的 hybrid representation：
- 第一层通过聚合上一次交易的 item 向量，从而形成 transaction representation 。
- 第二层通过聚合用户向量和 transaction representation 从而构建 hybrid representation 。
然后，论文使用得到的 hybrid representation 来预测 next basket 中的 item 。注意，transaction representation 对序列行为进行建模，而 user representation 捕获了用户的通用兴趣。
HRM 允许我们在不同的层灵活地使用不同类型的聚合函数。具体而言，通过采用非线性运算（而不是线性运算），我们可以建模不同因子之间更复杂的交互，而不是独立性假设。例如，通过使用最大池化操作，我们可以比较来自不同因子的特征，并且仅选择那些最重要的特征来形成更高 level 的 representation 从而用于未来的预测。
论文还表明，通过选择适当的聚合函数，HRM 包含了几种现有的方法，包括马尔科夫链模型、矩阵分解模型、FPMC 模型的变体。为了学习模型参数，论文使用负采样程序作为优化方法。论文对三个真实世界的交易数据集进行了实验，结果证明了HRM 与 SOTA baseline 方法相比的有效性。
主要贡献：
- 为 next basket recommendation 引入了一个通用模型，该模型可以捕获序列行为和用户的通用兴趣，并灵活地结合多个因子之间的不同交互。
- 在 hierarchical model 中引入了两种类型的聚合函数，即均值池化和最大池化，并研究了这些函数的不同组合的效果。
- 理论上表明HRM 模型在选择适当聚合函数的情况下，包含了几种现有的推荐方法。
- 实验表明，HRM 模型在 next basket recommendation 的不同评估指标下始终优于 SOTA baseline 。
相关工作：next basket recommendation 是基于隐式反馈的推荐系统的典型应用，其中用户没有显式的偏好（如评分），而只有正向的观察（positive observation）（如购买或点击）。
- 序列推荐器：主要基于马尔科夫链模型，通过在给定最近一个动作的情况下预测用户的下一步动作来利用序列数据。我们的工作与之前方法的主要区别在于：除了序列行为之外，我们还包含了用户的通用兴趣。以外，以前的序列推荐器很少解决因子中 item 之间的交互。
- 通用推荐器：根据用户的整个购买历史进行推荐，而不考虑序列行为。通用推荐器的关键思想是协同过滤（collaborative filtering: CF），它进一步可以分为基于内存的 CF（通过某些相似性度量找到 k 近邻的用户或 item 来进行推荐）、以及基于模型的 CF（通过分解 user-item 相关性矩阵来进行推荐）。通用推荐器擅长捕获用户的通用兴趣，但是如果没有建模序列行为，那么很难将其用于用户最近的购买行为。
- 混合模型（hybrid model）：结合了序列行为建模和用户通用兴趣建模。
  一个 SOTA 模型是 FPMCtransition cube $u$ item $i$ item $j$ 的概率。通过分解这个立方体，该方法通过用户、 last item、 next item 之间的三个 pairwise 交互来解释这个概率。以这种方式，FPMC 通过 last item 与 next item 之间的交互来建模序列行为，通过用户与 next item 之间的交互来建模用户的通用兴趣。实验表明，这种混合模型可以比单独的序列推荐器、或者单独的通用推荐器实现更好的性能。

1.1 模型

动机：next basket recommendation 的一个简单的解决方案是：线性组合序列因子（sequential factor）（来自序列行为模型）和通用因子（general factor）（来自用户通用兴趣模型）。然而，这种线性组合假设多个因子之间是独立的。真实世界的结果表明，不同因子之间的独立性假设可能不足以提供良好的推荐。我们需要一个能够更复杂地集成多个因子之间交互的模型。这成为我们工作的主要动机。
$\mathcal U = \{u_1,\cdots,u_{M}\}$ $\mathcal I = \{i_1,\cdots,i_{N}\}$ item $M$ $N$ 为所有 item 数量。
$u$ $\mathbb T^u=\left(\mathcal T_1^u,\cdots,\mathcal T_{t_u-1}^u\right)$ $\mathcal T_t^u\sube \mathcal I$ $t$ item $t_u-1$ $\mathbb T = \left\{\mathbb T^{u_1},\cdots,\mathbb T^{u_M}\right\}$ $\mathbb T$ next basket recommendation $u$ $t_u$ ）访问时可能会购买的 item 。
next basket recommendation $u$ $t_u$ ranking $\succ_{u,t} \in \mathcal I\times \mathcal I$ ，基于这个 ranking 我们可以向每个用户推荐 top n items 。
为解决上述推荐问题，我们提出了 HRM 模型。HRM 的思想是学习一个可以同时包含序列行为和用户通用兴趣的推荐模型，同时建模这些因子之间的复杂交互。
具体而言，HRM 将每个用户和每个 item 表达为连续空间中的一个向量，并采用两层结构来构建用户和最近一次交易的 item 的 hybrid representation ：
- 第一层通过聚合最近一次交易的 item 向量从而形成 transaction representation 。
- 第二层通过聚合用户向量和 transaction representation 来构建 hybrid representation。
然后使用得到的 hybrid representation 来预测 next basket 中的 item。HRM 的整体结构如下图所示。正如我们所见，HRM 通过对连续购买进行建模从而捕获序列行为，通过在序列推荐中集成个性化的 user representation 从而建模了用户的通用兴趣。
该模型有两个不足：
- 首先，模型无法捕获用户的所有历史，只能“看到 “最近” 一次发生的交易，所以无法捕获用户的长期兴趣。
- 其次，模型没有捕获用户兴趣的动态演变。
$\mathbf V^U\in \mathbb R^{M\times d}$ representation $u$ $\mathbf{\vec v}_u^U\in \mathbb R^d$ $u$ representation $d$ $\mathbf V^I\in \mathbb R^{N\times d}$ item representation $i$ $\mathbf{\vec v}_i^I\in \mathbb R^d$ item $i$ 的 representation 向量。
$u$ $\mathcal T^u_{t-1}$ $\mathcal T^u_t$ ，HRMsoftmax $u$ $\mathcal T_{t-1}^u$ next item $i$ 的概率：
$p (i \in T_{t}^{u} ∣ u, T_{t - 1}^{u}) = \frac{\exp ({\vec{v}}_{i}^{I} \cdot {\vec{v}}_{u, t - 1}^{H})}{\sum_{j = 1}^{N} \exp ({\vec{v}}_{j}^{I} \cdot {\vec{v}}_{u, t - 1}^{H})}$
$\mathbf{\vec v}_{u,t-1}^H$ $u$ $t-1$ 的 hybrid representation ，它被定义为：
${\vec{v}}_{u, t - 1}^{H} = f_{2} ({\vec{v}}_{u}^{U}, f_{1} ({{\vec{v}}_{l}^{I} ∣ l \in T_{t - 1}^{u}}))$
$f_1(\cdot)$ $f_2(\cdot)$ 分别表示第一层和第二层的聚合函数。
HRM 的一个优点是我们可以引入各种聚合函数来从 lower level 形成 higher level 的 representation。通过这种方式，我们可以对不同层的多个因子之间的不同交互进行建模，即在第一层对构成了 transaction representation 的 item 之间的交互进行建模，在第二层对 user represetnation 和 transaction representation 之间的交互进行建模。
在这项工作中，我们研究了均值池化（average pooling）和最大池化（max pooling）这两种典型的聚合函数。显然，均值池化是一种线性运算，它假设输入的 representation 之间相互独立。相反，最大池化是一种非线性操作，它对输入的 representation 之间的交互进行建模，只有那些最重要的特征才会被保留下来。
注意，还可以定义其它类型的聚合函数，如 top-k 均值池化或者 Hadamard product。我们可能会在将来的工作中研究这些聚合函数。此外，还可以考虑在深度神经网络中引入非线性层，然而我们求助于简单的模型，因为这样的计算复杂度较低从而可以用于非常大的数据集。
由于 HRMHRM $\text{HRM}_\text{AvgAvg},\text{HRM}_\text{MaxAvg},\text{HRM}_\text{AvgMax},\text{HRM}_\text{MaxMax}$ ，其中第一个下标表示第一层的聚合函数、第二个下标表示第二层的下标操作。正如我们所看到的，这四个 HRM 版本实际上假设多个因子之间的交互程度不同。
- $\text{HRM}_\text{AvgAvg}$ $\text{HRM}_\text{AvgAvg}$ 可以视为 FPMC 的某种变体。
- $\text{HRM}_\text{MaxAvg},\text{HRM}_\text{AvgMax}$ 都引入了部分交互，要么在最近一个交易的 item 之间、要么在 user represetnation 和 transaction representation 之间。
- $\text{HRM}_\text{MaxMax}$ 同时在两层中使用非线性操作，从而假设所有因子之间完全交互。
HRM 的损失函数是负的对数似然：
$L_{HRM} = - \sum_{u \in U} \sum_{T_{t}^{u} \in T^{u}} \sum_{i \in T_{t}^{u}} \log p (i \in T_{t}^{u} ∣ u, T_{t - 1}^{u}) + λ | | Θ | |_{F}^{2}$
$\lambda$ $\Theta$ $\Theta=\left\{\mathbf V^U,\mathbf V^I\right\}$ ）。
然而直接优化上述目标函数是不现实的，因为计算完整的 softmaxitem $N$ 成正比，而这个数量通常非常大。因此我们使用负采样技术：
$L_{NEG} = - \sum_{u \in U} \sum_{T_{t}^{u} \in T^{u}} \sum_{i \in T_{t}^{u}} (\log σ ({\vec{v}}_{i}^{I} \cdot {\vec{v}}_{u, t - 1}^{H}) + k \times E_{j \in P_{I}} [\log σ (- {\vec{v}}_{j}^{I} \cdot {\vec{v}}_{u, t - 1}^{H})]) + λ | | Θ | |_{F}^{2}$
$\sigma(x)$ sigmoid $k$ $j$ $P_I$ 为负采样的噪音分布（noise distribution）。
正如我们所看到的的，带负采样的 HRMitem $i$ item $j$ 的概率。
$\mathcal L_\text{NEG}$ 。此外，在学习非线性模型时，我们还采用了 Dropout 技术来避免过拟合。在我们的工作中，我们为每个单元设置了一个固定的 dropout rate （即，0.5）。
一旦学到 user representation 和 item representation，则HRM 的 next basket recommendation 过程如下：
- $u$ $\mathcal T_{t_u-1}^u$ item $i\in \mathcal I$ $\mathbf{\vec v}_i^I \cdot \mathbf{\vec v}_{u,t-1}^{H}$ 。
- 然后根据 item 的未归一化概率对 item 进行排序，并选择 top n 个结果来推荐给用户。
注意，由于排序只需要考虑相对大小，因此没有必要计算完整的 softmax 值。

1.2 和之前模型的关系

HRM 和马尔科夫链的关系：HRM 可以简化为某种类型的马尔科夫链模型。
我们选择特殊的聚合函数：
- 对于第一层聚合，我们随机选择一个 item 向量作为 transaction representation。
- 对于第二层聚合，我们选择 transaction representation 作为 hybrid representation 。
$\text{HRM}_\text{CopyItem}$ ，即：
$L_{CopyItem} = - \sum_{u \in U} \sum_{T_{t}^{u} \in T^{u}} \sum_{i \in T_{t}^{u}} (\log σ ({\vec{v}}_{i}^{I} \cdot {\vec{v}}_{s}^{I}) + k \times E_{j \in P_{I}} [\log σ (- {\vec{v}}_{j}^{I} \cdot {\vec{v}}_{s}^{I})]) + λ | | Θ | |_{F}^{2}$
$\mathbf{\vec v}_s^I$ 表示从最近一次交易中随机选择的 item 的 representation 。
类似于 《distributed representations of sentences and documents》 中的推导，我们得到上式的最优解：
${\vec{v}}_{i}^{I} \cdot {\vec{v}}_{s}^{I} = PMI ({\vec{v}}_{i}^{I}, {\vec{v}}_{s}^{I}) - \log k$
$\text{HRM}_\text{CopyItem}$ 实际上是一个 factorized Markov chain model: FMC ，它通过分解 item （这些 item 来自于两个连续的交易）之间的转移矩阵（transition matrixshifted PMI $k=1$ 时，转移矩阵就变为 PMI 矩阵。
事实上，如果我们采用噪声对比估计进行优化，则最优解为：
${\vec{v}}_{i}^{I} \cdot {\vec{v}}_{s}^{I} = \log p ({\vec{v}}_{i}^{I} ∣ {\vec{v}}_{s}^{I}) - \log k$
$\text{HRM}_\text{CopyItem}$ 分解的转移矩阵是 shifted 的对数条件概率矩阵。
HRM 和矩阵分解模型：HRM 可以简化为矩阵分解模型。
我们选择特殊的聚合函数：对于第二层聚合，我们选择 user representationhybrid representation $\text{HRM}_\text{CopyUser}$ ，即：

L_{CopyUser} = - \sum_{u \in U} \sum_{T_{t}^{u} \in T^{u}} \sum_{i \in T_{t}^{u}} (\log σ ({\vec{v}}_{i}^{I} \cdot {\vec{v}}_{u}^{U}) + k \times E_{j \in P_{I}} [\log σ (- {\vec{v}}_{j}^{I} \cdot {\vec{v}}_{u}^{U})]) + λ | | Θ | |_{F}^{2}

其最优解为：

{\vec{v}}_{i}^{I} \cdot {\vec{v}}_{u}^{U} = PMI ({\vec{v}}_{i}^{I}, {\vec{v}}_{u}^{U}) - \log k

$\text{HRM}_\text{CopyUser}$ 简化为矩阵分解模型，该模型分解了一个 shifted PMI 矩阵。

shifted PMI $\text{HRM}_\text{CopyItem}$ 的 shifted PMI 矩阵在公式上不相同。

HRM 和 FPMC 的关系：HRM 可以简化为 FPMC 模型的某种变体。
基于 S-BPR 优化准则和最大后验估计的 FPMC ，其损失函数为：
$L_{FPMC} = - \sum_{u \in U} \sum_{T_{t}^{u} \in T^{u}} \sum_{i \in T_{t}^{u}} \sum_{j \notin T_{t}^{u}} \log σ (\hat{g} (u, t, i) - \hat{g} (u, t, j)) + λ | | Θ | |_{F}^{2}$
$\hat g(\cdot)$ 为预测模型（prediction model）：
$\hat{g} (u, t, i) = \hat{p} (i \in T_{t}^{u} ∣ u, T_{t - 1}^{u}) = {\vec{v}}_{i}^{I} \cdot {\vec{v}}_{u}^{U} + \frac{1}{| T_{t - 1}^{u} |} \sum_{l \in T_{t - 1}^{u}} {\vec{v}}_{i}^{I} \cdot {\vec{v}}_{l}^{I}$
HRM $k=1$ $\text{HRM}_\text{AvgAvgNeg1}$ ，则它的损失函数为：
$\begin{matrix} L_{AvgAvgNeg1} = - \sum_{u \in U} \sum_{T_{t}^{u} \in T^{u}} \sum_{i \in T_{t}^{u}} (\log σ ({\vec{v}}_{i}^{I} \cdot {\vec{v}}_{u, t - 1}^{H}) + E_{j \sim P_{I}} [\log σ (- {\vec{v}}_{j}^{I} \cdot {\vec{v}}_{u, t - 1}^{H})]) + λ | | Θ | |_{F}^{2} \\ = - \sum_{u \in U} \sum_{T_{t}^{u} \in T^{u}} \sum_{i \in T_{t}^{u}} \sum_{j \notin T_{t}^{u}} (\log σ ({\vec{v}}_{i}^{I} \cdot {\vec{v}}_{u, t - 1}^{H}) + \log σ (- {\vec{v}}_{j}^{I} \cdot {\vec{v}}_{u, t - 1}^{H})) + λ | | Θ | |_{F}^{2} \end{matrix}$
考虑到每一层都是均值池化，则有：
${\vec{v}}_{u, t - 1}^{H} = \frac{1}{2} ({\vec{v}}_{u}^{U} + \frac{1}{| T_{t - 1}^{u} |} \sum_{l \in T_{t - 1}^{u}} {\vec{v}}_{l}^{I})$
因此有：
$L_{AvgAvgNeg1} = - \sum_{u \in U} \sum_{T_{t}^{u} \in T^{u}} \sum_{i \in T_{t}^{u}} \sum_{j \notin T_{t}^{u}} (\log σ (\hat{g} (u, t, i)) + \log σ (- \hat{g} (u, t, j))) + λ | | Θ | |_{F}^{2}$
$\text{HRM}_\text{AvgAvgNeg1}$ FPMC $\hat g(u,t,i)$ ），但是二者采用不同的pairwise 优化准则（optimization criteria）：
- FPMCpairwise ranking $\log\sigma\left(\hat g(u,t,i) - \hat g(u,t,j)\right)$ item $i$ 的 rankingitem $j$ 。
- $\text{HRM}_\text{AvgAvgNeg1}$ pairwise ranking $\log \sigma\left(\hat g(u,t,i)\right)+ \log\sigma\left(-\hat g(u,t,j)\right)$ item $i$ 的rankingitem $j$ 的 ranking 。
S-BPR $\text{HRM}_\text{AvgAvg}$ 的目标函数，从而得到与 FPMC 相同的模型。
基于上述分析，我们可以看到 HRM 实际上是一个非常通用的模型。通过引入不同的聚合函数，我们可以包含已有方法。此外，我们还可以探索其它预测函数以及优化准则，从而展现 HRM 的灵活性和潜力。

1.3 实验

数据集：我们使用三个真实交易数据集来评估不同的推荐方法。
- Ta-Feng 数据集：RecSys 会议发布的公开数据集，涵盖了从食品、办公用品到家具产品。
- BeiRen 数据集：来自中国的大型零售企业 BeiGuoRenBai，记录了 2013 年 1 月到 2013 年 9 月期间的超市购买记录。
- T-Mall 数据集：淘宝发布的一个公共的在线电商数据集，以品牌（而不是商品）的方式记录了在线交易。
我们首先对数据集进行预处理。对于 Ta-Feng 和 BeiRen 数据集，我们删除了用户量少于 10 个的商品、以及商品量少于 10 个的用户。对于较小的 T-Mall 数据集，我们删除了用户量少于 3 个的商品、以及商品量少于 3 个的用户。处理后的数据集如下表所示。
最后，我们将所有数据集拆分为训练集和测试集，其中测试集仅包含每个用户的最后一笔交易，而剩余所有交易都放入训练集中。
baseline 方法：
- TOP：将训练集中最流行的 item 作为每个用户的推荐。
- MC：马尔科夫链模型（即序列推荐器），它根据用户的最后一笔交易来预测 next purchase 。预测模型为：
  $p (i \in T_{t_{u}}^{u} ∣ T_{t_{u} - 1}^{u}) = \frac{1}{| T_{t_{u} - 1}^{u} |} \sum_{j \in T_{t_{u} - 1}^{u}} p (i \in T_{t_{u}}^{u} ∣ j \in T_{t_{u} - 1}^{u})$
  $p(i\mid j)$ 是从训练集中估计而来。
- Nonnegative Matrix Factorization: NMF：是一种 SOTA 的协同过滤方法。它是基于 user-item 矩阵的非负矩阵分解，该矩阵是通过丢弃序列信息从交易数据集构造而来。
- FPMC：next basket recommendation 的 SOTA 混合模型，预测时同时考虑了序列行为和用户的通用兴趣。
对于 NMF, FPMC, HRM 方法，我们在 Ta-FengBeiRen $d\in \{50,100,150,200\}$ T-Mall $d\in \{10,15,20,25\}$ 。
$u$ $\mathcal T_{t_u}^u$ $u$ $K$ item $K=5$ item $\mathcal R(u)$ $\mathcal R_i(u)$ $i$ 个位置推荐的 item。我们使用以下指标来评估推荐列表与实际购买的 item：
- F1-Score：它是 precision 和 recall 的调和平均值，是广泛应用的指标。
- Hit-Ratio：如果实际购买的 item 至少有一项也出现在推荐列表中，则称之为命中。命中的推荐列表占所有推荐列表的比例称之为命中率。命中率关注推荐系统的召回率，即所有用户中有多少比率的人获得至少一个正确的推荐。
- NDCG@k：Normalized Discounted Cumulative Gain: NDCG 是一种基于排名的指标，它考虑了列表推荐中的 item 顺序。
不同 HRM 变体的比较：
- $\text{HRM}_\text{AvgAvg}$ 在四种变体中效果最差。这表明通过假设所有因子之间的独立性，我们可能无法学到好的推荐模型。
- $\text{HRM}_\text{AvgMax}$ $\text{HRM}_\text{MaxAvg}$ $\text{HRM}_\text{AvgAvg}$ 的效果更好。但是，这两个模型之间并没有哪个模型表现出一致性地优于对方，这表明不同层的交互都能够以各自的方式来帮助推荐。
- $\text{HRM}_\text{MaxMax}$ 超越了其它三个变体，这表明在 next basket recommendation 中对多个因子之间的交互进行建模的优势。
$\text{HRM}_\text{MaxMax}$ 这个 HRM 版本与 baseline 方法进行比较。
- 总体而言，TOP 方法效果最差。然而我们发现 Top 方法在 T-Mall 数据集上优于 MC。这可能是由于 T-Mall 数据集中的商品实际上是品牌。因此流行品牌在训练集和测试集上的分布非常接近，这符合 Top 方法的假设并导致更好的性能。
- NMF 方法在大多数情况下优于 MC 方法。一个主要原因是 MC 方法中估计的转移矩阵相当稀疏，直接应用它进行推荐可能导致效果不佳。提高 MC 方法性能的一种方法是分解转移矩阵从而缓解稀疏性问题。
- 通过结合序列行为和用户的通用兴趣，FPMC 可以获得比 MC 和 NMF 更好的结果。
- $\text{HRM}_\text{MaxMax}$ 在三个数据集上的所有指标方面都始终优于所有 baseline 方法。
为进一步研究不同方法的性能，我们根据用户的活跃度将用户分为三组（即，不活跃、中等活跃、活跃）并对不同用户组进行比较。以 Ta-Feng 数据集为例，如果用户购买历史少于 5 次则为不活跃、超过 2040.8%, 54.5%, 4.7% $d=50$ 下 Ta-Feng 数据集的结果，其它数据集的结果也是类似的。
- Top 方法仍然是所有用户组中表现最差的。
- MC 在非活跃用户和中等活跃用户上的效果都优于 NMF，而在活跃用户上比 NMF 更差。这表明，NMF 很难通过很少的交易来学习良好的 user representation 从而进行推荐。
- 通过将序列行为和用户的通用兴趣来线性组合，FPMC 在非活跃用户和活跃用户上的性能优于 MC、在非活跃用户和中等活跃用户上的性能优于 NMF 。但是，我们可以看到不同用户组的改进并不是很一致。
- $\text{HRM}_\text{MaxMax}$ 在所有分组上在所有指标都达到最佳性能。这表明，对多个因子之间交互进行建模可以帮助不同类型的用户生成更好的推荐。
$k$ $\text{HRM}_\text{MaxMax}$ 推荐效果的影响。这里我们选择 Ta-FengBeiRen $d=50$ T-Mall $d=10$ 。
- $k$ 的增加，测试集F1-Score 也随之提升，并且三个数据集的趋势非常一致。
- $k$ 的增加，获得的性能增益在降低。这表明如果我们继续采样更多负样本，则性能略微提升但是计算复杂度大幅增加。因此在我们的 baselineTa-Feng, BeiRen, T-Mall $k$ 设置为 25, 60, 6 。