2008_PMF

一、PMF [2008]

《Probabilistic Matrix Factorization》

低维因子模型（low-dimensional factor model）是最流行的协同过滤方法之一，该模型背后的思想是：用户偏好是由少量未观察到的因子（unobserved factor）决定的。
在线性因子模型（linear factor model）中，我们可以通过采用线性加权 item 因子向量（ item factor vectoruser-specific coefficient $m$ $n$ $\mathbf R\in \mathbb R^{m\times n}$ $\mathbf U^ \top\in \mathbb R^{m\times d }$ item $\mathbf V\in \mathbb R^{d\times n }$ 的乘积给出：
$R = U^{⊤} V$
$\mathbf R$ $d$ 秩近似。
Singular Value Decomposition: SVD $\mathbf R$ $\mathbf R$ 的观察值（observed entry）（即非缺失值）。这种看起来非常微小的修改将导致难以解决的非凸优化问题，从而使得标准的 SVD 无法解决。
《Maximum-margin matrix factorization》 $\mathbf U$ $\mathbf V$ 增加范数正则化。但是这会导致需要求解一个稀疏的半正定矩阵，这对于包含数百万个观察值的数据集是不可行的。
上面提到的许多协同过滤算法已经应用于 Netflix Prize 数据集上建模用户评分。然而，由于以下两个原因，这些方法都不是很成功：
- 首先，除了基于矩阵分解的方法之外，上述方法都无法很好地扩展到大型数据集。
- 其次，大多数现有算法都难以为评分很少的用户做出准确的预测。
协同过滤任务的一种常见的数据预处理方法为：删除评分数量低于指定阈值的用户（如评分数量低于3）。事实上，评分数量很低的用户的推荐难度更大。因此大多数协同过滤算法在 MovieLens, EachMovie 等标准数据集上效果非常好，因为这些标准数据集剔除了最困难的情况。例如，Netflix 数据集非常不平衡，低频用户评分少于 5 部电影、高频用户评分超过 10000 部电影。由于Netflix Prize 数据集规模之大、不活跃用户之多，使得它成为协同过滤算法更现实的 benchmark 数据集。
论文 《Probabilistic Matrix Factorization》 提出了概率矩阵分解（Probabilistic Matrix Factorization:PMF）模型，该模型可以轻松的处理非常大的数据，并且也可以处理评分数量稀少的用户。实验表示 PMF 模型在 Netflix 数据集上表现良好。
- PMF 模型的计算复杂度和观察次数成线性，因此具有很好的 scalability 。并且模型在大型、非常稀疏、非常不平衡的数据集（例如 Netflix 数据集）上表现良好。
- 论文进一步扩展了 PMF 模型，从而得到能够自动调整超参数的自适应 PMF，并展示如何自动控制模型容量。
- 最后，论文引入PMF 模型的约束版本，该变种基于以下假设：对相似item 集合评分的用户可能具有相似的偏好。该假设得到的模型对于评分数量很少的用户能产生更好的推荐结果。
当多个 PMF 模型的预测与受限玻尔兹曼机模型的预测线性组合时，论文实现了 0.8861 的 RMSE，这比 Netflix 自己的系统得分好了将近 7% 。

1.1 模型

1.1.1 PMF

$m$ $n$ item $1,2,\cdots,K$ $r_{i,j}\in \{0,1,\cdots,K\}$ $i$ item $j$ $r_{i,j} = 0$ 。
$\mathbf U\in \mathbb R^{d\times m }$ $i$ $\mathbf{\vec u}_i$ $i$ $\mathbf V\in \mathbb R^{d\times n}$ item $j$ $\mathbf{\vec v}_j$ item $j$ 的因子向量。
定义观测值的条件分布为：
$p (R ∣ U, V, σ^{2}) = \prod_{i = 1}^{m} \prod_{j = 1}^{n} {[N (r_{i, j} ∣ {\vec{u}}_{i} \cdot {\vec{v}}_{j}, σ^{2})]}^{I (i, j)}$
其中：
- $\mathcal N(x\mid \mu,\sigma^2)$ $\mu$ $\sigma^2$ $\sigma^2$ 为噪音方差。
- $I(i,j)$ 为示性函数：
  $\begin{matrix} I (i, j) = {\begin{cases} 1, & r_{i, j} > 0 \\ 0, & r_{i, j} = 0 \end{cases} \end{matrix}$
进一步的，我们假设用户因子向量和 item 因子向量采用零均值的球形高斯先验分布（spherical Gaussian）：
$\begin{matrix} p (U ∣ σ_{U}^{2}) = \prod_{i = 1}^{m} N ({\vec{u}}_{i} ∣ \vec{0}, σ_{U}^{2} I) \\ p (V ∣ σ_{V}^{2}) = \prod_{j = 1}^{n} N ({\vec{v}}_{j} ∣ \vec{0}, σ_{V}^{2} I) \end{matrix}$
$\sigma_U^2,\sigma_V^2$ 为先验方差。
则后验概率分布的对数为：
$\begin{matrix} \log p (U, V ∣ R, σ^{2}, σ_{U}^{2}, σ_{V}^{2}) = - \frac{1}{2 σ^{2}} \sum_{i = 1}^{m} \sum_{j = 1}^{n} I (i, j) (r_{i, j} - {\vec{u}}_{i} \cdot {\vec{v}}_{j})^{2} - \frac{1}{2 σ_{U}^{2}} \sum_{i = 1}^{m} {\vec{u}}_{i} \cdot {\vec{u}}_{i} \\ - \frac{1}{2 σ_{V}^{2}} \sum_{j = 1}^{n} {\vec{v}}_{j} \cdot {\vec{v}}_{j} - \frac{1}{2} ((\sum_{i = 1}^{m} \sum_{j = 1}^{n} I (i, j)) \log σ^{2} + m d \log σ_{U}^{2} + n d \log σ_{V}^{2}) + C \end{matrix}$
$C$ 为不依赖于任何参数的常数。
$\sigma^2,\sigma^2_U,\sigma^2_V$ 时，最大化后验分布等价于最小化带正则化项的误差平方和：
$L = \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{n} I (i, j) (r_{i, j} - {\vec{u}}_{i} \cdot {\vec{v}}_{j})^{2} + \frac{λ_{U}}{2} \sum_{i = 1}^{m} | | {\vec{u}}_{i} | |^{2} + \frac{λ_{V}}{2} \sum_{j = 1}^{n} | | {\vec{v}}_{j} | |^{2}$
$\lambda_U = \frac{\sigma^2}{\sigma^2_U}, \lambda_U = \frac{\sigma^2}{\sigma^2_V}$ $||\cdot||^2$ 为 Frobenius 范数。
$\mathcal L$ $\mathbf U,\mathbf V$ 。
PMF 模型可以视为 SVDuser-item $\sigma_U^2,\sigma_V^2$ 无穷大的限制下，PMF 模型退化为 SVD 模型。
$\mathbf{\vec u}_i\cdot {\mathbf v}_j$ 容易超出评分范围。因此 PMF 使用 logistic 函数来限定评分范围：
$\begin{matrix} g (x) = \frac{1}{1 + \exp (- x)} \\ p (R ∣ U, V, σ^{2}) = \prod_{i = 1}^{m} \prod_{j = 1}^{n} {[N (r_{i, j} ∣ g ({\vec{u}}_{i} \cdot {\vec{v}}_{j}), σ^{2})]}^{I_{(} i, j)} \end{matrix}$
$1,2,\cdots,K$ $f(x) = \frac{x-1}{K-1}$ [0,1] $(K-1)\times (\mathbf{\vec u}_i\cdot {\mathbf v}_j) + 1$ 将结果映射回评分。
可以通过最速下降法优化 PMF 的目标函数，其计算复杂度和观察值的规模成线性关系。
Matlab $d=30$ 时我们可以在不到一个小时内训练整个 Netflix 数据集的 1 个 epoch 。
训练 PMF 模型的高效率来自于：仅找到模型参数和超参数的点估计，而不是推断他们的完整后验分布。如果我们采用完全贝叶斯方法，则计算上更为昂贵，但是初步结果强烈表明：对 PMF 模型的完全贝叶斯处理将导致预测准确性的显著提高。

1.1.2 自适应 PMF

模型容量对于 PMF 模型的泛化至关重要。
- $d$ $d$ 足够大时 PMFPMF $d$ 的大小。
  $d$ ，总会对于某些因子向量过高、对另外一些因子向量过低。因为某些因子可能需要大容量来包含足够多的信息，而另一些因子只需要很小的容量来包含少量信息。
- $\lambda_U,\lambda_V$ 。
  选择合适正则化系数，最简单直接的方法是进行超参数搜索，如 GridSearch, RandomSearch 。这种方式的主要缺点是计算量太大：除了训练最终的模型之外，我们必须训练多个模型来确定最佳的正则化系数。
这里我们提出了一个自动确定 PMFPMF $\mathbf U,\mathbf V$ $\sigma_U^2,\sigma_V^2$ 上的对数后验分布：
$\begin{matrix} \log p (U, V, σ^{2}, Θ_{U}, Θ_{V} ∣ R) = \log p (R ∣ U, V, σ^{2}) + \log p (U ∣ Θ_{U}) + \\ \log p (V ∣ Θ_{V}) + \log p (Θ_{U}) + \log p (Θ_{V}) + C \end{matrix}$
其中：
- $C$ 是和任何参数无关的常数。
- $\Theta_U,\Theta_V$ item $p(\Theta_U),p(\Theta_V)$ 。
- $p(\mathbf U\mid \Theta_U),p(\mathbf V\mid \Theta_V)$ $\lambda_U$ $\lambda_V$ $p(\Theta_U)$ $p(\Theta_V)$ $\Theta_U$ $\sigma_U^2$ $\Theta_V$ $\sigma_V^2$ ），此时有：
  $\begin{matrix} \log p (U, V, σ^{2}, Θ_{U}, Θ_{V} ∣ R) = - \frac{1}{2 σ^{2}} \sum_{i = 1}^{m} \sum_{j = 1}^{n} I (i, j) (r_{i, j} - {\vec{u}}_{i} \cdot {\vec{v}}_{j})^{2} - \frac{1}{2 σ_{U}^{2}} \sum_{i = 1}^{m} {\vec{u}}_{i} \cdot {\vec{u}}_{i} \\ - \frac{1}{2 σ_{V}^{2}} \sum_{j = 1}^{n} {\vec{v}}_{j} \cdot {\vec{v}}_{j} - \frac{1}{2} ((\sum_{i = 1}^{m} \sum_{j = 1}^{n} I (i, j)) \log σ^{2} + m d \log σ_{U}^{2} + n d \log σ_{V}^{2}) + C^{'} \end{matrix}$
  $C^\prime = C + \log p(\sigma_U^2) + \log p(\sigma_V^2)$ 为常数。

$\sigma_U^2 = \frac{\sum_{i=1}^m\mathbf{\vec u}_i\cdot \mathbf{\vec u}_i}{md},\quad \sigma_V^2 = \frac{\sum_{j=1}^n\mathbf{\vec v}_j\cdot \mathbf{\vec v}_j}{nd}$

$p(\mathbf U\mid \Theta_U),p(\mathbf V\mid \Theta_V)$ $\mathbf U$ $\mathbf V$ 固定，则可以求解最佳超参数的闭式解。因此，我们可以在训练期间通过交替求解超参数、优化参数。
- $\mathbf U,\mathbf V$ ，此时超参数有闭式解。
- 在求解优化参数时固定超参数，此时通过梯度下降法求解。
当先验分布是混合高斯分布时，我们可以通过执行单步 EM 算法来更新超参数（参数的更新仍然是通过梯度下降法）。

1.1.3 约束 PMF

上述 PMF 模型存在一个问题：对于评分非常少的用户，他们的用户因子向量将趋近于先验均值（或者说用户因子向量的均值），因此这些用户的预测评分将接近所有评分的均值。
这里我们提出了一种约束用户因子向量的方法，该方法对于评分稀少的用户具有很强的效果。
$\mathbf W \in \mathbb R^{d\times n}$ latent similarity constraint matrix $i$ 的因子向量为：
$\begin{matrix} {\vec{u}}_{i} = {\vec{y}}_{i} + \sum_{k = 1}^{n} s_{i, k} {\vec{w}}_{k} \\ s_{i, k} = \frac{I (i, k)}{\sum_{k^{'} = 1}^{n} I (i, k^{'})} \end{matrix}$
$\mathbf{\vec w}_k\in \mathbb R^d$ $\mathbf W$ $i$ 列。
直观的看：
- $\mathbf W$ $i$ $i$ 个item 评分，则用户因子先验均值受到的影响。因此，看过相同（或者相似）电影的用户，其用户因子向量将具有相似的先验分布。如果两个用户评分的 item 集合相同，则他们具有相同的用户因子向量。
- $\mathbf{\vec y}_i$ 可以视为这种先验分布的一个偏移量。
$\mathbf W$ $\mathbf V$ item $\mathbf W$ $\mathbf V$ 用于表达 item。
PMF $\mathbf{\vec u}_i = \mathbf{\vec y}_i$ PMF $i,j,k$ 的范围与我们这里表述的不一致)。
我们定义观察值的条件分布为：
$p (R ∣ Y, V, W, σ^{2}) = \prod_{i = 1}^{m} \prod_{j = 1}^{n} {[N (r_{i, j} ∣ g (({\vec{y}}_{i} + \sum_{k = 1}^{n} s_{i, k} {\vec{w}}_{k}) \cdot {\vec{v}}_{j}), σ^{2})]}^{I (i, j)}$
$\mathbf W$ 服从一个零均值的球形高斯分布：
$p (W ∣ σ_{W}) = \prod_{k = 1}^{n} N ({\vec{w}}_{k} ∣ \vec{0}, σ_{W}^{2} I)$
则有：最大化对数后验概率，等价于最小化带正则化项的误差平方和：
$\begin{matrix} L = \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{n} I (i, j) {(r_{i, j} - g (({\vec{y}}_{i} + \sum_{k = 1}^{n} s_{i, k} {\vec{w}}_{k}) \cdot {\vec{v}}_{j}))}^{2} \\ + \frac{λ_{Y}}{2} \sum_{i = 1}^{m} | | {\vec{y}}_{i} | |^{2} + \frac{λ_{V}}{2} \sum_{j = 1}^{n} | | {\vec{v}}_{j} | |^{2} + \frac{λ_{W}}{2} \sum_{k = 1}^{n} | | {\vec{w}}_{k} | |^{2} \end{matrix}$
其中：
$λ_{Y} = \frac{σ^{2}}{σ_{Y}^{2}}, λ_{V} = \frac{σ^{2}}{σ_{V}^{2}}, λ_{W} = \frac{σ^{2}}{σ_{W}^{2}}$
$\mathcal L$ $\mathbf Y, \mathbf V,\mathbf W$ ，训练时间和观察值的数量成线性比例。
实验表明，这种方式的效果比简单的无约束 PMF 模型效果好得多，尤其是针对评分数量稀少的用户。

1.2 实验

数据集：Netflix 数据集。该数据集收集了 1998 年 10 月到 2005 年 12 月之间Netflix 网站上用户的所有评分数据。
- 训练数据集包含来自 480189个随机选择的匿名用户的 100480507 个评分，涉及 17770个电影标题。作为训练数据的一部分，Netflix 还提供了包含 1408395 个评分的验证数据集。
- 除了训练集和验证集之外，Netflix 还提供了一个包含 2817131 个 user-movie pair 的测试集，这些pair 是从训练集中部分用户的最新评分中选择的。
  Netflix 给出了测试集中一半数据的评分，另一半数据的评分是未给出的。研究人员需要向官方上传另一半（未知部分）数据的评分结果，并由官方返回该部分的 RMSE 指标。这种方式是为了防止模型对测试集过拟合。作为 Baseline，Netflix 给出了他们自己模型在测试集上的 RMSE 指标为 0.9514 。
- 为了进一步了解不同算法的性能，我们通过随机选择 50000 个用户和 1850 部电影，从而创建了一个更小、难度更高的数据集。这个小数据集包含 1082982 个训练数据、10462 个验证数据，其中训练数据中超过 50% 的用户的评分数量少于 10 。
训练配置：为加快训练速度我们采用随机梯度下降，其中 batch size = 100000 。
为选择合适的学习率和动量，我们在各种超参数组合上进行实验，最终选择学习率为 0.0050.9 $d$ 都工作良好。

1.2.1 自适应 PMF

PMF $d=10$ 。选择如此小的维度是为了证明：即使特征维度很低，类似的 SVD 模型仍然可能过拟合，并且通过自动正则化会有一些性能的提升。
模型：
- SVD 模型：该模型的损失函数为观察值误差的平方和，其中没有采用任何形式的正则化。
- 固定正则化系数的 PMFPMF1 $\lambda_U = 0.01, \lambda_V = 0.001$ PMF2 $\lambda_U = 0.001,\lambda_V = 0.0001$ 。
- 自适应 PMFPMFA1 $p(\mathbf U\mid \Theta_U)$ $p(\mathbf V\mid \Theta_V)$ PMFA2 $p(\mathbf U\mid \Theta_U)$ $p(\mathbf V\mid \Theta_V)$ 为对角协方差的高斯先验分布。
  在这种情况下，自适应先验具有可调整的均值。
  先验参数和噪音协方差每隔 10100 $\mathbf U,\mathbf V$ 的更新才更新一次。
我们在完整的Netflix 训练集上训练模型，然后评估模型在 Netflix 验证集上的效果。可以看到：
- SVD 模型的表现几乎和具有适当正则化的 PMF 模型（PMF2）效果一样好，但是 SVD 模型在训练结束之前陷入严重过拟合。
- PMF1 模型虽然没有陷入过拟合，但是它仅达到 0.9430 的RMSE，明显欠拟合。
- 自适应PMF 明显优于其它模型。这里没有给出 PMFA2 （RMSE 为 0.9204 ），因为它的曲线和 PMFA1 几乎相同（RMSE 为 0.9197）。这表明：通过自适应先验来自动正则化在实践中效果良好。
- $d=10$ $d=30$ $d$ 的增加而增加。
  另外，尽管对角协方差矩阵的使用并未比球形协方差矩阵的版本有明显改善，但是对角协方差可能非常适合自适应 PMF 训练的 greedy 算法，在该算法中模型每次学习一个因子向量。

1.2.2 约束PMF

在约束 PMF30 $d=30$ 可以使得验证集获得最佳效果。对于PMFPMF $\lambda_U=\lambda_Y=\lambda_V=\lambda_W = 0.002$ 。
我们在完整的Toy 训练集（我们构造的小数据集）上训练模型，然后评估模型在Toy验证集上的效果。可以看到：
- SVD 模型明显的陷入了过拟合。
- 约束PMF 模型相比无约束 PMF 模型具有更好的性能，并且收敛速度更快。
- 右图给出了不同评分数量的用户的评估结果。可以看到：
  - 对于训练集中评分数量少于 5PMF $j$ $i$ $j$ 评分的预测结果）的性能相同。
  - 约束 PMF 模型在评分较少的用户上的性能要好得多。
  - 随着评分数量的增加，PMF 和约束 PMF 的性能相差无几。
PMF $i$ $j$ $\mathbf{\vec u}_i$ 也是有贡献：
${\vec{u}}_{i} = {\vec{y}}_{i} + \sum_{k = 1}^{n} s_{i, k} {\vec{w}}_{k}$
对于我们的 toy 数据集，我们随机增加了额外的 50000 个用户来训练，并丢弃这些用户的实际评分。最终约束PMF 方法在验证集上的 RMSE 为 1.0510，而简单平均算法的 RMSE 为 1.0726 。
这表明：仅了解用户评分的电影而不知道具体评分，仍然可以帮助我们更好的建模用户的偏好。
约束 PMF 在整个 Netflix 数据集上的表现与 Toy 数据集的结果相似。对于PMFPMF $\lambda_U=\lambda_Y=\lambda_V=\lambda_W = 0.001$ 。
结果表明：
- SVD 模型的 RMSE 为 0.9280，大约 10 个 epoch 开始过拟合。
- 约束 PMF 模型对于评分数量很少的用户可以有更好的泛化，其中训练集中超过 10% 的用户其评分不足 20 个；随着评分数量的增加，PMF 和约束 PMF 性能趋同。
- 考虑到 Netflix 数据还有一个额外的信息来源：Netflix 会告诉我们测试集中还有哪些user-movie pair ，因此我们还知道一个信息：用户已经评分、但是不知道评分大小的电影。
  约束 PMF 可以很容易考虑该信息，如右图所示，这将进一步提高模型的性能。
当我们将PMF、自适应PMF、约束 PMF 线性组合在一起时，我们在测试集上达到了 0.8970 的 RMSE，这比Netflix 官方Baseline 0.9514 提高了将近 6% 。