1994_GroupLens

一、GroupLens [1994]

《GroupLens: An Open Architecture for Collaborative Filtering of Netnews》

在1994 年的论文《GroupLens: An Open Architecture for Collaborative Filtering of Netnews》 进一步的发扬了 UserBased 协同过滤的思想。
GroupLens 是一个采用协同过滤的网络新闻过滤系统，它设计了一种机制来帮助用户筛选他/她感兴趣的新闻。GroupLens 基于一个朴素的思想：用户在过去的兴趣会延续到将来。
GroupLens 利用了用户对文章的评分：
- 首先计算不同用户的评分序列之间的相关性，从而得到用户兴趣之间的相似性。
- 然后根据相似用户的评分来预测当前用户对于新文章的评分。
给定评分矩阵：
$\begin{matrix} R = \begin{array}{ccccc} {item}_{1} & {item}_{2} & \dots & {item}_{n} \\ {user}_{1} & r_{1, 1} & r_{1, 2} & \dots & r_{1, n} \\ {user}_{2} & r_{2, 1} & r_{2, 2} & \dots & r_{2, n} \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ {user}_{m} & r_{m, 1} & r_{m, 2} & \dots & r_{m, n} \end{array} \end{matrix}$
$r_{i,j}$ $i$ $j$ $r_{i,j} = 0$
GroupLens $u$ $v$ ，定义他们共同评分的文章集合为：
$I_{u, v} = {j ∣ r_{u, j} > 0 and r_{v, j} > 0}$
$u,v$ 在这些共同评分文章上的均值、方差、以及协方差：
$\begin{matrix} {\bar{r}}_{u} = \frac{1}{| I_{u, v} |} \sum_{j \in I_{u, v}} r_{u, j}, {\bar{r}}_{v} = \frac{1}{| I_{u, v} |} \sum_{j \in I_{u, v}} r_{v, j} \\ σ_{u} = \sqrt{\sum_{j \in I_{u, v}} (r_{u, j} - {\bar{r}}_{u})^{2}}, σ_{v} = \sqrt{\sum_{j \in I_{u, v}} (r_{v, j} - {\bar{r}}_{v})^{2}} \\ cov (u, v) = \sum_{j \in I_{u, v}} (r_{u, j} - {\bar{r}}_{u}) (r_{v, j} - {\bar{r}}_{v}) \end{matrix}$
$u$ $v$ 的兴趣相似性由二者评分集合的相关系数（correlation coefficient）定义为：
$s_{u, v} = \frac{cov (u, v)}{σ_{u} σ_{v}}$
$u$ $j^*$ $j^*$ $\mathbb U_{j^*}$ ：
$U_{j^{*}} = {i ∣ r_{i, j^{*}} > 0}$
$u$ $\mathbb U$ 中用户的相似性来预测：
$r_{u, j^{*}} = {\bar{r}}_{u} + \sum_{v \in U_{j^{*}}} s_{u, v} \times (r_{v, j^{*}} - {\bar{r}}_{v})$
$r_{v,j^*}$ $v$ $j^*$ $v$ $(r_{v,j^*} - \bar r_v)$ $j^*$ 的偏好。