2017_Time-LSTM

一、Time-LSTM [2017]

《What to Do Next: Modeling User Behaviors by Time-LSTM》

循环神经网络（Recurrent Neural Network: RNN）解决方案已经成为序列数据建模的 SOTA 方法。越来越多的工作试图在推荐系统（recommender system: RS）领域找到 RNN solution 。RNN 在推荐任务中表现良好的insight 是：在用户的动作序列中存在一些内在模式（intrinsic pattern），例如一旦一个人购买了羽毛球拍那么该用户往往在以后倾向于购买一些羽毛球，而 RNN 在建模此类模式时已被证明表现极好。
然而，推荐系统中的上述 RNN 解决方案都没有考虑用户相邻动作（actiontime interval $w_1$ $w_2$ $i_1$ $i_2$ $\Delta t_1$ ）。传统的 RNN 架构擅长对下图 (a) 中的序列数据（sequential data）的顺序信息（order information）进行建模，但是无法很好地对下图 (b) 中的时间间隔进行建模。因此，需要提出新的模型来解决这个问题。
人们最近提出的一种模型，即 Phased LSTM ，该模型试图通过向 LSTM 添加一个 time gate 来建模时间信息。在这个模型中，时间戳 timestamp 是 time gate 的输入，其中 time gate 控制了 cell sate, hidden state 的更新从而控制最终输出。同时，仅使用处于模型激活状态（model’s active state）的样本，导致训练期间的稀疏更新（sparse update）。因此，Phased LSTM 在训练阶段可以获得相当快的学习收敛速度。然而，有一些挑战使得 Phased LSTM 难以成为最适合推荐任务的方法。
- 首先，Phased LSTM 对时间戳进行建模。时间戳是单个动作的特征，而不是两个动作之间的时间间隔。因此，Phased LSTM 可能无法正确建模动作之间的关系。
- 其次，在大多数推荐系统中，用户的行为数据通常非常稀疏，而 Phased LSTM 会忽略用户在非激活状态（inactive state）下的行为，无法充分利用行为信息进行推荐。
- 第三，之前的研究已经指出，用户的短期兴趣和长期兴趣对于推荐都非常重要，但传统的 RNN 架构（包括 Phased LSTM）并没有旨在同时区分和同时利用这两种兴趣。在这里：
  - 短期兴趣意味着，推荐的 item 应该取决于最近消费的 item。例如，如果用户刚买了一台尼康相机，那么该用户很可能在不久的将来会购买存储卡、镜头、保护套。
  - 长期兴趣是指被推荐的 item 也应该受到用户历史行为的影响，其中历史行为反映了用户的一般兴趣（general interest）。
为了应对上述挑战，论文 《What to Do Next: Modeling User Behaviors by Time-LSTM》提出了具有三个版本的 Time-LSTM 来建模用户在推荐系统中的序列动作（ sequential action ）。 Time-LSTM 中的 time gate 建模动作的时间间隔，从而捕获动作之间的关系。
- 第一个版本的 Time-LSTM 只有一个 time gate，这个 time gate 利用时间间隔来同时捕获短期兴趣和长期兴趣。
- 第二个版本的 Time-LSTM 有两个 time gate。
  - 第一个 time gate 旨在利用时间间隔来捕获当前 item recommendation 的短期兴趣。
  - 第二个 time gate 是保存时间间隔，以便建模长期兴趣用于之后的推荐。
- 第三个版本的 Time-LSTM 使用 coupled input and forget gates减少参数数量，这使得模型更加简洁。
具有这些 time gate 的 Time-LSTM 可以很好地同时捕获用户的短期兴趣和长期兴趣，从而提高推荐性能。此外，Time-LSTM 没有忽略动作的非激活状态，因此与 Phased LSTM 相比，它可以更好地利用行为信息。论文的实验结果证明了 Time-LSTM 的有效性。
本文的贡献如下：
- 所提出的模型 Time-LSTM 为 LSTM 配备了精心设计的 time gate，因此它不仅擅长建模序列数据中的顺序信息，还可以很好地捕获对象之间的时间间隔。这是一个一般（general）的思想（不限于推荐系统），可以开发 Time-LSTM 的其它变体来建模其它任务中 event-based 的序列数据。
  请注意，与考虑时间戳并可能隐式捕获间隔信息的 Phased LSTM 不同，论文显式地建模时间间隔。此外，与 Phased LSTM 相比，Time-LSTM 利用了更多的样本。
- 提出了三个版本的 Time-LSTM。与现有的 RNN 解决方案相比，这些 Time-LSTM 版本可以更好地同时捕获用户的短期兴趣和长期兴趣，从而提高推荐性能。
- 所提出的模型在两个真实世界的数据集上进行了评估，实验结果表明使用 Time-LSTM 的推荐方法优于传统方法。
相关工作：
- LSTM 及其变体：
  - LSTM：LSTM 最常用的更新方程如下：
    $\begin{matrix} {\vec{i}}_{m} = σ_{i} (W_{x}^{(i)} {\vec{x}}_{m} + W_{h}^{(i)} {\vec{h}}_{m - 1} + {\vec{w}}_{c}^{(i)} ⊙ {\vec{c}}_{m - 1} + {\vec{b}}^{(i)}) \\ {\vec{f}}_{m} = σ_{f} (W_{x}^{(f)} {\vec{x}}_{m} + W_{h}^{(f)} {\vec{h}}_{m - 1} + {\vec{w}}_{c}^{(f)} ⊙ {\vec{c}}_{m - 1} + {\vec{b}}^{(f)}) \\ {\vec{c}}_{m} = {\vec{f}}_{m} ⊙ {\vec{c}}_{m - 1} + {\vec{i}}_{m} ⊙ σ_{c} (W_{x}^{(c)} {\vec{x}}_{m} + W_{h}^{(c)} {\vec{h}}_{m - 1} + {\vec{b}}^{(c)}) \\ {\vec{o}}_{m} = σ_{o} (W_{x}^{(o)} {\vec{x}}_{m} + W_{h}^{(o)} {\vec{h}}_{m - 1} + {\vec{w}}_{c}^{(o)} ⊙ {\vec{c}}_{m} + {\vec{b}}^{(o)}) \\ {\vec{h}}_{m} = {\vec{o}}_{m} ⊙ σ_{h} ({\vec{c}}_{m}) \end{matrix}$
    其中：
    - $\mathbf{\vec i}_m$ input gate $\mathbf{\vec f}_m$ forget gate $\mathbf{\vec o}_m$ output gate $\mathbf{\vec c}_m$ cell activation vector $\mathbf{\vec h}_m$ hidden state vector $\mathbf{\vec x}_m$ 为 input feature vector 。
    - $\sigma$ $\sigma_i,\sigma_f,\sigma_o$ sigmoid $\sigma_c,\sigma_h$ 通常为 tanh 非线性激活函数。
    - $\mathbf W_x^{(\cdot)},\mathbf W_h^{(\cdot)},\mathbf{\vec b}^{(\cdot)},\mathbf {\vec w}_c^{(\cdot)}$ $\mathbf{\vec w}_c^{(\cdot)}$ 是可选的（目前主流的 LSTM 的实现并未引入这一项）。
    - $\odot$ 为逐元素乘积，即 Hadamard product 。
  - coupled input and forget gates ：LSTMcoupled input and forget gates $\mathbf{\vec f}_m$ forget gate $\mathbf{\vec c}_m$ 的更新方程为：
    ${\vec{c}}_{m} = (1 - {\vec{i}}_{m}) ⊙ {\vec{c}}_{m - 1} + {\vec{i}}_{m} ⊙ σ_{c} (W_{x}^{(c)} {\vec{x}}_{m} + W_{h}^{(c)} {\vec{h}}_{m - 1} + {\vec{b}}^{(c)})$
  - Phased LSTM：Phased LSTM 是一种 SOTA 的 RNN 架构，用于建模event-based 的序列数据。Phased LSTMtime gate $\mathbf{\vec k}_m$ 来扩展 LSTMtime gate $\mathbf{\vec k}_m$ $\tau,r_\text{on},s$ $\tau$ total period $r_\text{on}$ 代表 open periodtotal period $s$ phase shift $\tau,r_\text{on},s$ 都是通过训练来学到的。
    time gate $\mathbf{\vec k}_m$ 正式定义为：
    $\begin{matrix} ϕ_{m} = \frac{(t_{m} - s) mod τ}{τ}, k_{m} = {\begin{cases} \frac{2 ϕ_{m}}{r_{on}}, & if ϕ_{m} < \frac{1}{2} r_{on} \\ 2 - \frac{2 ϕ_{m}}{r_{on}}, & if \frac{1}{2} r_{on} < ϕ_{m} < r_{on} \\ α ϕ_{m}, & otherwise \end{cases} \end{matrix}$
    $t_m$ $\phi_m$ $\alpha$ 为 leak rateleak rate $\alpha$ 类似于 Leaky ReLU ，用于传播梯度信息。
    $k_m$ 公式是一个标量，代表单个特征维度的 time gate。考虑到通常有多个特征维度，因此 time gate 是个向量。
    time gate $k_m$ 有三个 phasesphase $k_m$ 从 0 上升到 1phase $k_m$ 从 1 下降到 0 （前两个 phasephase $k_m$ 几乎为零（第三个 phase，模型为非激活状态inactive statetime gate $\mathbf{\vec c}_m$ $\mathbf{\vec h}_m$ ，因此 Phased LSTM 的cell state 和 hidden state 更新方程为：
    $\begin{matrix} {\tilde{\vec{c}}}_{m} = {\vec{f}}_{m} ⊙ {\vec{c}}_{m - 1} + {\vec{i}}_{m} ⊙ σ_{c} (W_{x}^{(c)} {\vec{x}}_{m} + W_{h}^{(c)} {\vec{h}}_{m - 1} + {\vec{b}}^{(c)}) \\ {\vec{c}}_{m} = {\vec{k}}_{m} ⊙ {\tilde{\vec{c}}}_{m} + (1 - {\vec{k}}_{m}) ⊙ {\vec{c}}_{m - 1} \\ {\tilde{\vec{h}}}_{m} = {\vec{o}}_{m} ⊙ σ_{h} ({\tilde{\vec{c}}}_{m}) \\ {\vec{h}}_{m} = {\vec{k}}_{m} ⊙ {\tilde{\vec{h}}}_{m} + (1 - {\vec{k}}_{m}) ⊙ {\vec{h}}_{m - 1} \end{matrix}$
    由于设置了 inactive state，Phased LSTM 在应用于推荐系统时无法充分利用用户的动作。
- 推荐系统中的 RNN 解决方案：
  - 《Session-based recommendations with recurrent neural networks》 在 old sessions 中对 item-ID 的 one-hot representation 训练了带 ranking loss 的 RNN 。然后，训练好的 RNN 用于在新的 user session 上提供推荐。
  - 《Parallel recurrent neural network architectures for feature-rich session-based recommendations》 是《Session-based recommendations with recurrent neural networks》 的扩展，它提出了两项技术（数据增强、以及一种考虑输入数据分布变化的方法）来提高模型的性能。此外，它考虑了一个稍微不同的 setting，其中存在 item 的丰富特征。它引入了 parallel RNN 架构来建模 clicks 以及 item 特征。
  - 《A dynamic recurrent model for next basket recommendation》 为 next-basket recommendation 设计了一种 RNN 方法。
  在本文中，我们探索了在推荐系统社区中具有更常见 setting 的 RNN 解决方案：我们知道 user id，但是不知道 session 信息。此外，前述方法不考虑时间间隔，而我们在 LSTM 中添加 time gate，可以利用时间间隔来推高推荐性能。
- 短期兴趣和长期兴趣：
  - 推荐系统中的大多数现有算法，如 Bayesian Personalized Ranking: BPR、矩阵分解（matrix factorization）、张量模型（tensor models），聚焦于建模用户的长期兴趣。
  - 《Personalized news recommendation based on click behavior》 通过 content-based 方法来适配（adapt）一种协同过滤方法（collaborative filtering）从而挖掘用户的当前兴趣。
  - 一些方法应用协同过滤和关联规则（association rule）来 match 用户最近的行为。
  - 《Adaptation and evaluation of recommendations for short-term shopping goals》 提出用户的短期兴趣和长期兴趣在在线购物场景中都很重要，并量化了几种组合策略（combining strategy）。
  - 半马尔可夫过程（Semi-Markov Process: SMP）和马尔可夫更新过程（Markov Renewal Process: MRP）还旨在建模具有时间间隔的序列过程（sequential process）。然而，由于 SMP 和 MRP 的马尔科夫特性，它们无法捕获在我们任务中的长期兴趣。

1.1 模型

$\mathcal U=\{u_1,u_2,\cdots\}$ $\mathcal I=\{i_1,i_2,\cdots\}$ item $u$ $\mathcal H^u:=\left[\left(i_1^u,t_1^u\right),\left(i_2^u,t_2^u\right),\cdots,\left(i_{n_u}^u,t_{n_u}^u\right)\right]$ $\left(i_m^u,t_m^u\right)$ $u$ $t_m^u$ $m$ 个 item 。
$u_p$ $t_q$ $\mathcal I_l\sube\mathcal I$ 。
我们通过两种方法使得 LSTM 适配（ adapt）我们的任务：
- 第一种方法是，我们仅记录 itemLSTM $\mathbf{\vec x}_m$ $i_m^u$ （经过 one-hot ）。
  这也是大多数现有方法的做法。
- $\mathcal H^u$ 转换为：
  $[(i_{1}^{u}, t_{2}^{u} - t_{1}^{u}), (i_{2}^{u}, t_{3}^{u} - t_{2}^{u}), \dots, (i_{n_{u}}^{u}, t_{q} - t_{n_{u}}^{u})]$
  LSTM $\mathbf{\vec x}_m$ $\left(i_m^u,t_{m+1}^u - t_m^u\right)$ $i_m^u$ one-hot representation $t_{m+1}^u-t_m^u$ 使用一维的实数表示。
  $\left(t_{m+1}^u - t_m^u\right)$ 进行离散化，如按照 day/week/month 等离散化，然后转换为 embedding 。
  这里用下一个时间戳减去当前时间戳，而不是当前时间戳减去上一个时间戳，是因为我们想捕获当前消费的 item 对未来的影响。
LSTM $\mathbf{\vec h}_m$ item $i^u_{m+1}$ 。
Phased LSTM $\mathbf{\vec x}_m$ $i_m^u$ （使用 one-hot representationtime gate $t_m$ $t^u_{m+1}$ $\phi_m = \frac{(t_{m+1}^u-s)\text{ mod }\tau}{\tau}$ 。
当将 LSTM 及其变体应用于推荐系统时：
- $\mathbf{\vec x}_m$ 包含用户消费的 last itemmost recent $\mathbf{\vec x}_m$ 来了解用户当前的短期兴趣。
- $\mathbf{\vec c}_{m-1}$ previous actions $\mathbf{\vec c}_{m-1}$ 反映了用户的长期兴趣。
$\mathbf{\vec x}_m$ $\mathbf{\vec x}_m$ 是很久以前消费的，那么就很难反映当前的消费目标（ consuming goal）。在 Time-LSTM 中，我们使用 time-gatelast consumed item $\mathbf{\vec x}_m$ 对当前推荐的影响。
time gate $\mathbf{\vec c}_m,\mathbf{\vec c}_{m+1},\cdots$ 中，这反映了用户在后续推荐（later recommendation）中的长期兴趣。因此，在建模用户的长期兴趣时，不仅要考虑用户以前消费过的 item，还要考虑相应的时间间隔。我们设计了三个版本的 Time-LSTM，如下图所示。
在 attention-basedSTAMP $\mathbf{\vec x}_m$ 和时间间隔同时作为短期兴趣网络的输入，从而捕获 last item 对当前推荐的影响？

1.1.1 Time-LSTM 1

第一个版本的 Time-LSTMtime gate $\mathbf{\vec T}_m$ 。基于 LSTMtime gate $\mathbf{\vec c}_m$ $\mathbf{\vec o}_m$ 的更新：
$\begin{matrix} {\vec{T}}_{m} = σ_{t} (W_{x}^{(t)} {\vec{x}}_{m} + σ_{Δ t} (W_{t}^{(t)} Δ t_{m}) + {\vec{b}}^{(t)}) \\ {\vec{c}}_{m} = {\vec{f}}_{m} ⊙ {\vec{c}}_{m - 1} + {\vec{i}}_{m} ⊙ {\vec{T}}_{m} ⊙ σ_{c} (W_{x}^{(c)} {\vec{x}}_{m} + W_{h}^{(c)} {\vec{h}}_{m - 1} + {\vec{b}}^{(c)}) \\ {\vec{o}}_{m} = σ_{o} (W_{x}^{(o)} {\vec{x}}_{m} + W_{t}^{(o)} Δ t_{m} + W_{h}^{(o)} {\vec{h}}_{m - 1} + {\vec{w}}_{c}^{(o)} ⊙ {\vec{c}}_{m} + {\vec{b}}^{(o)}) \end{matrix}$
其中：
- $\Delta t_m \in \mathbb R^1$ $\sigma_{\Delta t}(\cdot)$ sigmoid $\mathbf{\vec T}_m$ 为 time gate 。
- $\mathbf W_t^{(t)},\mathbf W_t^{(o)}\in \mathbb R^{d\times 1}$ 为时间相关的、待学习的参数。
time gate $\mathbf{\vec T}_m$ 在两个方面有帮助：
- $\sigma_c\left(\mathbf W^{(c)}_x\mathbf{\vec x}_m + \mathbf W^{(c)}_h\mathbf{\vec h}_{m-1} + \mathbf{\vec b}^{(c)}\right)$ input gate $\mathbf{\vec i}_m$ time gate $\mathbf{\vec T}_m$ $\mathbf{\vec T}_m$ $\mathbf{\vec x}_m$ 对当前推荐的影响。
- $\Delta t_m$ $\mathbf{\vec T}_m$ $\mathbf{\vec c}_m$ $\mathbf{\vec c}_{m+1},\mathbf{\vec c}_{m+2},\cdots$ $\mathbf{\vec T}_m$ $\Delta t_m$ later recommendation $(\mathbf{\vec c}_m,\mathbf{\vec c}_{m+1},\cdots)$ 。
$\mathbf{\vec T}_m$ 推广到其它 RNN 架构，如 GRU 。
$\mathbf{\vec T}_m$ 完全从数据中学习。但是，作为先验知识，我们知道，给定一个 last consumed item，如果它是非常近期消费（more recently consumed）的，则这个 item 应该对当前推荐有更大的影响。我们希望将这些先验知识融入到 time gate 的设计中。

1.1.2 Time-LSTM 2

第二个版本的 Time-LSTMtime gate $\mathbf{\overrightarrow {T1}}_m, \mathbf{\overrightarrow {T2}}_m$ ：
- $\mathbf{\overrightarrow {T1}}_m$ 控制了 last consumed item 对当前 item recommendation 的影响。
- $\mathbf{\overrightarrow {T2}}_m$ 存储了时间间隔来建模用户的长期兴趣用于后续推荐。
基于 LSTM 的更新方程，我们首先添加了两个 time gate 的更新：
$\begin{matrix} {\vec{T 1}}_{m} = σ_{t 1} (W_{x}^{(t 1)} {\vec{x}}_{m} + σ_{Δ t} (W_{t}^{(t 1)} Δ t_{m}) + {\vec{b}}^{(t 1)}) s . t . W_{t}^{(t 1)} \leq 0 \\ {\vec{T 2}}_{m} = σ_{t 2} (W_{x}^{(t 2)} {\vec{x}}_{m} + σ_{Δ t} (W_{t}^{(t 2)} Δ t_{m}) + {\vec{b}}^{(t 2)}) \end{matrix}$
$\mathbf{\vec c}_m,\mathbf{\vec o}_m,\mathbf{\vec h}_m$ 的更新方程为：
$\begin{matrix} {\tilde{\vec{c}}}_{m} = {\vec{f}}_{m} ⊙ {\vec{c}}_{m - 1} + {\vec{i}}_{m} ⊙ {\vec{T 1}}_{m} ⊙ σ_{c} (W_{x}^{(c)} {\vec{x}}_{m} + W_{h}^{(c)} {\vec{h}}_{m - 1} + {\vec{b}}^{(c)}) \\ {\vec{c}}_{m} = {\vec{f}}_{m} ⊙ {\vec{c}}_{m - 1} + {\vec{i}}_{m} ⊙ {\vec{T 2}}_{m} ⊙ σ_{c} (W_{x}^{(c)} {\vec{x}}_{m} + W_{h}^{(c)} {\vec{h}}_{m - 1} + {\vec{b}}^{(c)}) \\ {\vec{o}}_{m} = σ_{o} (W_{x}^{(o)} {\vec{x}}_{m} + W_{t}^{(o)} Δ t_{m} + W_{h}^{(o)} {\vec{h}}_{m - 1} + {\vec{w}}_{c}^{(o)} ⊙ {\tilde{\vec{c}}}_{m} + {\vec{b}}^{(o)}) \\ {\vec{h}}_{m} = {\vec{o}}_{m} ⊙ σ_{h} ({\tilde{\vec{c}}}_{m}) \end{matrix}$
其中：
- $\mathbf{\overrightarrow {T1}}_m$ input gate $\mathbf{\vec i}_m$ $\sigma_c\left(\mathbf W^{(c)}_x\mathbf{\vec x}_m + \mathbf W^{(c)}_h\mathbf{\vec h}_{m-1} + \mathbf{\vec b}^{(c)}\right)$ cell state $\widetilde{\mathbf{\vec c}}_m$ output gate $\mathbf{\vec o}_m$ hidden state $\mathbf{\vec h}_m$ 并最终影响当前的 item recommendation 。
- $\mathbf{\overrightarrow {T2}}_m$ $\Delta t_m$ $\Delta t_m$ $\mathbf{\vec c}_m$ $\mathbf{\vec c}_{m+1},\mathbf{\vec c}_{m+2},\cdots$ ，从而建模用户的长期兴趣用于后续推荐。
$\mathbf W^{(t1)}_t \le 0$ $\mathbf{\overrightarrow {T1}}_m$ $\mathbf{\vec x}_m$ 对当前的 item recommendation 的影响。具体而言：
- $\Delta t_m$ $\sigma_{\Delta t}\left(\mathbf W_t^{(t1)}\Delta t_m\right)$ $\mathbf{\overrightarrow {T1}}_m$ $\widetilde{\mathbf{\vec c}}_m$ $\mathbf{\vec x}_m$ item recommendation $\mathbf{\vec x}_m$ 更好地反映了短期兴趣，因此我们增加了它的影响力。
- $\Delta t_m$ $\mathbf{\vec x}_m$ $\mathbf{\vec c}_{m-1}$ 会更显著地影响当前的推荐。即，我们对短期兴趣更加不确定，因此我们增加了长期兴趣的影响。
$\mathbf{\overrightarrow {T2}}_m$ $\mathbf W_t^{t2}$ 施加这种约束是没有意义的。这也解释了为什么我们在这个版本中设计了两个 time gate，即区分和定制化了用于当前推荐的角色（role for current recommendationtime gate $\mathbf{\overrightarrow {T1}}_m$ ）、用于后续推荐的角色（role for later recommendationtime gate $\mathbf{\overrightarrow {T2}}_m$ ）。

1.1.3 Time-LSTM 3

受 《Lstm: A search space odyssey》 的启发，第三个版本的 Time-LSTM 使用了 coupled input and forget gates 。具体而言，基于 Time-LSTM 2forgate gate $\widetilde{\mathbf{\vec c}}_m,\ \mathbf{\vec c}_m$ 为：
$\begin{matrix} {\tilde{\vec{c}}}_{m} = (1 - {\vec{i}}_{m} ⊙ {\vec{T 1}}_{m}) ⊙ {\vec{c}}_{m - 1} + {\vec{i}}_{m} ⊙ {\vec{T 1}}_{m} ⊙ σ_{c} (W_{x}^{(c)} {\vec{x}}_{m} + W_{h}^{(c)} {\vec{h}}_{m - 1} + {\vec{b}}^{(c)}) \\ {\vec{c}}_{m} = (1 - {\vec{i}}_{m}) ⊙ {\vec{c}}_{m - 1} + {\vec{i}}_{m} ⊙ {\vec{T 2}}_{m} ⊙ σ_{c} (W_{x}^{(c)} {\vec{x}}_{m} + W_{h}^{(c)} {\vec{h}}_{m - 1} + {\vec{b}}^{(c)}) \end{matrix}$
$\mathbf{\overrightarrow {T1}}_m$ $\mathbf{\vec i}_m$ $\widetilde{\mathbf{\vec c}}_m$ $\left(1-\mathbf{\vec i}_m\odot \mathbf{\overrightarrow {T1}}_m\right)$ forget gate $\mathbf{\overrightarrow {T2}}_m$ $\sigma_c\left(\mathbf W^{(c)}_x\mathbf{\vec x}_m + \mathbf W^{(c)}_h\mathbf{\vec h}_{m-1} + \mathbf{\vec b}^{(c)}\right)$ $\mathbf{\vec c}_m$ $\left(1- \mathbf{\vec i}_m\right)$ 来代替 forget gate 。

1.1.4 训练

在我们的任务中，我们使用 Time-LSTM 的方法类似于第二种 LSTM 适配：
- $\mathcal H^u$ 转换为：
  $[(i_{1}^{u}, t_{2}^{u} - t_{1}^{u}), (i_{2}^{u}, t_{3}^{u} - t_{2}^{u}), \dots, (i_{n_{u}}^{u}, t_{q} - t_{n_{u}}^{u})]$
- Time-LSTM $\mathbf{\vec x}_m$ $i_m^u$ one-hot representation $\Delta t_m$ $(t_{m+1}^u - t_m^u)$ 。
我们使用随机梯度下降（ Stochastic Gradient Descent: SGD ）的变体 AdaGradTime-LSTM $\mathbf W^{(t1)}_t \le 0$ projection operator $\mathbf W^{(t1)}_t\gt 0$ $\mathbf W^{(t1)}_t=0$ 。
在现实世界的application 中，用户的新消费行为不断地被产生。因此，我们希望利用所有可用的消费历史（包括新生成的动作）进行推荐，即 online learning setting 。
非 online learning setting 策略是：在推断期间冻结模型，使用固定的参数进行推断。
oneline learning setting 策略会根据新的消费行为来更新模型参数，使用新的参数进行推断。
为了实现这一点，我们将 《Recurrent neural network based language model》 中的动态更新模型应用于我们的任务，如下所示：
- 第一步，我们的模型根据用户现有的消费历史进行训练，直到收敛。
- $n$ 个新的动作被生成之后，我们通过将 AdaGradprevious parameters $n$ 的值从而提高 online learning 的效率。
  也可以根据时间周期性地更新（如每隔 1 小时）。
我们可以周期性重复以上两个步骤。可以综合考虑推荐性能和计算成本来选择合适的周期。

1.2 实验

数据集：我们在 LastFM 和 CiteULike 这两个数据集上进行评估。
- 对于 LastFM 数据集，我们抽取元组 <user id, song id, timestamp> ，其中每个元组代表用户 user id 在时刻 timestamp 听歌曲 song id 的动作。
- 对于 CiteULike 数据集，一个用户在某个时刻注释一篇论文时可能有几条记录从而区分不同的 tag 。我们将这些记录合并为单条记录并抽取元组 <user id, papaer id, timestamp> 。
  注意，与 《Heterogeneous hypergraph embedding for document recommendation》 不同，我们没有将 tag 用于推荐。
我们过了掉低频的用户和 item。这些元组都按照 user id 组织并根据 timestamp 进行排序。下表展示了这些数据集的统计数据。
对于每个数据集，我们随机选择 80%20% $u$ $\mathcal T^u:=\left[\left(u,i_1^u,t_1^u\right),\left(u,i_2^u,t_2^u\right),\cdots,\left(u,i_{n^\prime_u}^u,t_{n^\prime_u}^u\right)\right]$ $n_u^\prime - 1$ test case $k$ test case $u$ $\left[\left(i_1^u,t_1^u\right),\left(i_2^u,t_2^u\right),\cdots,\left(i_k^u,t_k^u\right)\right]$ $t_{k+1}^u$ $t_{k+1}^u$ ground truth $i_{k+1}^u$ 。
baseline 方法：
- CoOccur+BPR：这是 《Adaptation and evaluation of recommendations for short-term shopping goals》 中提出的一种组合策略，其中 CoOccur 是为了捕获短期兴趣，而 BPR 是为了捕获长期兴趣。
  具体而言，CoOccur 根据 item 在 user session 中共现（co-occurring）的条件概率对 item 进行排序（关联规则）。如果推荐列表尚未填满，则根据 BPR 的推荐继续填充推荐列表。
  我们不使用原始论文中的 FeatureMatching 和 RecentlyViewed 。原因是：
  - FeatureMatching 需要 item 的属性信息，这在我们的任务中是不可用的。
  - RecentlyViewed 只是推荐最近查看过的 item，然而大多数情况下，我们希望推荐系统为我们提供那些我们忽略（ignore）的、但是仍然喜欢的 item 。因为即使没有推荐系统的帮助，我们仍然可以自己找到我们熟悉的 item （例如我们最近浏览过的 item 、或者最近消费过的 item ）。
  该方法需要 session 信息。我们使用一种常用的方法，即 timeout，来识别用户消费历史中的 session。
  如果两个动作的间隔时间超过了指定的阈值，则认为它们属于不同的 session ；否则属于相同的 session。
- Session-RNN：《Session-based recommendations with recurrent neural networks》 使用 RNN 在 session-based 推荐中基于 session 中的 item 来捕获短期兴趣。该方法不考虑长期兴趣。
  session 信息的抽取如 CoOccur + BPR 中所述。我们使用该方法的公开可用的 python 实现。
  Session-RNN 虽然是序列模型（类似于 LSTM），但是它仅考虑当前 session 的信息而不是历史所有 item 的信息，因此仅捕获短期兴趣。
- LSTM：前文介绍的 LSTM 的第一种适配方式。
- LSTM + time：前文介绍的 LSTM 的第二种适配方式。
- Phased LSTM：前文介绍的 Phased LSTM 的适配。
- 我们并没有对比 《A dynamic recurrent model for next basket recommendation》 ，因为该方法的 setting 不同于我们的方法，并且该方法的某些操作（如池化）无法应用于我们的方法。
前文介绍的 online learning setting 应用于 LSTM 及其变体（包括 Phased LSTM 和 Time-LSTM），其中训练 training users 的元组用于训练 step one 的模型。类似的更新策略应用于 CoOccur + BPR 和 Session-RNN 以确保公平地比较。
LSTM 及其变体（包括 Phased LSTM 和 Time-LSTM）的 unit 数量设置为 512。所有方法中的其它超参数都通过交叉验证进行调优，或者按照原始论文进行设置。
target item $i_g$ （ground truth）与 100 个其它随机 item 进行组合。然后推荐算法对这 101 个 item 进行排名，top 10 个 item 构成推荐列表。
- Recall@10：Recall@10 的定义为：
  $Recall@10 = \frac{n_{hit}}{n_{testcase}}$
  $n_\text{testcase}$ test case $n_\text{hit}$ $i_g$ 位于推荐列表的 test case 的数量。
- MRR@10(Mean Reciprocal Rank) $i_g$ reciprocal rank $i_g$ 的排名落后于 10，则排名倒数置为零。MRR@10 考虑 item 的排名。
每个指标评估 10 次并取均值。
实验结果如下表所示：
- Time-LSTM 模型通常优于其它 baseline 。
- Time-LSTM 2 和 Time-LSTM 3 的性能优于 Time-LSTM 1，这证明了使用两个 time gate 而不是一个 time gate 的有效性。
- T1m=1T2m=1 $\mathbf{\overrightarrow {T1}}_m$ 1 $\mathbf{\overrightarrow {T2}}_m$ 固定为 1 的结果。它们的性能比原始版本更差，这表明使用我们设计的 T1m 来过滤输入、T2m 来存储时间间隔都可以提高性能。
- LSTM+time 在 CiteULike 中的表现略逊于 LSTM，这可能是由于 CiteULike 中的时间间隔通常很大（归一化之后，它的性能有所提高，但仍然比 Time-LSTM 模型更差）。
Cold User 和 Warm User 的性能：如果用户消费的 item 很少，则我们认为用户是 cold 的；否则我们认为用户是 warm 的。由于篇幅有限，我们只在 LastFM 中展示 Recall@10x $k$ $k$ 个 test case 。在给定 training usertest user $k$ test user $k+1$ 个动作。
- 图 (a) 表明 Time-LSTM 对 warm useritem $\mathbf{\vec c}_{m-1}$ 中包含的动作越多，则 Time-LSTM 可以更好地建模长期兴趣用于推荐。
  对于 cold user，Time-LSTM 的性能与 Session-RNN 相当。这是因为尽管消费行为很少，但是 Time-LSTM 仍然可以通过捕获短期兴趣来很好地执行推荐。
- 图 (b) 中的性能优于 (a)，这证明了动态更新模型的有效性。对于 warm user 而言，从 (a) 到 (b) 的性能提升更为显著，因为 warm user 的模型更新次数要比 cold user 更多。
unit number $d$ （即，隐层维度）从而查看模型性能和训练时间如何变化。训练时间在一个 GeForce GTX Titan Black GPU 上进行评估。限于篇幅，我们仅展示在 LastFM 数据集上的 Recall@10 、以及训练时间。
- (a) $d$ Recall@10 $d\gt 128$ 时，增益会减慢甚至恶化。
- (b) $d$ $d$ 在 128 和 512 之间比较合适。
  $d$ 变化时，Time-LSTM 3 的训练时间总是比 Time-LSTM 2 更少。原因是 Time-LSTM 3 中的 coupled input and forget gates 减少了参数数量，并加快了训练过程。