词的表达

$N$ $\mathbb D =\{\mathcal D_1,\mathcal D_2,\cdots,\mathcal D_N \}$ $V$ $\mathbb V = \{\text{word}_1,\text{word}_2,\cdots,\text{word}_V\}$ $V$ 表示词汇表的大小。
$\mathcal D_i$ $(\text{word}_{w_1^i},\text{word}_{w_2^i},\cdots,\text{word}_{w_{n_i}^i} )$ $w_j^i \in \{1,2,\cdots,V\}$ $i$ $j$ $n_i$ $i$ $n_i$ 个单词。
$\text{word}_v$ 。
one-hot $v$ $\text{word}_v$ $\text{word}_v \rightarrow (0,0,\cdots,0,1,0,\cdots,0)^T$ $v$ 位取值为1，剩余位取值为0 。
这种表示方式有两个主要缺点：
- $(\text{word}_i,\text{word}_j)$ $\sqrt 2$ 。
- 向量维度过高：对于中文词汇表，其大小可能达到数十万，因此one-hot 向量的维度也在数十万维。这对于存储、计算都消耗过大。
BOW:Bag of Words：词在文档中不考虑先后顺序，这称作词袋模型。

一、向量空间模型 VSM

向量空间模型主要用于文档的表达。
向量空间模型假设单词和单词之间是相互独立的，每个单词代表一个独立的语义单元。实际上该假设很难满足：
- 文档中的单词和单词之间存在一定关联性，单词和其前面几个单词、后面几个单词可能存在语义上的相关性，而向量空间模型忽略了这种上下文的作用。
- 文档中存在很多的一词多义和多词同义的现象，每个单词并不代表一个独立的语义单元。

1.1 文档-单词矩阵

$\mathbb D$ $\mathbb V$ ，定义文档-单词 矩阵为：
$\begin{matrix} (1) & \begin{array}{cccccc} {word}_{1} & {word}_{2} & {word}_{3} & \dots & {word}_{V} \\ D_{1} & 0 & 0 & 1 & \dots & 0 \\ D_{2} & 1 & 0 & 1 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ D_{N} & 0 & 1 & 1 & \dots & 0 \end{array} \end{matrix}$
$\mathbf D$ $D(i,j)=1$ $\mathcal D_i$ $\text{word}_j$ $D(i,j)=0$ $\mathcal D_i$ $\text{word}_j$ 。
$\mathcal D_i$ $\mathcal D_i \rightarrow (0,1,0,1,\cdots,0)^T$ $\mathcal D_i$ 中包含的单词对应的位置取值为1，其它位置取值为 0 。
事实上，文档的上述表达并未考虑单词的顺序，也未考虑单词出现的次数。一种改进策略是考虑单词出现的次数，从而赋予文档-单词 矩阵以不同的权重：
$\begin{matrix} (2) & \begin{matrix} D = [\begin{matrix} w_{1, 1} & w_{1, 2} & w_{1, 3} & \dots & w_{1, V} \\ w_{2, 1} & w_{2, 2} & w_{2, 3} & \dots & w_{2, V} \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ w_{N, 1} & w_{N, 2} & w_{N, 3} & \dots & w_{N, V} \end{matrix}] \end{matrix} \end{matrix}$
$w_{i,j}$ $\text{word}_j$ $\mathcal D_i$ 中的权重。
- $\text{word}_j$ $\mathcal D_i$ $w_{i,j}=0$
- $\text{word}_j$ $\mathcal D_i$ $w_{i,j}\ne 0$
$w_{i,j}$ 有两种常用的选取方法：
- TF $w_{i,j} = TF(\mathcal D_i,\text{word}_j)$ 。
  - $TF(\mathcal D_i,\text{word}_j)$ $\text{word}_j$ $\mathcal D_i$ 中出现的频数。
  - 其缺点是：一些高频词（如：我们，是，大家）以较大的权重出现在每个文档中，这意味着对每篇文档这些高频词是比较重要的。事实上对于绝大多数 NLP 任务，将这些词过滤掉不会有任何影响。
- TF-IDF $w_{i,j} = TF(\mathcal D_i,\text{word}_j) \times IDF(\text{word}_j)$ 。
  - $IDF(\text{word}_j)$ $IDF(\text{word}_j) = \log \frac{N}{DF(\text{word}_j)}$ $N$ $DF(\text{word}_j)$ $\text{word}_j$ $\frac {DF(\text{word}_j)}{N}$ $\text{word}_j$ 出现在一篇文档中的概率。
  - TF-IDF $\text{word}_j$ $\frac {DF(\text{word}_j)}{N}$ $IDF(\text{word}_j)$ 会较小。
TF-IDF 不仅考虑了单词的局部特征，也考虑了单词的全局特征。
- $TF(\mathcal D_i,\text{word}_j)$ $\text{word}_j$ $\mathcal D_i$ 中的局部统计特征。
- $IDF(\text{word}_j)$ $\text{word}_j$ $\mathbb D$ 中的全局统计特征。

1.2 相似度

文档-单词 $\mathcal D_i \rightarrow (w_{i,1},w_{i,2},\cdots,w_{i,V})^T$ 。
$\mathcal D_i,\mathcal D_j$ ，则文档的相似度为：
$\begin{matrix} (3) & s i m i l a r (D_{i}, D_{j}) = \cos ({\vec{w}}_{i}, {\vec{w}}_{j}) = \frac{{\vec{w}}_{i} \cdot {\vec{w}}_{j}}{| | {\vec{w}}_{i} | | \cdot | | {\vec{w}}_{j} | |} \end{matrix}$
$\mathbf{\vec w}_i= (w_{i,1},w_{i,2},\cdots,w_{i,V})^T,\quad \mathbf{\vec w}_j= (w_{j,1},w_{j,2},\cdots,w_{j,V})^T$ 。
$L_2$ 距离相似度。

二、LSA

潜在语义分析latent semantic analysis:LSA 的基本假设是：如果两个词多次出现在同一篇文档中，则这两个词具有语义上的相似性。

2.1 原理

文档-单词 $\mathbf D$
$\begin{matrix} (4) & \begin{matrix} D = [\begin{matrix} w_{1, 1} & w_{1, 2} & w_{1, 3} & \dots & w_{1, V} \\ w_{2, 1} & w_{2, 2} & w_{2, 3} & \dots & w_{2, V} \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ w_{N, 1} & w_{N, 2} & w_{N, 3} & \dots & w_{N, V} \end{matrix}] \end{matrix} \end{matrix}$
$w_{i,j}$ $\text{word}_j$ $\mathcal D_i$ $\text{word}_j$ $\mathcal D_i$ 0/1 $\text{word}_j$ $\mathcal D_i$ $\text{word}_j$ $\mathcal D_i$ 中的TF-IDF 值。
$\mathbf{\vec v}_j=(w_{1,j},w_{2,j},\cdots,w_{N,j})^T$ $\mathbf D$ $j$ $\text{word}_j$ 的单词-文档向量，描述了该单词和所有文档的关系。
- $\mathbf{\vec v}_p\cdot \mathbf{\vec v}_q$ $\text{word}_p$ $\text{word}_q$ 在文档集合中的相似性。
- $\mathbf D^T\mathbf D \in \mathbb R^{V\times V}$ 包含了所有词向量内积的结果。
$\mathbf{\vec d}_i= (d_{i,1},d_{i,2},\cdots,d_{i,V})^T$ $\mathbf D$ $i$ $\mathcal D_i$ 的文档-单词向量，描述了该文档和所有单词的关系。
- $\mathbf{\vec d}_s\cdot \mathbf{\vec d}_t$ $\mathcal D_s$ $\mathcal D_t$ 在文档集合中的相似性。
- $\mathbf D\mathbf D^T \in \mathbb R^{N\times N}$ 包含了所有文档向量内积的结果。
$\mathbf D$ SVD $\mathbf D$ $\mathbf D = \mathbf P \mathbf \Sigma \mathbf Q^T$ 。其中：
- $\mathbf P \in \mathbb R^{N\times N},\mathbf Q \in \mathbb R^{V\times V}$ 为单位正交矩阵。
- $\mathbf \Sigma \in \mathbb R^{N\times V}$ 为广义对角矩阵。
  $\begin{matrix} (5) & \begin{matrix} Σ = [\begin{matrix} σ_{1} & 0 & \dots & 0 & 0 & \dots & 0 \\ 0 & σ_{2} & \dots & 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & σ_{r} & 0 & \dots & 0 \\ 0 & 0 & \dots & 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & 0 & \dots & 0 & \dots & 0 \end{matrix}] \end{matrix} \end{matrix}$
  $\sigma_1\ge \sigma_2\ge\cdots\ge\sigma_r\gt 0$ 称作奇异值。
SVD $r$ $\sigma_1,\sigma_2,\cdots,\sigma_r$ 。
- $i$ $\mathcal D_i$ $r$ 个主题组成，文档的主题概率分布（称作文档-主题向量）为：
  $\begin{matrix} (6) & {\vec{p}}^{(i)} = (P (i, 1), P (i, 2), \dots, P (i, r))^{T} \end{matrix}$
- $t$ $V$ 个单词组成，主题的单词概率分布（称作主题-单词向量 ）为：
  $\begin{matrix} (7) & {\vec{q}}^{(t)} = (Q (t, 1), Q (t, 2), \dots, Q (t, V))^{T} \end{matrix}$
- $j$ $r$ 个主题组成，单词的主题概率分布（称作 单词-主题 向量）为：
  $\begin{matrix} (8) & {\vec{v}}^{(j)} = (Q (1, j), Q (2, j), \dots, Q (r, j))^{T} \end{matrix}$
- $\mathbf D = \mathbf P \mathbf \Sigma \mathbf Q^T$ 有：
  $\begin{matrix} (9) & \begin{matrix} D = P {[\begin{matrix} 1 & 0 & \dots & 0 \\ 0 & 1 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 1 \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 0 \end{matrix}]}_{N \times r} [\begin{matrix} σ_{1} & 0 & \dots & 0 \\ 0 & σ_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & σ_{r} \end{matrix}] {[\begin{matrix} 1 & 0 & \dots & 0 & 0 & \dots & 0 \\ 0 & 1 & \dots & 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 1 & 0 & \dots & 0 \end{matrix}]}_{r \times V} Q^{T} \end{matrix} \end{matrix}$
  则该分解的物理意义为：文档-单词 矩阵 = 文档-主题 矩阵 x 主题强度 x 主题-单词 矩阵。

2.2 应用

得到了文档的主题分布、单词的主题分布之后，可以获取文档的相似度和单词的相似度。
- $\mathcal D_i$ $\mathcal D_j$ 的相似度：
  $\begin{matrix} (10) & s i m (D_{i}, D_{j}) = \frac{{\vec{p}}^{(i)} \cdot {\vec{p}}^{(j)}}{| | {\vec{p}}^{(i)} | | \times | | {\vec{p}}^{(j)} | |} \end{matrix}$
- $\text{word}_i$ $\text{word}_j$ 的相似度：
  $\begin{matrix} (11) & s i m ({word}_{i}, {word}_{j}) = \frac{{\vec{v}}^{(i)} \cdot {\vec{v}}^{(j)}}{| | {\vec{v}}^{(i)} | | \times | | {\vec{v}}^{(j)} | |} \end{matrix}$
$\mathbf Q$ 是正交矩阵，因此有：
$\begin{matrix} (12) & (Q (i, 1), Q (i, 2), \dots, Q (i, V))^{T} \cdot (Q (j, 1), Q (j, 2), \dots, Q (j, V))^{T} = 0, i \neq j \end{matrix}$
则有：
$\begin{matrix} (13) & \begin{matrix} s i m ({topic}_{i}, {topic}_{j}) = \frac{{\vec{q}}^{(i)} \cdot {\vec{q}}^{(j)}}{| | {\vec{q}}^{(i)} | | \times | | {\vec{q}}^{(j)} | |} \\ = \frac{(Q (i, 1), Q (i, 2), \dots, Q (i, V))^{T} \cdot (Q (j, 1), Q (j, 2), \dots, Q (j, V))^{T}}{| | {\vec{q}}^{(i)} | | \times | | {\vec{q}}^{(j)} | |} = 0, i \neq j \end{matrix} \end{matrix}$
因此，任意两个主题之间的相似度为 0 。
文档-主题向量 $\mathbf P$ $\mathbf D = \mathbf P \mathbf\Sigma \mathbf Q^T \rightarrow \mathbf P = \mathbf D\mathbf Q\mathbf \Sigma ^{-1} \rightarrow \mathbf P^T = \mathbf \Sigma ^{-1} \mathbf Q^T \mathbf D^T$ 文档-主题向量 $\mathbf P$ $\mathbf P^T$ 文档-单词向量 $\mathbf D$ $\mathbf D^T$ 的列向量。
$\mathcal D_s$ 文档-单词向量 $\mathbf{\vec w}_s$ ，则其文档-主题向量为：
$\begin{matrix} (14) & {\vec{p}}^{(s)} = Σ^{- 1} Q^{T} {\vec{w}}_{s} \end{matrix}$
LSA 可以应用在以下几个方面：
- 通过对文档的文档-主题向量 进行比较，从而进行基于主题的文档聚类或者分类。
- 通过对单词的单词-主题向量进行比较，从而用于同义词、多义词进行检测。
- 通过将query 映射到主题空间，进而进行信息检索。

2.3 性质

LSA $\mathbf D$ 通过 SVD 进行降维，降维主要是由于以下原因：
- 文档-单词 $\mathbf D$ 太大计算机无法处理，通过降维得到原始矩阵的一个近似。
- 文档-单词 $\mathbf D$ 含有噪音，通过降维去掉原始矩阵的噪音。
- 文档-单词 $\mathbf D$ 过于稀疏，通过降维得到一个稠密的矩阵。
LSA 的降维可以解决一部分同义词的问题，也可以解决一部分二义性的问题。
- 经过降维，意义相同的同义词的维度会因降维被合并。
- 经过降维，拥有多个意义的词，其不同的含义会叠加到对应的同义词所在的维度上。
LSA 的缺点：
- 产生的主题维度可能存在某些主题可解释性差。即：它们并不代表一个人类理解上的主题。
- 由于Bag of words:BOW 模型的局限性，它无法捕捉单词的前后顺序关系。
  一个解决方案是：采用二元词组或者多元词组。
- LSA 假设单词和文档形成联合高斯分布。实际观察发现，它们是一个联合泊松分布。这种情况下，用pLSA 模型效果会更好。

三、Word2Vec

3.1 CBOW 模型

CBOW 模型（continuous bag-of-word）：根据上下文来预测下一个单词。

3.1.1 一个单词上下文

在一个单词上下文的CBOW 模型中：输入是前一个单词，输出是后一个单词，输入为输出的上下文。
由于只有一个单词作为输入，因此称作一个单词的上下文。
一个单词上下文的CBOW 模型如下：
其中：
- $N$ $\mathbf{\vec h} = (h_1,h_2,\cdots,h_N)^T\in \mathbb R^N$ 。
- $\mathbf{\vec x}=(x_1,x_2,\cdots,x_V)^T \in \mathbb R^V$ ，它是输入单词（即上下文单词）的 one-hote 编码，其中只有一位为 1，其他位都为 0 。
- $\mathbf{\vec y}=(y_1,y_2,\cdots,y_V)^T \in \mathbb R^V$ ，它是输出单词为词汇表各单词的概率。
- 相邻层之间为全连接：
  - $\mathbf W \in \mathbb R^{V\times N}$
  - $\mathbf W^\prime\in \mathbb R^{N\times V}$
$\mathbf{\vec x} \in \mathbb R^V$ $\mathbf{\vec h}\in \mathbb R^N$ $\mathbf{\vec h}=\mathbf W^T\mathbf{\vec x}$ 。
令：
$\begin{matrix} (15) & \begin{matrix} W = [\begin{matrix} {\vec{w}}_{1}^{T} \\ {\vec{w}}_{2}^{T} \\ ⋮ \\ {\vec{w}}_{V}^{T} \end{matrix}] \end{matrix} \end{matrix}$
$\mathbf{\vec x}$ one-hot $\mathbb V$ $j$ $\text{word}_j$ ，即：
$\begin{matrix} (16) & x_{1} = 0, x_{2} = 0, \dots, x_{j - 1} = 0, x_{j} = 1, x_{j + 1} = 0, \dots, x_{V} = 0 \end{matrix}$
$\mathbf{\vec h}=\mathbf{\vec w}_j$ 。
$\mathbf W$ $j$ $\mathbf{\vec w}_j ^T$ $\mathbb V$ $j$ $\text{word}_j$ $\text{word}_j$ 的输入向量。
$\mathbf {\vec h}$ $\mathbf{\vec u} \in \mathbb R^V$ $\mathbf{\vec u}=\mathbf W^{\prime T}\mathbf{\vec h}$ 。令：
$\begin{matrix} (17) & W^{'} = [{\vec{w}}_{1}^{'}, {\vec{w}}_{2}^{'}, \dots, {\vec{w}}_{V}^{'}] \end{matrix}$
$u_j=\mathbf{\vec w}^{\prime}_j\cdot \mathbf{\vec h}$ 。
- $u_j$ $\mathbb V$ $j$ $\text{word}_j$ 的得分。
- $\mathbf{\vec w}_j^{\prime }$ $\mathbf W^\prime$ $j$ $\text{word}_j$ 的输出向量。
$\mathbf{\vec u}$ 之后接入一层 softmax 层，则有：
$\begin{matrix} (18) & y_{j} = p ({word}_{j} ∣ \vec{x}) = \frac{\exp (u_{j})}{\sum_{j^{'} = 1}^{V} \exp (u_{j^{'}})}, j = 1, 2, \dots, V \end{matrix}$
$y_j$ $\mathbb V$ $j$ $\text{word}_j$ 为真实输出单词的概率。
$\text{word}_I$ $\text{word}_O$ $\mathbf{\vec x}$ $\mathbf{\vec w}_I$ $j^*$ ，则采用交叉熵的损失函数为：
$\begin{matrix} (19) & \begin{matrix} E ({word}_{I}, {word}_{O}) = - \log \frac{\exp (u_{j^{*}})}{\sum_{j^{'} = 1}^{V} \exp (u_{j^{'}})} = - {\vec{w}}_{j^{*}}^{'} \cdot \vec{h} + \log \sum_{j = 1}^{V} \exp ({\vec{w}}_{j}^{'} \cdot \vec{h}) \\ = - {\vec{w}}_{j^{*}}^{'} \cdot {\vec{w}}_{I} + \log \sum_{j = 1}^{V} \exp ({\vec{w}}_{j}^{'} \cdot {\vec{w}}_{I}) \end{matrix} \end{matrix}$
$\mathbb D$ 中所有的样本，则整体经验损失函数为：
$\begin{matrix} (20) & L = \sum_{({word}_{I}, {word}_{O}) \in D} E ({word}_{I}, {word}_{O}) \end{matrix}$
则网络的优化目标为：
$\begin{matrix} (21) & min L = min_{W, W^{'}} \sum_{({word}_{I}, {word}_{O}) \in D} (- {\vec{w}}_{j^{*}}^{'} \cdot {\vec{w}}_{I} + \log \sum_{j = 1}^{V} \exp ({\vec{w}}_{j}^{'} \cdot {\vec{w}}_{I})) \end{matrix}$
$\mathbf A$ 为某个网络参数，则有：
$\begin{matrix} (22) & \nabla_{A} L = \sum_{({word}_{I}, {word}_{O})} \nabla_{A} E \end{matrix}$
$\mathbf A \leftarrow \mathbf A -\eta\nabla_{\mathbf A} \mathcal L$ ，可以表示为单个样本的多次更新：
$\begin{matrix} (23) & \begin{matrix} for ({word}_{I}, {word}_{O}) \in D : \\ A \leftarrow A - η \nabla_{A} E \end{matrix} \end{matrix}$
$\mathbf A \leftarrow \mathbf A -\eta\nabla_{\mathbf A} E$ 。

3.1.2 参数更新

$t_j=\mathbb I(j=j^*)$ $j$ $\text{word}_O$ 时，它为1；否则为0。定义：
$\begin{matrix} (24) & e_{j} = \frac{\partial E}{\partial u_{j}} = y_{j} - t_{j} \end{matrix}$
它刻画了每个输出单元的预测误差：
- $j=j^*$ $e_j=y_j-1\lt 0$ $y_j$ $1$ 之间的差距。小于 0 表示预测不足。
- $j\ne j^*$ $e_j=y_j \gt 0$ $y_j$ $0$ 之间的差距。大于 0 表示预测过量。
$u_j=\mathbf{\vec w}^{\prime}_j\cdot \mathbf{\vec h}\quad \rightarrow \quad \frac{\partial u_j}{\partial \mathbf{\vec w}_j^\prime}= \mathbf{\vec h}$ ，则有：
$\begin{matrix} (25) & \frac{\partial E}{\partial {\vec{w}}_{j}^{'}} = \frac{\partial E}{\partial u_{j}} \times \frac{\partial u_{j}}{\partial {\vec{w}}_{j}^{'}} = e_{j} \vec{h} \end{matrix}$
$\mathbf{\vec w}_j^\prime$ 更新规则为：
$\begin{matrix} (26) & {\vec{w}}_{j}^{' (n e w)} = {\vec{w}}_{j}^{' (o l d)} - η e_{j} \vec{h} \end{matrix}$
其物理意义为：
- $e_j\gt 0 \rightarrow y_j\gt t_j$ $\mathbf{\vec w}^{\prime}_{j }$ $\mathbf{\vec h}$ $j$ 个输出单元不对应于真实的输出单词时。
- $e_j\lt 0 \rightarrow y_j\lt t_j$ $\mathbf{\vec w}^{\prime}_{j }$ $\mathbf{\vec h}$ $j$ 个输出单元刚好对应于真实的输出单词时。
- $y_j\simeq t_{j}$ 时，更新的幅度将非常微小。
定义：
$\begin{matrix} (27) & \vec{EH} = \frac{\partial E}{\partial \vec{h}} = {(\frac{\partial \vec{u}}{\partial \vec{h}})}^{T} \frac{\partial E}{\partial \vec{u}} \end{matrix}$
$\mathbf{\vec u}=\mathbf W^{\prime T}\mathbf{\vec h} \quad \rightarrow \quad \left(\frac{\partial \mathbf{\vec u}}{\partial \mathbf{\vec h}} \right)^T= \mathbf W^\prime$ $\mathbf{\overrightarrow {EH}} = \mathbf W^\prime \mathbf{\vec e} =\sum_{j=1}^Ve_j \mathbf{\vec w}^{\prime }_j$ 。
$\mathbf{\overrightarrow {EH}}$ $\mathbb V$ $e_j$ 。
$\mathbf{\vec h}=\mathbf W^T\mathbf{\vec x}$ ，则有：
$\begin{matrix} (28) & \frac{\partial E}{\partial w_{k, i}} = \frac{\partial E}{\partial h_{i}} \times \frac{\partial h_{i}}{\partial w_{k, i}} = E H_{i} \times x_{k} \end{matrix}$
$\frac{\partial E}{\partial \mathbf W}=\mathbf{\vec x}\otimes \mathbf{\overrightarrow {EH}}$ $\otimes$ 为克罗内克积。
$\mathbf{\vec x}$ one-hote $\frac{\partial E}{\partial \mathbf W}$ $\mathbf{\overrightarrow {EH}}$ 。因此得到更新方程：
$\begin{matrix} (29) & {\vec{w}}_{I}^{(n e w)} = {\vec{w}}_{I}^{(o l d)} - η \vec{EH} \end{matrix}$
$\mathbf{\vec w}_I$ $\mathbf{\vec x}$ $\mathbf W$ $\mathbf W$ 的其它行在本次更新中都保持不变。
$\mathbf W$ $I$ $k$ 列，则：
$\begin{matrix} (30) & w_{I, k}^{(n e w)} = w_{I, k}^{(o l d)} - η \sum_{j = 1}^{V} e_{j} w_{j, k}^{'} \end{matrix}$
- $y_j\simeq t_{j}$ $e_j$ 趋近于 0 ，则更新的幅度将非常微小。
- $y_j$ $t_{j}$ $e_j$ 绝对值越大，则更新的幅度越大。
当给定许多训练样本（每个样本由两个单词组成），上述更新不断进行，更新的效果在不断积累。
- 根据单词的共现结果，输出向量与输入向量相互作用并达到平衡。
  - $\mathbf{\vec w}^{\prime}$ $\mathbf{\vec w}_I$ $\mathbf{\vec w}^{\prime(new)}_{j } =\mathbf{\vec w}^{\prime(old)}_{j }-\eta e_j\mathbf{\vec h}$ 。
    $\mathbf{\vec h}$ $\mathbf{\vec w}_I$ 。
  - $\mathbf{\vec w}_I$ $\mathbf{\vec w}^{\prime}$ $\mathbf{\vec w}_I^{(new)}=\mathbf{\vec w}_I^{(old)}-\eta\mathbf{\overrightarrow{EH}}$ 。
    $\mathbf{\overrightarrow{EH}} = \sum_{j=1}^Ve_j \mathbf{\vec w}^{\prime }_j$ $\mathbb V$ $e_j$ 。
- 平衡的速度与效果取决于单词的共现分布，以及学习率。

3.1.3 多个单词上下文

$C$ $\mathbf{\vec x}_1,\mathbf{\vec x}_2,\cdots,\mathbf{\vec x}_C$ $\mathbf W$ ，这称作权重共享。这里的权重共享隐含着：每个单词的表达是固定的、唯一的，与它的上下文无关。
隐向量为所有输入单词映射结果的均值：
$\begin{matrix} (31) & \vec{h} = \frac{1}{C} W^{T} ({\vec{x}}_{1} + {\vec{x}}_{2} + \dots + {\vec{x}}_{C}) = \frac{1}{C} ({\vec{w}}_{I_{1}} + {\vec{w}}_{I_{2}} + \dots + {\vec{w}}_{I_{C}}) \end{matrix}$
$I_i$ $i$ $\mathbb V$ $\mathbf{\vec w}_j$ $\mathbf W$ $j$ 行，它是对应输入单词的输入向量。
$\text{word}_{I_1},\text{word}_{I_2},\cdots,\text{word}_{I_C}$ $\text{word}_O$ $\text{word}_O$ $j^*$ 。
定义损失函数为交叉熵：
$\begin{matrix} (32) & E = - u_{j^{*}} + \log \sum_{j = 1}^{V} \exp (u_{j}) = - {\vec{w}}_{j^{*}}^{'} \cdot \vec{h} + \log \sum_{j = 1}^{V} \exp ({\vec{w}}_{j}^{'} \cdot \vec{h}) \end{matrix}$
一个单词上下文 $\mathbf{\vec h}$ 不同。
$\mathbb D$ 中所有的样本，则整体经验损失函数为：
$\begin{matrix} (33) & L = \sum_{({word}_{I_{1}}, {word}_{I_{2}}, \dots, {word}_{I_{C}}, {word}_{O}) \in D} E \end{matrix}$
则网络的优化目标为：
$\begin{matrix} (34) & min L = min_{W, W^{'}} \sum_{({word}_{I_{1}}, {word}_{I_{2}}, \dots, {word}_{I_{C}}, {word}_{O}) \in D} (- {\vec{w}}_{j^{*}}^{'} \cdot {\vec{w}}_{I} + \log \sum_{j = 1}^{V} \exp ({\vec{w}}_{j}^{'} \cdot {\vec{w}}_{I})) \end{matrix}$
.
与一个单词上下文中推导的结果相同，这里给出参数更新规则：
- $\mathbf W^\prime$ ：
  $\begin{matrix} (35) & {\vec{w}}_{j}^{' (n e w)} = {\vec{w}}_{j}^{' (o l d)} - η e_{j} \vec{h}, j = 1, 2, \dots, V \end{matrix}$
  $\mathbf{\vec h}=\frac 1C (\mathbf{\vec w}_{I_1}+\mathbf{\vec w}_{I_2}+\cdots+\mathbf{\vec w}_{I_C})$ 。
- $\mathbf W$ ：
  $\begin{matrix} (36) & {\vec{w}}_{I_{i}}^{(n e w)} = {\vec{w}}_{I_{i}}^{(o l d)} - \frac{1}{C} η \vec{EH}, i = 1, 2, \dots, C \end{matrix}$
  其中：
  - $\mathbf{\overrightarrow {EH}} = \mathbf W^\prime \mathbf{\vec e} =\sum_{j=1}^Ve_j \mathbf{\vec w}^{\prime }_j$ $\mathbb V$ $e_j$ 。
  - $I_i$ $i$ $\mathbb V$ 中的编号。
$\mathbf W$ $\mathbf{\vec x}_1=\mathbf{\vec x}_2 \rightarrow \text{word}_{100}$ $\mathbf{\vec w}_{I_i}$ $\frac 1C\eta\mathbf{\overrightarrow{EH}}$ 。
$\frac {n_v}{C}\eta\mathbf{\overrightarrow{EH}}$ $n_v$ $\text{word}_v$ 在输入中出现的次数。

3.2 Skip-Gram

Skip-Gram 模型是根据一个单词来预测其前后附近的几个单词（即：上下文）。

3.2.1 网络结构

Skip-Gram 网络模型如下。其中：
- $\mathbf{\vec x}=(x_1,x_2,\cdots,x_V)^T \in \mathbb R^V$ ，它是输入单词的 one-hot 编码，其中只有一位为 1，其他位都为 0 。
- $\mathbf{\vec y}_1,\mathbf{\vec y}_2,\cdots,\mathbf{\vec y}_C$ $\mathbf{\vec y}_c =(y_1^c,y_2^c,\cdots,y_V^c)^T \in \mathbb R^V$ $c$ 个输出单词为词汇表各单词的概率。
- $\mathbf{\vec y}_c$ $\mathbf W^\prime$ 。这称作权重共享。
  这里的权重共享隐含着：每个单词的输出向量是固定的、唯一的，与其他单词的输出无关。
Skip-Gram $c$ $j$ $u_{j}^c=\mathbf{\vec w}^{\prime}_j\cdot \mathbf{\vec h}$ ，则有：
$\begin{matrix} (37) & y_{j}^{c} = p ({word}_{j}^{c} ∣ \vec{x}) = \frac{\exp (u_{j}^{c})}{\sum_{k = 1}^{V} \exp (u_{k}^{c})}; c = 1, 2, \dots, C; j = 1, 2, \dots, V \end{matrix}$
$y_{j}^c$ $c$ $\mathbb V$ $j$ $\text{word}_j$ 为真实输出单词的概率。
$\mathbf W^\prime$ $\mathbf{\vec u}_c=(u_{1}^c,u_{2}^c,\cdots,u_{V}^c)^T$ 是相同的。但是这并不意味着网络的每个输出都是同一个单词。
$\mathbf{\vec y}_1=\mathbf{\vec y}_2=\cdots=\mathbf{\vec y}_C$ 。Skip-Gram 网络的目标是：网络的多个输出之间的联合概率最大。
$\text{word}_I$ $\text{word}_{O_1},\text{word}_{O_2},\cdots,\text{word}_{O_C}$ 。定义损失函数为：
$\begin{matrix} (38) & E = - \log p ({word}_{O_{1}}, {word}_{O_{2}}, \dots, {word}_{O_{C}} ∣ {word}_{I}) = - \log \prod_{c = 1}^{C} \frac{\exp (u_{j_{c}^{*}}^{c})}{\sum_{j = 1}^{V} \exp (u_{j}^{c})} \end{matrix}$
$j_1^*,j_2^*,\cdots,j_C^*$ $\mathbb V$ 中的下标序列。
$u_j=u_{j}^c=\mathbf{\vec w}^{\prime}_j\cdot \mathbf{\vec h}$ ，则上式化简为：
$\begin{matrix} (39) & E = - \sum_{c = 1}^{C} u_{j_{c}^{*}}^{c} + C \log \sum_{j = 1}^{V} \exp (u_{j}) \end{matrix}$
.

3.2.2 参数更新

$t_{j}^c=\mathbb I(j_c=j_c^*)$ $c$ $j$ $c$ $\text{word}_{j_c^*}$ 时，它为 1；否则为0。
定义：
$\begin{matrix} (40) & e_{j}^{c} = \frac{\partial E}{\partial u_{j}^{c}} = y_{j}^{c} - t_{j}^{c} \end{matrix}$
$c$ $j$ 个分量的误差：
- $j_c=j_c^*$ $e_{j}^c=y_{j}^c-1$ $y_{j}^c$ $1$ 之间的差距。小于 0 表示预测不足。
- $j_c\ne j_c^*$ $e_{j}^c=y_{j}^c$ $y_{j}^c$ $0$ 之间的差距。大于 0 表示预测过量。
$u_j=\mathbf{\vec w}^{\prime}_j\cdot \mathbf{\vec h}\quad \rightarrow \quad \frac{\partial u_j}{\partial \mathbf{\vec w}_j^\prime}= \mathbf{\vec h}$ ，则有：
$\begin{matrix} (41) & \frac{\partial E}{\partial {\vec{w}}_{j}^{'}} = \sum_{c = 1}^{C} \frac{\partial E}{\partial u_{j}^{c}} \times \frac{\partial u_{j}^{c}}{\partial {\vec{w}}_{j}^{'}} = \sum_{c = 1}^{C} e_{j}^{c} \vec{h} \end{matrix}$
$EI_j=\sum_{c=1}^{C}e_{j}^c$ $j$ 个分量的误差之和。于是有：
$\begin{matrix} (42) & \frac{\partial E}{\partial {\vec{w}}_{j}^{'}} = E I_{j} \times \vec{h} \end{matrix}$
则有更新方程：
$\begin{matrix} (43) & {\vec{w}}_{j}^{' (n e w)} = {\vec{w}}_{j}^{' (o l d)} - η \times E I_{j} \times \vec{h}, j = 1, 2, \dots, V \end{matrix}$
定义：
$\begin{matrix} (44) & \vec{EH} = \frac{\partial E}{\partial \vec{h}} = \sum_{c = 1}^{C} {(\frac{\partial {\vec{u}}^{c}}{\partial \vec{h}})}^{T} \frac{\partial E}{\partial {\vec{u}}^{c}} \end{matrix}$
根据：
$\begin{matrix} (45) & {\vec{u}}^{c} = W^{' T} \vec{h} \to {(\frac{\partial {\vec{u}}^{c}}{\partial \vec{h}})}^{T} = W^{'} \end{matrix}$
则有：
$\begin{matrix} (46) & \vec{EH} = \sum_{c = 1}^{C} W^{'} {\vec{e}}^{c} = \sum_{j = 1}^{V} E I_{j} {\vec{w}}_{j}^{'} \end{matrix}$
$\mathbf{\overrightarrow {EH}}$ $\mathbb V$ $EI_j$ 。
$\mathbf{\vec h}=\mathbf W^T\mathbf{\vec x}$ ，则有：
$\begin{matrix} (47) & \frac{\partial E}{\partial w_{k, i}} = \frac{\partial E}{\partial h_{i}} \times \frac{\partial h_{i}}{\partial w_{k, i}} = E H_{i} \times x_{k} \end{matrix}$
$\frac{\partial E}{\partial \mathbf W}=\mathbf{\vec x}\otimes \mathbf{\overrightarrow {EH}}$ $\otimes$ 为克罗内克积。
$\mathbf{\vec x}$ one-hote $\frac{\partial E}{\partial \mathbf W}$ $\mathbf{\overrightarrow {EH}}$ 。因此得到更新方程：
$\begin{matrix} (48) & {\vec{w}}_{I}^{(n e w)} = {\vec{w}}_{I}^{(o l d)} - η \vec{EH} \end{matrix}$
$\mathbf{\vec w}_I$ $\mathbf{\vec x}$ $\mathbf W$ $\mathbf W$ 的其它行在本次更新中都保持不变。

3.3 优化

原始的CBOW 模型和Skip-Gram 模型的计算量太大，非常难以计算。
- CBOW $V$ Skip-Gram $C \times V$ 个误差。
  另外，每个误差的计算需要用到 softmaxsoftmax $O(V)$ $\sum_{j=1}^V \exp (u_j)$ 。
- 每次梯度更新都需要计算网络输出。
如果词汇表有 100万 单词，模型迭代 100 次，则计算量超过 1 亿次。
虽然输入向量的维度也很高，但是由于输入向量只有一位为 1，其它位均为 0，因此输入的总体计算复杂度较小。
word2vec 优化的主要思想是：限制输出单元的数量。
事实上在上百万的输出单元中，仅有少量的输出单元对于参数更新比较重要，大部分的输出单元对于参数更新没有贡献。
有两种优化策略：
- 通过分层 softmax 来高效计算 softmax 函数。
- 通过负采样来缩减输出单元的数量。

3.3.1 分层 softmax

分层 softmax 是一种高效计算 softmax 函数的算法。
经过分层 softmaxsoftmax $O(V)$ $O(\log V)$ $V-1$ 个内部节点的向量表达。

a) 网络结构

softmax $\mathbb V$ $V$ 个单词被组织成二叉树。
- 叶子结点值为某个具体单词的概率（如下图中的白色结点）
- 中间节点值也代表一个概率（如下图中的灰色结点）。它的值等于直系子节点的值之和，也等于后继的叶子结点值之和，也等于从根节点到当前节点的路径的权重的乘积。
  之所以有这些性质，是由于结点值、权重都是概率，满足和为1的性质
- 根据定义，根节点的值等于所有叶子结点的值之和，即为 1.0
- 二叉树的每条边代表分裂：
  - 向左的边：表示选择左子节点，边的权重为选择左子节点的概率
  - 向右的边：表示选择右子节点，边的权重为选择右子节点的概率
$t$ $\mathbf{\vec v}_t^\prime$ ，它是待求的参数。
- 选择左子节点的概率为：
  $\begin{matrix} (49) & \begin{matrix} p (t, l e f t) = σ ({\vec{v}}_{t}^{'} \cdot \vec{h}) \\ σ (x) = \frac{1}{1 + e^{x}}, σ (- x) = 1 - σ (x) \end{matrix} \end{matrix}$
- 选择右子节点的概率为 :
  $\begin{matrix} (50) & p (t, r i g h t) = 1 - σ ({\vec{v}}_{t}^{'} \cdot \vec{h}) = σ (- {\vec{v}}_{t}^{'} \cdot \vec{h}) \end{matrix}$
- 如果求得所有中间节点的向量表达，则根据每个中间节点的分裂概率，可以很容易的求得每个叶节点的值。
softmax $\{\mathbf{\vec w}_1^\prime,\mathbf{\vec w}_2^\prime,\cdots,\mathbf{\vec w}_V^\prime\}$ $V-1$ 个中间节点的向量表达。
$w$ ：
- $n(w,j)$ $w$ $j$ 个节点（从 1 计数）。
- $L(w)$ $w$ 的路径的长度。
- $ch(t)$ $t$ 的左子节点。
$w$ 的概率为：
$\begin{matrix} (51) & p (w) = \prod_{j = 1}^{L (w) - 1} σ (g (n (w, j + 1) = c h (n (w, j))) \times {\vec{v}}_{n (w, j)}^{'} \cdot \vec{h}) \end{matrix}$
其中：
- $n(w,j+1)=ch(n(w,j))$ $w$ $j+1$ $j$ 个节点的左子节点。
- $g(x)$ $x$ $x$ 不成立时，其值为 -1。
  $\begin{matrix} (52) & \begin{matrix} g (x) = {\begin{cases} 1, & if x is true \\ - 1, & if x is false \end{cases} \end{matrix} \end{matrix}$
- $g(n(w,j+1)=ch(n(w,j)))$ $w$ 的路径上：
  - $j+1$ $j$ 个节点的左子节点时，函数值为 1
  - $j+1$ $j$ 个节点的右子节点时，函数值为 -1
- $\mathbf{\vec v}^\prime_{n(w,j)}$ $w$ $j$ 个节点的向量表达
- $w$ $j$ $j+1$ 个节点的概率为：
  $\begin{matrix} (53) & \begin{matrix} p (j, j + 1) = {\begin{cases} σ ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h}), & if j + 1 is left child of j \\ σ (- {\vec{v}}_{n (w, j)}^{'} \cdot \vec{h}), & if j + 1 is right child of j \end{cases} \end{matrix} \end{matrix}$
  $p(w)$ $w$ 的路径上，每条边的权重（也就是分裂概率）的乘积。
$\sum_{i=1}^Vp(w_i)=1$ 。
利用数学归纳法，可以证明：左子节点的值+右子节点的值=父节点的值。上式最终证明等于根节点的值，也就是 1.0 。

b) 参数更新

为了便于讨论，这里使用CBOW 的一个单词上下文模型。
$g(n(w,j+1)=ch(n(w,j)))$ $g_{n(w,j)}$ ，定义损失函数对数似然：
$\begin{matrix} (54) & E = - \log p (w ∣ \vec{x}) = - \sum_{j = 1}^{L (w) - 1} \log σ (g_{n (w, j)} {\vec{v}}_{n (w, j)}^{'} \cdot \vec{h}) \end{matrix}$
则有：
$\begin{matrix} (55) & \begin{matrix} \frac{\partial E}{\partial ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h})} = (σ (g_{n (w, j)} {\vec{v}}_{n (w, j)}^{'} \cdot \vec{h}) - 1) g_{n (w, j)} = {\begin{cases} σ ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h}) - 1 & if g_{n (w, j)} = 1 \\ σ ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h}) & if g_{n (w, j)} = - 1 \end{cases} \\ = σ ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h}) - t_{n (w, j)} \end{matrix} \end{matrix}$
其中：
$\begin{matrix} (56) & \begin{matrix} t_{n (w, j)} = {\begin{cases} 1, & if node j + 1 at path , root \to w, is left child of node j \\ 0, & if node j + 1 at path , root \to w, is right child of node j \end{cases} \end{matrix} \end{matrix}$
定义：
$\begin{matrix} (57) & e_{n (w, j)} = \frac{\partial E}{\partial ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h})} = σ ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h}) - t_{n (w, j)} \end{matrix}$
- $\sigma(\mathbf{\vec v}^\prime_{n(w,j)}\cdot \mathbf{\vec h})$ $j$ 的左子节点的概率。
- $e_{n(w,j)}$ $w$ $j$ 个节点的选择误差：
  - $j$ $t_{n(w,j)}=1$ $e_{n(w,j)}$ 表示预测的不足。
  - $j$ $t_{n(w,j)}= 0$ $e_{n(w,j)}$ 表示预测的过量。
$n(w,j)$ $\mathbf{\vec v}^\prime_{n(w,j)}$ 。则有：
$\begin{matrix} (58) & \frac{\partial E}{\partial {\vec{v}}_{n (w, j)}^{'}} = \frac{\partial E}{\partial ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h})} \times \frac{\partial ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h})}{\partial {\vec{v}}_{n (w, j)}^{'}} = e_{n (w, j)} \times \vec{h} \end{matrix}$
$\mathbf{\vec v}^\prime_{n(w,j)}$ 的更新方程：
$\begin{matrix} (59) & {\vec{v}}_{n (w, j)}^{' (n e w)} = {\vec{v}}_{n (w, j)}^{' (o l d)} - η \times e_{n (w, j)} \times \vec{h}; j = 1, 2, \dots, L (w) - 1 \end{matrix}$
- $w$ $L(w)-1$ 个内部节点的向量表达。
- $\sigma(\mathbf{\vec v}^\prime_{n(w,j)}\cdot \mathbf{\vec h}) \simeq t_{n(w,j)}$ $e_{n(w,j)}$ $\mathbf{\vec v}^\prime_{n(w,j)}$ 的更新幅度也会非常小。
  $e_{n(w,j)}$ $\mathbf{\vec v}^\prime_{n(w,j)}$ 的更新幅度也会较大。
$\mathbf{\vec v}^\prime_{n(w,j)}$ 的更新方程适用于 CBOW 模型和 Skip-GramSkip-Gram $C$ 个输出的每一个单词进行更新。
CBOW 输入参数更新：对于 CBOW 模型，定义：
$\begin{matrix} (60) & \vec{EH} = \frac{\partial E}{\partial \vec{h}} = \sum_{j = 1}^{L (w) - 1} \frac{\partial E}{\partial ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h})} \times \frac{\partial ({\vec{v}}_{n (w, j)}^{'} \cdot \vec{h})}{\partial \vec{h}} = \sum_{j = 1}^{L (w) - 1} e_{n (w, j)} {\vec{v}}_{n (w, j)}^{'} \end{matrix}$
$\mathbf{\overrightarrow {EH}}$ $e_{n(w,j)}$ 。
$\mathbf{\vec h}=\frac 1C \mathbf W^T(\mathbf{\vec x}_1+\mathbf{\vec x}_2+\cdots+\mathbf{\vec x}_C)$ ，则有：
$\begin{matrix} (61) & \frac{\partial E}{\partial w_{k, i}} = \frac{\partial E}{\partial h_{i}} \times \frac{\partial h_{i}}{\partial w_{k, i}} = \frac{1}{C} E H_{i} \times (x_{(1, k)} + x_{(2, k)} + \dots, + x_{(C, k)}) \end{matrix}$
$\frac{\partial E}{\partial \mathbf W}= \frac 1C \sum_{c=1}^C\mathbf{\vec x}_c\otimes \mathbf{\overrightarrow {EH}}$ $\otimes$ 为克罗内克积。
$\mathbf W$ $C$ $\mathbf{\vec x}_c$ $\mathbf W$ 的更新方程：
$\begin{matrix} (62) & {\vec{w}}_{I_{i}}^{(n e w)} = {\vec{w}}_{I_{i}}^{(o l d)} - \frac{1}{C} η \vec{EH}, i = 1, 2, \dots, C \end{matrix}$
$I_i$ $i$ $\mathbb V$ 中的编号。
Skip-Gram 输入参数更新：对于 Skip-Gram 模型，定义：
$\begin{matrix} (63) & \begin{matrix} \vec{EH} = \frac{\partial E}{\partial \vec{h}} = \sum_{c = 1}^{C} \sum_{j = 1}^{L (w_{c}) - 1} \frac{\partial E}{\partial ({\vec{v}}_{n (w_{c}, j)} \cdot \vec{h})} \times \frac{\partial ({\vec{v}}_{n (w_{c}, j)} \cdot \vec{h})}{\partial \vec{h}} \\ = \sum_{c = 1}^{C} \sum_{j = 1}^{L (w_{c}) - 1} e_{n (w_{c}, j)} \times {\vec{v}}_{n (w_{c}, j)} \end{matrix} \end{matrix}$
$w_c$ $c$ 个输出的输出单词。
softmax $\sum_{j=1}^{L(w_c)-1}$ $c$ 的不同而不同。
Skip-Gram $\mathbf W$ 的更新方程为：
$\begin{matrix} (64) & {\vec{w}}_{I}^{(n e w)} = {\vec{w}}_{I}^{(o l d)} - η \vec{EH} \end{matrix}$
$\mathbf{\vec w}_I$ $\mathbf{\vec x}$ $\mathbf W$ $\mathbf W$ 的其它行在本次更新中都保持不变。

3.3.2 负采样

a) 原理

在网络的输出层，真实的输出单词对应的输出单元作为正向单元，其它所有单词对应的输出单元为负向单元。
- 正向单元的数量为 1，毋庸置疑，正向单元必须输出。
- $V-1$ $V$ 为词表的大小，通常为上万甚至百万级别。如果计算所有负向单元的输出概率，则计算量非常庞大。
  可以从所有负向单元中随机采样一批负向单元，仅仅利用这批负向单元来更新。这称作负采样。
负采样的核心思想是：利用负采样后的输出分布来模拟真实的输出分布。
对于真实的输出分布，有：
$\begin{matrix} (65) & y_{j} = p ({word}_{j} ∣ \vec{x}) = \frac{\exp (u_{j})}{\sum_{j^{'} = 1}^{V} \exp (u_{j^{'}})}, j = 1, 2, \dots, V \end{matrix}$
$w_O$ $j^*$ $K$ $\mathcal W_{neg}=\{j_{neg_1},\cdots,j_{neg_K}\}$ ，则有：
$\begin{matrix} (66) & \begin{matrix} {\hat{y}}_{j} = \hat{p} ({word}_{j} ∣ \vec{x}) = {\begin{cases} \frac{\exp (u_{j})}{\sum_{j^{'} \in {j^{*}, j_{n e g_{1}}, \dots, j_{n e g_{K}}}} \exp (u_{j^{'}})}, & j \in {j^{*}, j_{n e g_{1}}, \dots, j_{n e g_{K}}} \\ 0, & j \notin {j^{*}, j_{n e g_{1}}, \dots, j_{n e g_{K}}} \end{cases} \end{matrix} \end{matrix}$
- 在参数的每一轮更新中，负采样实际上只需要用到一部分单词的输出概率。
- $j$ $e_j = 0$ $\mathbf{\vec w}^{\prime}_j$ 不会被更新。
- $\mathbf{\overrightarrow {EH}} = \mathbf W^\prime \mathbf{\vec e} =\sum_{j=1}^Ve_j \mathbf{\vec w}^{\prime }_j$ $j_{neg_1},\cdots,j_{neg_K}$ $\mathbf{\vec w}_I^{(new)}$ 的更新仅仅依赖于正向单元和负采样的单元。
- $\{y_1,y_2,\cdots,y_V\}$ $\{0,\cdots,0,1, 0,\cdots,0\}$ $j^*$ $y_{j^*}$ 接近 1 。
  $\{\hat y_1,\cdots,\hat y_V\}$ $\{\hat y_1,\cdots,\hat y_V\}$ $\{y_1,y_2,\cdots,y_V\}$ 效果较好。
noise $P_n(w)$ 。
$P_n(w)$ 可以为任意的概率分布（通常需要根据经验来选择）。谷歌给出的建议是挑选 5~10 个负向单元，根据下面公式来采样：
$\begin{matrix} (67) & P_{n} (w) = \frac{f r e q (w)^{3 / 4}}{\sum_{w^{'} \neq j^{*}} f r e q (w^{'})^{3 / 4}} \end{matrix}$
$freq(w)$ 为单词在语料库中出现的概率，分母仅考虑负向单元（不考虑正向单元）。
$P_n(w)$ 的物理意义为：单词在语料库中出现的概率越大，则越可能被挑中。

b) 参数更新

假设输出的单词分类两类：
- $w_O$
- $P_n(w)$ $K$ $\mathcal W_{neg}=\{j_{neg_1},\cdots,j_{neg_K}\}$
论文word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method 的作者指出：下面的训练目标能够得到更好的结果：
$\begin{matrix} (68) & E = - \log σ ({\vec{w}}^{'}_{w_{O}} \cdot \vec{h}) - \sum_{j \in W_{n e g}} \log σ (- {\vec{w}}^{'}_{j} \cdot \vec{h}) \end{matrix}$
其中：
- $\mathbf{\vec w^\prime}_{w_O}$ $\mathbf{\vec w^\prime}_j$ 为负采样的单词得到的输出向量。
- $\sigma(\mathbf{\vec w^\prime}_{w_O}\cdot \mathbf{\vec h})$ $w_O$ $\sigma(-\mathbf{\vec w^\prime}_{j}\cdot \mathbf{\vec h})$ $j$ 上输出为负类的概率。
$-\log \frac{\exp(\mathbf{\vec w^\prime}_{w_O}\cdot \mathbf{\vec h})}{\sum_{j^\prime=1}^V \exp(\mathbf{\vec w^\prime}_{{j^\prime}}\cdot \mathbf{\vec h})}$ 。其物理意义为：在正类单词上取正类的概率尽可能大，在负类单词上取负类的概率尽可能大。
它是从另一个角度考虑：输出为正向单元的概率 * 输出为负向单元的概率。
$\begin{matrix} (69) & σ ({\vec{w}}^{'}_{w_{O}} \cdot \vec{h}) \prod_{j^{'} \neq w_{O}} σ ({\vec{w}}^{'}_{j^{'}} \cdot \vec{h}) \end{matrix}$
其负的对数似然为：
$\begin{matrix} (70) & \begin{matrix} - \log (σ ({\vec{w}}^{'}_{w_{O}} \cdot \vec{h}) \prod_{j^{'} \neq w_{O}} σ ({\vec{w}}^{'}_{j^{'}} \cdot \vec{h})) \\ = - \log σ ({\vec{w}}^{'}_{w_{O}} \cdot \vec{h}) - \sum_{j^{'} \neq w_{O}} \log σ ({\vec{w}}^{'}_{j^{'}} \cdot \vec{h}) \end{matrix} \end{matrix}$
$E=-\log\sigma(\mathbf{\vec w^\prime}_{w_O}\cdot \mathbf{\vec h})-\sum_{j\in \mathcal W_{neg}}\log\sigma(-\mathbf{\vec w^\prime}_j\cdot \mathbf{\vec h})$ 。
$E$ 的定义，有：
$\begin{matrix} (71) & \begin{matrix} \frac{\partial E}{\partial ({\vec{w}}_{j}^{'} \cdot \vec{h})} = {\begin{cases} σ ({\vec{w}}_{j}^{'} \cdot \vec{h}) - 1, & if j = w_{O} \\ σ ({\vec{w}}_{j}^{'} \cdot \vec{h}), & if j \in W_{n e g} \end{cases} = σ ({\vec{w}}_{j}^{'} \cdot \vec{h}) - t_{j} \end{matrix} \end{matrix}$
$t_j$ $j$ 的标签：
$\begin{matrix} (72) & \begin{matrix} t_{j} = {\begin{cases} 1, & if j = w_{O} \\ 0, & esle \end{cases} \end{matrix} \end{matrix}$
$e_{j} = \sigma(\mathbf{\vec w}^\prime_{j}\cdot \mathbf{\vec h})-t_j$ ，它刻画了网络在正类单词和负类单词上的预测误差。
- $j =w_O$ $e_{j}$ 表示对正类单词预测概率的不足。
- $j \in \mathcal W_{neg}$ $e_{j}$ 表示对负类单词预测概率的过量。
根据：
$\begin{matrix} (73) & \frac{\partial E}{\partial {\vec{w}}_{j}^{'}} = \frac{\partial E}{\partial ({\vec{w}}_{j}^{'} \cdot \vec{h})} \times \frac{\partial ({\vec{w}}_{j}^{'} \cdot \vec{h})}{\partial {\vec{w}}_{w_{j}}^{'}} = e_{j} \times \vec{h} \end{matrix}$
则有输出向量的更新方程：
$\begin{matrix} (74) & {\vec{w}}_{j}^{' (n e w)} = {\vec{w}}_{j}^{' (o l d)} - η \times e_{j} \times \vec{h} \end{matrix}$
$K+1$ $w_O$ $K$ $K$ 通常数量很小。其它所有单词对应的输出向量未能得到更新。
相比较而言：
- $V$ 个）都得到更新
- softmax $L(w)-1$ 个内部节点的向量表达得到更新。
输出向量的更新方程可以用于CBOW 模型和 Skip-Gram 模型。
若用于Skip-Gram 模型，则对每个输出依次执行输出向量的更新。
CBOW 输入向量参数更新：对于 CBOW 模型，定义：
$\begin{matrix} (75) & \vec{EH} = \frac{\partial E}{\partial \vec{h}} = \sum_{j \in {w_{O}} ⋃ W_{n e g}} \frac{\partial E}{\partial ({\vec{w}}_{j}^{'} \cdot \vec{h})} \times \frac{\partial ({\vec{w}}_{j}^{'} \cdot \vec{h})}{\partial \vec{h}} = \sum_{j \in {w_{O}} ⋃ W_{n e g}} e_{j} \times {\vec{w}}_{j}^{'} \end{matrix}$
$\mathbf{\overrightarrow {EH}}$ $e_{j}$ 。
分层softmax: CBOW 输入向量参数更新 $\mathbf W$ 的更新方程为：
$\begin{matrix} (76) & {\vec{w}}_{I_{i}}^{(n e w)} = {\vec{w}}_{I_{i}}^{(o l d)} - \frac{1}{C} η \vec{EH}, i = 1, 2, \dots, C \end{matrix}$
$I_i$ $i$ $\mathbb V$ 中的编号。
Skip-Gram 输入向量参数更新：对于 Skip-Gram 模型，定义：
$\begin{matrix} (77) & \begin{matrix} \vec{EH} = \frac{\partial E}{\partial \vec{h}} = \sum_{c = 1}^{C} \sum_{j \in {w_{O}^{c}} ⋃ W_{n e g}^{c}} \frac{\partial E}{\partial ({\vec{w}}_{j}^{'} \cdot \vec{h})} \times \frac{\partial ({\vec{w}}_{j}^{'} \cdot \vec{h})}{\partial \vec{h}} \\ = \sum_{c = 1}^{C} \sum_{j \in {w_{O}^{c}} ⋃ W_{n e g}^{c}} e_{j} \times {\vec{w}}_{j}^{'} \end{matrix} \end{matrix}$
$w_O^c$ $c$ $\mathcal W_{neg}^c$ $c$ 个输出的负采样单词集。
$\{w_O^c\}\bigcup \mathcal W_{neg}^c$ $c$ 的不同而不同。
Skip-Gram $\mathbf W$ 的更新方程为：
$\begin{matrix} (78) & {\vec{w}}_{I}^{(n e w)} = {\vec{w}}_{I}^{(o l d)} - η \vec{EH} \end{matrix}$
$\mathbf{\vec w}_I$ $\mathbf{\vec x}$ $\mathbf W$ $\mathbf W$ 的其它行在本次更新中都保持不变。

3.3.3 降采样

对于一些常见单词，比如 the，我们可以在语料库中随机删除它。这有两个原因（假设使用 CBOW ）：
- 当 the 出现在上下文时，该单词并不会为目标词提供多少语义上的信息。
- 当 the 作为目标词时，该单词从语义上本身并没有多大意义，因此没必要频繁更新。
$w$ 被保留的概率为：
$Error: '_' allowed only in math mode$
$z(w)$ $w$ $\text{subsampling_rate}$ 为降采样率（默认为 0.001）。
可以看到：随着单词在语料库中出现的词频越来越大，该单词保留的概率越来越低。

3.4 subword embedding

论文 《Enriching Word Vectors with Subword Information》 中，作者提出通过增加字符级信息来训练词向量。
下图给出了该方法在维基百科上训练的词向量在相似度计算任务上的表现（由人工评估模型召回的结果）。sisg- 和 sisg 模型均采用了 subword embedding，区别是：对于未登录词，sisg- 采用零向量来填充，而 sisg 采用 character n-gram embedding 来填充。

单词拆分：每个单词表示为一组 character n-gram 字符（不考虑顺序），以单词 where、 n=3 为例：

首先增加特殊的边界字符 < （单词的左边界）和 > （单词的右边界）。
然后拆分出一组 character n-gram 字符：<wh, whe,her,ere,re> 。
最后增加单词本身：<where>。

为了尽可能得到多样性的 character n-gram 字符，作者抽取了所有 3<= n <= 6 的 character n-gram 。以单词 mistake 为例：


<mi,mis,ist,sta,tak,ake,ke>,   // n = 3
<mis,mist,ista,stak,take,ake>, // n = 4
<mist,mista,istak,stake,take>, // n = 5
<mista,mistak,istake,stake>,   // n = 6
<mistake>                      // 单词本身

注意：这里的 take 和 <take> 不同。前者是某个character n-gram，后者是一个单词。

一旦拆分出单词，则：
- $\mathbb V$ 扩充为包含所有单词和 N-gram 字符。
- 网络输入包含单词本身以及该单词的所有 character n-gram ，网络输出仍然保持为单词本身。
模型采用 word2vec ，训练得到每个character n-gram embedding 。最终单词的词向量是其所有 character n-gram embedding包括其本身 embedding 的和（或者均值）。
如：单词 where 的词向量来自于下面embedding 之和：
- 单词 <where> 本身的词向量。
- 一组 character n-gram 字符 <wh, whe,her,ere,re> 的词向量。
利用字符级信息训练词向量有两个优势：
- 有利于低频词的训练。
  低频词因为词频较低，所以训练不充分。但是低频词包含的 character n-gram 可能包含某些特殊含义并且得到了充分的训练，因此有助于提升低频词的词向量的表达能力。
- 有利于获取 OOV 单词（未登录词：不在词汇表中的单词）的词向量。
  对于不在词汇表中的单词，可以利用其 character n-gram 的embedding 来获取词向量。

3.5 应用

模型、语料库、超参数这三个方面都会影响词向量的训练，其中语料库对训练结果的好坏影响最大。
根据论文 How to Generate a Good Word Embedding? ，作者给出以下建议：
- 模型选择：所有的词向量都是基于分布式分布假说：拥有相似上下文的单词，其词义相似。根据目标词和上下文的关系，模型可以分为两类：
  - 通过上下文来预测目标词。这类模型更能够捕获单词之间的可替代关系。
  - 通过目标词来预测上下文。
  通过实验发现：简单的模型（Skip-Gram) 在小语料库下表现较好。复杂的模型在大语料库下略有优势。
- 语料库：实际上语料库并不是越大越好，语料库的领域更重要。
  - 选择了合适的领域，可能只需要 1/10 甚至 1/100 的语料就能够得到一个大的、泛领域语料库的效果。
  - 如果选择不合适的领域，甚至会导致负面效果，比随机词向量效果还差。
- 超参数：
  - 词向量的维度：
    - 做词向量语义分析任务时，一般维度越大，效果越好。
    - 做具体NLP 任务时（用作输入特征、或者网络初始化），50 维之后效果提升就比较少了。
  - 迭代次数：由于训练词向量的目标是尽可能精确地预测目标词，这个优化目标和实际任务并不一致。因此最好的做法是：直接用实际任务的验证集来挑选迭代次数。
    如果实际任务非常耗时，则可以随机挑选某个简单任务（如：情感分类）及其验证集来挑选迭代次数。
word2vec 还有一些重要的超参数：
- 窗口大小：该超参数通常和语料库中句子长度有关，可以统计句子长度分布来设置。
- min-count：最小词频训练阈值，词频低于该阈值的词被过滤。
- 降采样率 subsampling_rate：降采样率越低，高频词保留的越少低频词保留的越多。
word2vec 结果评估：
- 通过 kmeans 聚类，查看聚类的簇分布。
- 通过词向量计算单词之间的相似度，查看相似词。
- 通过类比来查看类比词：a 之于 b，等价于 c 之于 d 。
- 使用 tsne 降维可视化查看词的分布。
在 word2vecembedding $\mathbf W \in \mathbb R^{V\times N}$ $j$ $\mathbf{\vec w}_j ^T$ $\text{word}_j$ $\mathbf W^\prime \in \mathbb R^{N\times V}$ $j$ $\mathbf{\vec w}_j^{\prime }$ $\text{word}_j$ 的输出向量。
$\mathbf{\vec w}_j$ $\text{word}_j$ 的表达，而论文 Using the Output Embedding to Improve Language Models 综合了输入向量和输出向量。在该论文中，作者得出结论：
- 在 skip-gram 模型中，在常见的衡量词向量的指标上，输出向量略微弱于输入向量。
- 在基于 RNN 的语言模型中，输出向量反而强于输入向量。
- $\mathbf W^T = \mathbf W^\prime$ ，这可以使得输入向量等于输出向量。这种方式得到的词向量能够提升语言模型的困惑度perplexity。
word2vec 可以用于计算句子相似度。博客 Comparing Sentence Similarity Methods 总结了 6 种计算句子相似度的方法：
- 无监督方法：
  - 对句子中所有的词的词向量求平均，获得sentence embedding 。
  - 对句子中所有的词的词向量加权平均，每个词的权重为 tf-idf ，获得sentence embedding 。
  - 对句子中所有的词的词向量加权平均，每个词的权重为 smooth inverse frequency:SIF ；然后考虑所有的句子，并执行主成分分析；最后对每个句子的词向量加权平均减去first principal componet，获得sentence embedding 。
    SIF $\frac{a}{a+p(w)}$ $a$ $p(w)$ $w$ 的词频。
  - 通过 Word Mover's Distance:WMD ，直接度量句子之间的相似度。
    WMD 使用两个句子中单词的词向量来衡量一个句子中的单词需要在语义空间中移动到另一个句子中的单词的最小距离。
- 有监督方法：
  - 通过分类任务来训练一个文本分类器，取最后一个 hidden layer 的输出作为 sentence embedding。
    其实这就是使用文本分类器的前几层作为 encoder 。
  - 直接训练一对句子的相似性，其优点是可以直接得到 sentence embeding 。
最终结论是：简单加权的词向量平均已经可以作为一个较好的 baseline 。

3.6 SGNS vs 矩阵分解

论文 《NeuralWord Embedding as Implicit Matrix Factorization》 证明了带负采样的 SkipGram 模型 skip-gram with negative-sampling:SGNS 等价于隐式的矩阵分解。
$\mathbb C = \{w_1,w_2,\cdots,w_N\},w_i \in \mathbb V$ $w_i$ $L$ $c_j \in \mathcal N_{w_i} = \{ w_{i-L},\cdots,w_{i-1},w_{i+1},\cdots,w_{i+L}\}$ 作为上下文。定义：
- $\mathbb D = \{(w_i,c_j)\mid w_i \in \mathbf C,c_j\in \mathcal N_{w_i} \}$ 为所有观察到的 word-context 组合。
- $\mathbb V_C = \{ c_j \mid w_i \in \mathbf C,c_j\in \mathcal N_{w_i} \}$ context $\mathbb V_C = \mathbb V$ 。
- $n(w,c)$ word-context $\mathbb D$ $n(w)$ $w\in \mathbb V$ $\mathbb D$ $n(c)$ $c\in \mathbb V_C$ $\mathbb D$ 中出现的次数。
  其中：
  $\begin{matrix} (79) & \begin{matrix} n (w) = \sum_{c \in V_{c}} n (w, c), n (c) = \sum_{w \in V} n (w, c) \\ | D | = \sum_{w \in V, c \in V_{c}} n (w, c) = \sum_{w \in V} n (w) = \sum_{c \in V_{c}} n (c) \end{matrix} \end{matrix}$
- $\text{word}_i$ 作为current wordembedding $\mathbf{\vec w}_i\in \mathbb R^d$ ，作为contextembedding $\mathbf{\vec w}_i^\prime\in \mathbb R^d$ 。
  representation $\mathbf W\in \mathbb R^{ V \times d}$ $\mathbb V$ 中每个单词的embeddign 向量。
  representation $\mathbf W^\prime \in \mathbb R^{ |\mathbb V_C| \times d}$ $\mathbb V_C$ 中每个单词作为上下文时的embeddign 向量。
word-context $(w,c)$ $w$ 作为 current wordembedding $\mathbf{\vec w}_w$ $c$ 作为contextembedding $\mathbf{\vec w}_c^\prime$ $(w,c)$ 被观察到（即 postive ）的概率为：
$\begin{matrix} (80) & p (D = 1 ∣ w, c) = σ ({\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'}) = \frac{1}{1 + \exp (- {\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'})} \end{matrix}$
$\mathbf{\vec w}_w,\mathbf{\vec w}_c^\prime$ 为模型需要学习的参数。
SGNS 最大化观察到的 word-contextword-context $\mathbb D$ 中所有的 word-context 组合都是观察到的，属于postive 样本，因此SGNS 需要通过随机采样一些 word-context 作为负样本。这就是负采样名称的由来。
- 理论而言只有随机采样的、未观察到的 word-context 才能作为负样本。这里直接使用随机采样的结果作为负样本有两个原因：
  - 便于理论上推导。但是二者并不影响 SGNS 等价于矩阵分解的性质。
  - $\mathbb V\times \mathbb V_C$ 的空间巨大，观察到的 word-context 集合仅仅占据很小的部分，因此采样得到的 word-context 组合是未观察到的概率几乎为 1 。
- 理论而言未观察到的 word-context 组合不一定是负样本，某些word-context 组合是合理的，只是它们从未在语料库中出现过。
word-context $(w,c)$ ，SGNS 的损失函数为：
$\begin{matrix} (81) & l (w, c) = \log σ ({\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'}) + k \times E_{c_{N} \sim P_{D}} [\log σ (- {\vec{w}}_{w} \cdot {\vec{w}}_{c_{N}}^{'})] \end{matrix}$
$k$ $c_N$ current word $w$ $P_D$ 为负采样中上下文的分布，有两种常见的分布：
- 非均匀分布：
  $\begin{matrix} (82) & p_{D} (c) = \frac{n (c)^{3 / 4}}{\sum_{c^{'} \in V_{C}} n (c^{'})^{3 / 4}} \end{matrix}$
  这和前面介绍的一致。
- 均匀分布：
  $\begin{matrix} (83) & p_{D} (c) = \frac{n (c)}{| D |} \end{matrix}$
  虽然非均匀分布在某些任务上能够产生更好的结果，但是这里采用均匀分布从而得到更好的理论推导。另外，二者并不影响 SGNS 等价于矩阵分解的性质。
最终得到 SGNS 总的损失函数为：
$\begin{matrix} (84) & L = \sum_{(w, c) \in D} l (w, c) = \sum_{w \in V} \sum_{c \in V_{C}} n (w, c) (\log σ ({\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'}) + k \times E_{c_{N} \sim P_{D}} [\log σ (- {\vec{w}}_{w} \cdot {\vec{w}}_{c_{N}}^{'})]) \end{matrix}$
SGNS 的优化目标使得：
- word-context $(w,c)$ embedding $p(D=1 \mid w,c) = \log\sigma(\mathbf{\vec w}_w\cdot\mathbf{\vec w}_c^\prime)$ 较大。
- word-context $(w,c_N)$ embedding $p(D=1 \mid w,c_N) = \log\sigma(\mathbf{\vec w}_w\cdot\mathbf{\vec w}_{c_N}^\prime)$ 较小。
$P_D$ 采用均匀分布时有：
$\begin{matrix} (85) & E_{c_{N} \sim P_{D}} [\log σ (- {\vec{w}}_{w} \cdot {\vec{w}}_{c_{N}}^{'})] = \sum_{c_{N} \in V_{C}} \frac{n (c_{N})}{| D |} \log σ (- {\vec{w}}_{w} \cdot {\vec{w}}_{c_{N}}^{'}) \end{matrix}$
因此有：
$\begin{matrix} (86) & \begin{matrix} L = \sum_{(w, c) \in D} l (w, c) = \sum_{w \in V} \sum_{c \in V_{C}} n (w, c) (\log σ ({\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'})) + \sum_{w \in V} n (w) (k \times E_{c_{N} \sim P_{D}} [\log σ (- {\vec{w}}_{w} \cdot {\vec{w}}_{c_{N}}^{'})]) \\ = \sum_{w \in V} \sum_{c \in V_{C}} n (w, c) (\log σ ({\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'})) + \sum_{w \in V} \sum_{c_{N} \in V_{C}} n (w) (k \times \frac{n (c_{N})}{| D |} \log σ (- {\vec{w}}_{w} \cdot {\vec{w}}_{c_{N}}^{'})) \\ = \sum_{w \in V} \sum_{c \in V_{C}} (n (w, c) \log σ ({\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'}) + k \times \frac{n (w) n (c)}{| D |} \log σ (- {\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'})) \end{matrix} \end{matrix}$
$\mathbb V\times \mathbb V_C$ word-context $(w,c)$ 的损失为：
$\begin{matrix} (87) & L (w, c) = n (w, c) \log σ ({\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'}) + k \times \frac{n (w) n (c)}{| D |} \log σ (- {\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'}) \end{matrix}$
$\mathbb V\times \mathbb V_C$ $(w,c)$ $(w,c)$ $\mathcal L (w,c)$ $\mathcal L$ $e= \mathbf{\vec w}_w\cdot \mathbf{\vec w}^\prime_{c}$ ，根据：
$\begin{matrix} (88) & \frac{\partial L (w, c)}{\partial e} = 0 \end{matrix}$
解得：
$\begin{matrix} (89) & e = {\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'} = \log (\frac{n (w, c) \times | D |}{n (w) \times n (c)}) - \log k \end{matrix}$
$X,Y$ ，Pointwise Mutual Information :PMI 定义为
$\begin{matrix} (90) & PMI (X, Y) = \log \frac{P (X, Y)}{P (X) \times P (Y)} \end{matrix}$
$w$ $\mathbb D$ $P(w) = \frac{n(w)}{|\mathbb D|}$ $c$ $\mathbb D$ $P(c) = \frac{n(c)}{|\mathbb D|}$ word-context $(w,c)$ $\mathbb D$ $P(w,c) = \frac{n(w,c)}{|\mathbb D|}$ 。则有：
$\begin{matrix} (91) & \log (\frac{n (w, c) \times | D |}{n (w) \times n (c)}) = PMI (w, c) \end{matrix}$
$\mathbf M$ 为：
$\begin{matrix} (92) & M_{i, j} = PMI (w = {word}_{i}, c = {word}_{j}) - \log k = \log (\frac{n (w = {word}_{i}, c = {word}_{j}) \times | D |}{n (w = {word}_{i}) \times n (c = {word}_{j})}) - \log k \end{matrix}$
则有：
$\begin{matrix} (93) & M = W (W^{'})^{T} \end{matrix}$
- $d$ $d$ $\mathbf W$ $\mathbf W^\prime$ $\mathbf M$ 。
  $\mathbf M$ $r_M$ $d$ $d\ge r_M$ $d \lt r_M$ $\mathbf W(\mathbf W^\prime)^T$ $r\le d\lt r_M$ ，这种分解难以成立。
- $k= 1$ $M_{i,j} = \text{PMI}(w = \text{word}_i,c = \text{word}_j)$ ，此时 SGNS 等价于分解 PMI 矩阵。
直接计算 PMI 矩阵非常具有挑战性：
- $|\mathbb V|\times |\mathbb V_C|$ 非常高。
- $(w,c) \in \mathbb V\times \mathbb V_C$ $\text{PMI}(w,c) = \log 0 = -\infty$ 。
  $(w,c)$ 的 PMI 为一个有效的数来解决。
- PMI 矩阵是 dense 矩阵。
$n(w,c) = 0$ $\text{PMI}(w,c) = 0$ PMI $\mathbf M_0$ 。
$P(w),P(c)$ $P(w,c)$ $w$ $c$ 分别单独出现的次数跟高，但是一起出现的次数很低。因此可以认为：
- $P(w,c) \gt P(w)\times p(c)$ $\text{PMI}(w,c) \gt 0$ word-context $(w,c)$ 是相关的。
- $P(w,c) \le P(w)\times p(c)$ $\text{PMI}(w,c) \le 0$ word-context $(w,c)$ 是不相关的。
word-context $(w,c)$ $\text{PMI}(w,c) = 0$ ，因此可以将所有不相关 word-context 的 PMI 都设置为零，仅考虑正的PMI （即 PPMI）：
$\begin{matrix} (94) & PPMI (w, c) = max (PMI (w, c), 0) \end{matrix}$
这和人类的直觉相符：人们很容易联想到正的关联，如 “加拿大” 和 “滑雪” ，但是很难关注一些无关的组合，如“加拿大” 和 “沙漠” 。因此将无效的信息丢弃（PMI 置为零）而仅保留有效信息更符合经验和直觉。
如果继续在 PPMI 中考虑偏移，则得到 Shifted PPMI:SPPMI：
$\begin{matrix} (95) & {SPPMI}_{k} (w, c) = max (PMI(w,c) - \log k, 0) \end{matrix}$
可以直接将PMI 矩阵、PPMISPPMI $w$ 对应的行作为其 representation，此时单词的 representatioinPPMI,SPPMI $\mathbf W = \mathbf M,\mathbf W^\prime = \mathbf I$ 。
也可以通过降维获得单词的低维representatiionSVD $\mathbf W$ $\mathbf W^\prime$ 。
$\mathbf M$ 进行 SVD 分解：

\begin{matrix} (96) & M = U Σ V^{T} \end{matrix}

$\mathbf U,\mathbf V$ $\mathbf \Sigma$ 为所有奇异值从大到小排列的对角矩阵。

$d$ $\mathbf\Sigma_d$ $\mathbf U$ $d$ $\mathbf U_d$ $\mathbf V$ $d$ $\mathbf V_d$ ，则有：

\begin{matrix} (97) & M ≃ M_{d} = U_{d} Σ_{d} (V_{d})^{T} \end{matrix}

$\mathbf W =\mathbf U_d\mathbf \Sigma_d , \mathbf W^\prime = \mathbf V_d$ $\mathbf W$ SGNS $\mathbf W^\prime$ $\mathbf W$ $\mathbf W$ $\mathbf W^\prime$ 的性质不对称。而在 SGNS 中，求解的这两个矩阵都不是正交矩阵，因此可以进行如下分解：

\begin{matrix} (98) & W = U_{d} \sqrt{Σ_{d}}, W^{'} = V_{d} \sqrt{Σ_{d}} \end{matrix}

虽然理论上无法证明这种方式的效果更好，但是实践中发现它确实表现更佳。

基于随机梯度下降的 SGNS 和基于矩阵分解的方式各有优点：
- 基于矩阵分解的优点：
  - 无需精心调优学习率等超参数。
  - 可以按照 word-context 聚合之后的频次数据来训练，这种方式可以训练比 SGNS 大得多得语料库。
    与之相反，SGNS 中每个 word-context 出现一次就需要训练一次。
- 基于 SGNS 的优点：
  - SGNS 可以区分观测值和未观测值，而 SVD 无法判断一个 word-context 为零是因为未观测还是因为 PMI 较低。这在 word-context 矩阵中非常常见。
  - SGNS $(w,c)$ $(w,c)$ $(w,c)$ 权重越低，因此允许其误差较大。
    SVD $(w,c)$ $(w,c)$ $(w,c)$ 的误差更低。
  - SGNS 仅仅关注于观测值，因此它不要求底层的矩阵是稀疏的，可以直接优化 dense 矩阵。
    因为 SVD 的求解困难，所以SVD 通常要求底层矩阵是稀疏的，因此它通常采用 PPMI/SPPMI 。
noise-contrastive estimation:NCE 采用类似的推导过程可以分解为：
$\begin{matrix} (99) & M_{i, j} = \log P (w = {word}_{i} ∣ c = {word}_{j}) - \log k = \log (\frac{n (w = {word}_{i}, c = {word}_{j})}{n (c = {word}_{j})}) - \log k \end{matrix}$
实验：
- 数据集：英文维基百科。经过清理非文本字符、句子拆分、词干化之后，数据集包含 7750万句子、15亿 token 。
  - 每个token 分别取左右两侧2 个tokenword-context $\mathbb D$ 。
  - $\mathbb D$ 中频次低于 100次的 word-context 组合。
  $\mathbb V$ $\mathbb V_C$ 包含 189533 个单词。
- 模型：SPPMI、SGNS 以及 SVD 。其中：
  - $k=1,5,15$ 的结果
  - 对于 SPPMI，将该矩阵的各行作为对应单词的 representation
  - SVD $\mathbf W =\mathbf U_d\sqrt{\mathbf \Sigma_d} ,\quad \mathbf W^\prime = \mathbf V_d \sqrt{\mathbf \Sigma_d}$
- 我们根据训练目标函数和理论目标函数来评估各算法的优化算法效果。
  考虑目标函数：
  $\begin{matrix} (100) & L = \sum_{w \in V} \sum_{c \in V_{C}} n (w, c) (\log σ ({\vec{w}}_{w} \cdot {\vec{w}}_{c}^{'}) + k \times E_{c_{N} \sim P_{D}} [\log σ (- {\vec{w}}_{w} \cdot {\vec{w}}_{c_{N}}^{'})]) \end{matrix}$
  - SGNS $\hat{\mathcal L}$ 。
  - SVD $M_{w,c} = \max(\text{PMI}(w,c) -\log k,0 )$ $\mathbf M$ $\mathcal L$ $\hat{\mathcal L}$ 。
  - 对于 SPPMI，我们将它的各行作为对应单词的 representatioinone-hot $\mathbf{\vec w}_w\cdot \mathbf{\vec w}^\prime_{c} = \max(\text{PMI(w,c)} - \log k,0)$ 。
  - $\mathbf{\vec w}_w\cdot \mathbf{\vec w}^\prime_{c} = \text{PMI}(w,c) -\log k$ $\mathcal L_{OPT}$ 。
  然后我们评估优化目标函数值和理论目标函数值的相对误差：
  $Error: '_' allowed only in math mode$
  结果见下表。其中 PMI-log kSPPMI $\mathbf{\vec w}_w\cdot \mathbf{\vec w}^\prime_{c} = \max(\text{PMI}(w,c) -\log k,0 )$ 直接计算得到（而不是矩阵分解）的SPPMI 理论值对应的误差。
  - 尽管 SPPMI 仅考虑非负元素而丢弃大量信息，它与最优解的理论值非常接近。
  - SVD $d$ 越大效果越好。
  - $k=1$ $d\le 500$ 时 SVD 优化效果比 SGNS 更好；但是当维度更高时 SGNS 的优化误差比 SVD 的降低得多得多。
  - SVD $k$ $k$ $k$ $\mathbf M$ 中零元素数量也越多，这导致 SVD 的分解结果更接近零矩阵。因为 SVD 的目标函数是无权重的，它无法 “更关注” 那些观测结果。
- 在四个数据集上评估 word similarity 单词相似任务和单词类比任务。
  - 在数据集 WordSim353 和 MEN 上评估单词相似任务。这些数据集包含人工标注的 pair-wise 单词相似度得分。
  - 在数据集 Syntactic 和 Mixed 上评估单词类比任务。
  $d=1000$ 时结果如下图所示：
  - 在单词相似任务上 SVD 超越了SPPMI （采用随机梯度下降），而 SPPMI 超越了 SGNS 。
  - SGNS $k$ SPPMI,SVD $k$ 的上升性能先上升后下降。
    SPPMI,SVD $k$ 越大信息丢失越多。
  - 在单词类比任务上 SGNS 超越了 SVD 。这是因为单词类比任务中更依赖于那些上下文中频繁出现的单词，如the,each,many 以及辅助动词 will,had 。SGNS 训练过程会更关注于这些频繁出现的 word-context 组合，而 SVD 对所有的 word-context 是无权重的。

四、GloVe

学习词向量的所有无监督方法最终都是基于语料库的单词共现统计，因此这些模型之间存在共性。
词向量学习算法有两个主要的模型族：
- 基于全局矩阵分解的方法，如：latent semantic analysis:LSA 。
  - 优点：能够有效的利用全局的统计信息。
  - 缺点：在单词类比任务（如：国王 vs 王后 类比于男人 vs 女人）中表现相对较差。
- 基于局部上下文窗口的方法，如：word2vec。
  - 优点：在单词类比任务中表现较好。
  - 缺点：因为word2vec 在独立的局部上下文窗口上训练，因此难以利用单词的全局统计信息。
Global Vectors for Word Representation:GloVe 结合了LSA 算法和Word2Vec 算法的优点，既考虑了全局统计信息，又利用了局部上下文。

4.1 原理

单词-单词 $\mathbf X$ $X_{i,j}$ $\text{word}_j$ $\text{word}_i$ 上下文中出现的次数。令：

$X_i =\sum_{k=1}^V X_{i,k}$ $\text{word}_i$ 上下文中出现的所有单词的总数。
$P_{i,j} = P(\text{word}_j\mid \text{word}_i) = \frac {X_{i,j}}{X_i}$ $\text{word}_j$ $\text{word}_i$ 的上下文中的概率。
$Ratio_{i,j}^k=\frac{P_{i,k}}{P_{j,k}}$ $\text{word}_k$ $\text{word}_i$ $\text{word}_k$ $\text{word}_j$ 的上下文中的概率的比值。

从经验中可以发现以下规律：

	$\text{word}_k$ $\text{word}_i$ 相关	$\text{word}_k$ $\text{word}_i$ 不相关
$\text{word}_k$ $\text{word}_j$ 相关	$Ratio_{i,j}^k$ 趋近于 1	$Ratio_{i,j}^k$ 比较小
$\text{word}_k$ $\text{word}_j$ 不相关	$Ratio_{i,j}^k$ 比较大	$Ratio_{i,j}^k$ 趋近于 1

$Ratio_{i,j}^k$ 能够反映单词之间的相关性。

$\text{word}_i,\text{word}_j,\text{word}_k$ $\mathbf{\vec w}_i,\mathbf{\vec w}_j,\mathbf{\vec w}_k$ 。
GloVe $Ratio_{i,j}^k$ 。即：词向量中包含了共现矩阵的信息。
$F$ ，则有：
$\begin{matrix} (101) & F ({\vec{w}}_{i}, {\vec{w}}_{j}, {\vec{w}}_{k}) = R a t i o_{i, j}^{k} = \frac{P_{i, k}}{P_{j, k}} \end{matrix}$
$F(\cdot)$ $\mathbf{\vec w}_i,\mathbf{\vec w}_j,\mathbf{\vec w}_k$ $F(\cdot)$ ，则可以求解词向量。
$F(\cdot)$ $\frac{P_{i,k}}{P_{j,k}}$ $\mathbf{\vec w}_i$ $\mathbf{\vec w}_j$ $F(\cdot)$ 的形式为：
$\begin{matrix} (102) & F ({\vec{w}}_{i} - {\vec{w}}_{j}, {\vec{w}}_{k}) = \frac{P_{i, k}}{P_{j, k}} \end{matrix}$
$\mathbf{\vec w}_i-\mathbf{\vec w}_j$ $\mathbf{\vec w}_k$ $\frac{P_{i,k}}{P_{j,k}}$ $F(\cdot)$ 的形式为：
$\begin{matrix} (103) & F (({\vec{w}}_{i} - {\vec{w}}_{j})^{T} {\vec{w}}_{k}) = F ({\vec{w}}_{i}^{T} {\vec{w}}_{k} - {\vec{w}}_{j}^{T} {\vec{w}}_{k}) = \frac{P_{i, k}}{P_{j, k}} \end{matrix}$
$\exp(\cdot)$ $F(\cdot)$ 的形式为：
$\begin{matrix} (104) & \begin{matrix} F (\cdot) = \exp (\cdot) \\ {\vec{w}}_{i}^{T} {\vec{w}}_{k} - {\vec{w}}_{j}^{T} {\vec{w}}_{k} = \log P_{i, k} - \log P_{j, k} \end{matrix} \end{matrix}$
$\mathbf{\vec w}_i^T\mathbf{\vec w}_k = \log P_{i,k},\quad \mathbf{\vec w}_j^T\mathbf{\vec w}_k = \log P_{j,k}$ 即可。
- $\mathbf{\vec w}_i^T\mathbf{\vec w}_k=\mathbf{\vec w}_k^T\mathbf{\vec w}_i$ $\log \frac{X_{i,k}} {X_i} \ne \log \frac{X_{k,i}}{X_k}$ $\log P_{i,k} \ne \log P_{k,i}$ 。
  为了解决这个问题，模型引入两个偏置项：
  $\begin{matrix} (105) & \log X_{i, k} = {\vec{w}}_{i}^{T} {\vec{w}}_{k} + b_{i} + {\tilde{b}}_{k} \end{matrix}$
- 上面的公式仅仅是理想状态，实际上只能要求左右两边尽可能相等。于是设计代价函数为：
  $\begin{matrix} (106) & J = \sum_{i, k} {({\vec{w}}_{i}^{T} {\vec{w}}_{k} + b_{i} + {\tilde{b}}_{k} - \log X_{i, k})}^{2} \end{matrix}$
  $\mathbf{\vec w},b,\tilde b$ 均为模型参数。
根据经验，如果两个词共现的次数越多，则这两个词在代价函数中的影响就应该越大。因此可以设计一个权重来对代价函数中的每一项进行加权，权重为共现次数的函数：
$\begin{matrix} (107) & J = \sum_{i, k} f (X_{i, k}) {({\vec{w}}_{i}^{T} {\vec{w}}_{k} + b_{i} + {\tilde{b}}_{k} - \log X_{i, k})}^{2} \end{matrix}$
其中权重函数应该符合三个条件：
- $f(0)=0$ 。即：如果两个词没有共现过，则权重为 0 。
  $\lim _{x\rightarrow 0} f(x) \log^2 x$ 是有限值。
- $f(\cdot)$ 是非递减的。即：两个词共现次数越大，则权重越大。
- $f(\cdot)$ $X_{i,k}$ 不能取太大的值。即：有些单词共现次数非常大（如单词 的 与其它词的组合），但是它们的重要性并不是很大。
GloVe $f(\cdot)$ 为：
$\begin{matrix} (108) & \begin{matrix} f (x) = {\begin{cases} {(\frac{x}{x_{max}})}^{α} & if x < x_{max} \\ 1, & otherwise \end{cases} \end{matrix} \end{matrix}$
其中：
- GloVe $\alpha$ $x_{\max}$ $\alpha = \frac 34,x_{\max} = 100$ 。
- GloVe $x_{\max}$ 对模型的性能影响较小。
$\mathbf{\vec c}$ ，则有：
$\begin{matrix} (109) & \begin{matrix} ({\vec{w}}_{i} + \vec{c})^{T} ({\vec{w}}_{k} + \vec{c}) + (b_{i} - {\vec{c}}^{T} {\vec{w}}_{i} - \frac{| | \vec{c} | |^{2}}{2}) + ({\tilde{b}}_{k} - {\vec{c}}^{T} {\vec{w}}_{k} - \frac{| | \vec{c} | |^{2}}{2}) - \log X_{i, k} = \\ {\vec{w}}_{i}^{T} {\vec{w}}_{k} + b_{i} + {\tilde{b}}_{k} - \log X_{i, k} \end{matrix} \end{matrix}$
$\hat b_i = b_i- \mathbf{\vec c}^T\mathbf{\vec w}_i- \frac{||\mathbf{\vec c}||^2}{2}$ $\hat {\tilde b}_k=\tilde b_k-\mathbf{\vec c}^T\mathbf{\vec w}_k- \frac{||\mathbf{\vec c}||^2}{2}$ $\mathbf{\vec w}_1,\mathbf{\vec w}_2,\cdots,\mathbf{\vec w}_V$ Glove $\mathbf{\vec w}_1+\mathbf{\vec c},\mathbf{\vec w}_2+\mathbf{\vec c},\cdots,\mathbf{\vec w}_V+\mathbf{\vec c}$ 也是Glove 的解。
$\mathbf{\vec c}$ 是一个非常大的值，则会导致几乎所有的词向量都相似。

4.2 应用

GloVe $\mathbf X$ $O(V^2)$ $V^2$ 会非常大。
Zipf's Law $O(|C|)$ $C$ 为语料库的大小。
Zipf's Law $n$ $r$ $f$ $f\times r$ $f\times r=const$
GloVe 模型评估任务：
- semantic 任务：语义任务。如：'雅典'之于'希腊' = '柏林'之于'_'?
- syntactic 任务：语法任务。如：'dance'之于'dancing' = 'fly'之于'_'?
GloVe 模型性能与语料库大小的关系：
- 在语法任务中，模型性能随着语料库大小的增长而单调增长。
  这是因为语料库越大，则语法的统计结果越可靠。
- 在语义任务中，模型性能与语料库绝对大小无关，而与语料库的有效大小有关。
  有效大小指的是语料库中，与目标语义相关的内容的大小。
GloVe 模型超参数选择：
- 词向量大小：词向量大小越大，则模型性能越好。但是词向量超过 200 维时，维度增加的收益是递减的。
- 窗口对称性：计算一个单词的上下文时，上下文窗口可以是对称的，也可以是非对称的。
  - 对称窗口：既考虑单词左侧的上下文，又考虑单词右侧的上下文。
  - 非对称窗口：只考虑单词左侧的上下文。
    因为语言的阅读习惯是从左到右，所以只考虑左侧的上下文，不考虑右侧的上下文。
- 窗口大小：
  - 在语法任务中，选择小的、非对称的窗口时，模型性能更好。
    因为语法是局部的，所以小窗口即可；因为语法是依赖于单词顺序的，所以需要非对称窗口。
  - 对于语义任务，则需要选择更大的窗口。
    因为语义是非局部的。

五、FastText

fastText 是 Facebook AI Research 在 2016 年开源的文本分类器，其提出是在论文 《Bag of Tricks for Efficient Text Classification》 中。目前 fastText 作为文本分类的基准模型。
fastText 的优点是：在保持分类效果的同时，大大缩短了训练时间。
- 在 8个数据集上，不同模型的测试误差：
- 单个 epoch 的训练时间（char-CNN 、VDCNN 和 fastText ）：
fastText 的网络结构与 word2vec 的 CBOW 非常相似。区别在两个地方：
- 输入：单篇文档的所有单词都作为网络的输入。因此这里的参数 C 是动态的，它等于当前文档的单词数量。
- $K$ $V$ ，因此可以不必进行分层 softmax 和负采样。
隐向量为所有输入单词映射结果的均值：
$\begin{matrix} (110) & \vec{h} = \frac{1}{C} W^{T} ({\vec{x}}_{1} + {\vec{x}}_{2} + \dots + {\vec{x}}_{C}) = \frac{1}{C} ({\vec{w}}_{I_{1}} + {\vec{w}}_{I_{2}} + \dots + {\vec{w}}_{I_{C}}) \end{matrix}$
$I_i$ $i$ $\mathbb V$ $\mathbf{\vec w}_j$ $\mathbf W$ $j$ 行，它是对应输入单词的输入向量。
$k^*$ 为真实类别标签）：
$\begin{matrix} (111) & E = - u_{k^{*}} + \log \sum_{k = 1}^{K} \exp (u_{k}) = - {\vec{w}}_{k^{*}}^{'} \cdot \vec{h} + \log \sum_{k = 1}^{K} \exp ({\vec{w}}_{k}^{'} \cdot \vec{h}) \end{matrix}$
$e_k=\frac{\partial E}{\partial u_k}=y_k-t_k$ ，与CBOW 多个单词上下文的推导相同：
- $\mathbf W^\prime$ ：
  $\begin{matrix} (112) & {\vec{w}}_{k}^{' (n e w)} = {\vec{w}}_{k}^{' (o l d)} - η e_{k} \vec{h}, k = 1, 2, \dots, K \end{matrix}$
  $\mathbf{\vec h}=\frac 1C (\mathbf{\vec w}_{I_1}+\mathbf{\vec w}_{I_2}+\cdots+\mathbf{\vec w}_{I_C})$ 。
- $\mathbf W$ ：
  $\begin{matrix} (113) & {\vec{w}}_{I_{i}}^{(n e w)} = {\vec{w}}_{I_{i}}^{(o l d)} - \frac{1}{C} η \vec{EH}, i = 1, 2, \dots, C \end{matrix}$
  其中：
  - $\mathbf{\overrightarrow {EH}} = \mathbf W^\prime \mathbf{\vec e} =\sum_{k=1}^Ke_k \mathbf{\vec w}^{\prime }_k$ $e_k$ 。
  - $I_i$ $i$ $\mathbb V$ 中的编号。
如果考虑词序则分类的效果还可以进一步提升，因此在 fastText 中可以引入 N-gram 特征。如：2-gram 合并文档中连续的2个单词作为特征。
fastText 生成的词向量嵌入的是分类的信息，而word2vec 生成的词向量更多的嵌入了通用语义信息。
- fastText 词向量得到的相似度是基于分类类别的相似。如：商品评论情感分类任务中，好吃 和 好玩 是相似的，因为它们都是正向情感词。
- word2vec 词向量得到的相似度是基于语义的相似。此时 好吃 和 美味 是相似的，因为这二者经常出现在类似的上下文中。

六、ELMo

ELMo:Embeddings from Language Models 引入了一种新的单词表示方式，该表示方式的建模目标是：对单词的复杂特征建模（如：语法特征、语义特征），以及能适应不同的上下文（如：多义词）。
- ELMo 词向量是由双向神经网络语言模型的内部多层向量的线性加权组成。
  - LSTM 高层状态向量捕获了上下文相关的语义信息，可以用于语义消岐等任务。
    如下图中的左图为语义消岐任务的结果，第一层、第二层分别表示单独使用 biLM 的representation 的效果。结果表明：越高层的状态向量，越能够捕获语义信息。
  - LSTM 底层状态向量捕获了语法信息，可以用于词性标注等任务。
    如下图中的右图为词性标注任务的结果，第一层、第二层分别表示单独使用 biLM 的representation 的效果。结果表明：越低层的状态向量，越能够捕获语法信息。
- ELMo 词向量与传统的词向量（如：word2vec ）不同。在ELMo 中每个单词的词向量不再是固定的，而是单词所在的句子的函数，由单词所在的上下文决定。因此ELMo 词向量可以解决多义词问题。
  下图中，GloVe 无法区分 play 这个单词的多种含义。而 ELMo 由于引入了上下文，因此可以区分其不同含义。
- 实验表明，ELMo 在多个任务上取得了广泛的提升。
$\{\text{word}_{w_1},\text{word}_{w_2},\cdots,\text{word}_{w_N}\}$ $w_i \in \{1,2,\cdots,V\}$ $N$ $(w_1,w_2,\cdots,w_N)$ 代表该句子，则生成该句子的概率为：
$\begin{matrix} (114) & p (w_{1}, w_{2}, \dots, w_{N}) = \prod_{i = 1}^{N} p (w_{i} ∣ w_{1}, w_{2}, \dots, w_{i - 1}) \end{matrix}$
$L$ 层的前向 LSTM 模型来实现该概率。其中：
- $\mathbf{\vec x}_i$ $w_i$ embedding $\mathbf{\vec h}_{i,j}$ $j$ LSTM $i$ 个单元的输出隐向量。
- $L$ 层 LSTM 的输出经过 softmax 输出层输出对应的条件概率。
  - softmax 输出层由一个全连接函数和一个softmax 函数组成。
  - 由于 RNN 的性质，所有softmax 输出层的参数都共享。
ELMo 模型采用双向神经网络语言模型，它由一个前向LSTM 网络和一个逆向 LSTM 网络组成。ELMo 最大化句子的对数前向生成概率和对数逆向生成概率。
$\begin{matrix} (115) & \begin{matrix} E = \sum_{i = 1}^{N} [\log p (w_{i} ∣ w_{1}, w_{2}, \dots, w_{i - 1}; Θ_{x}, {\vec{Θ}}_{L S T M}, Θ_{s}) + \log p (w_{i} ∣ w_{i + 1}, w_{w + 2}, \dots, w_{N}; Θ_{x}, {\overset{\leftarrow}{Θ}}_{L S T M}, Θ_{s})] \end{matrix} \end{matrix}$
其中：
- 前向 LSTM 网络和逆向 LSTMembedding $\Theta_x$ softmax $\Theta_s$ 。
- $\overrightarrow\Theta_{LSTM}$ LSTM $\overleftarrow\Theta_{LSTM}$ 为逆向 LSTM 网络的参数，二者不同。
ELMo $w_i$ $2L+1$ $\mathbb H_i = \{\mathbf{\vec x}_i,\mathbf{\vec h}_{i,j},\mathbf{\overleftarrow h}_{i,j}\mid j=1,2,\cdots,L\}$ $2L+1$ 个向量的函数。
- ELMo $L$ $\overrightarrow {\text{ELMO}_i} = \mathbf{\vec h}_{i,L}:\mathbf{\overleftarrow h}_{i,L}$ 。其中 : 表示向量的拼接。
- $2L+1$ $w_i$ 的表达。
- $2L+1$ 个）可以从具体任务中学习到。
  ELMo $2L+1$ 个向量的加权：
  $\begin{matrix} (116) & \vec{{ELMO}_{i}} = γ^{t a s k} \sum_{{\vec{v}}_{k} \in H_{i}} s_{k}^{task} {\vec{v}}_{k} \end{matrix}$
  $s_k^{\text{task}}$ softmax $k=0,1,2,\cdots,2L$ $\gamma^{task}$ 是所有层的缩放因子（与层的位置无关，由具体任务决定）。
应用 ELMoELMo $2L+1$ $2L+1$ 个向量的线性组合，方法为：
- ELMo $\overrightarrow {\text{ELMO}_i}$ 。
- $\mathbf{\vec x}_i^{\text{task}}$ $\overrightarrow {\text{ELMO}_i}$ $\mathbf{\vec x}_i^{\text{task}}$ 是监督学习网络的单词输入 embedding 。
- RNN $\overrightarrow {\text{ELMO}_i}$ $\mathbf{\vec h}_i^{\text{task}}$ $\mathbf{\vec h}_i^{\text{task}}$ 是监督学习网络的隐向量。
实验表明：在 ELModropout $L_2$ 正则化能使得训练到的ELMo权重倾向于接近所有ELMo权重的均值。

词的表达

一、向量空间模型 VSM

1.1 文档-单词 矩阵

1.2 相似度

二、LSA

2.1 原理

2.2 应用

2.3 性质

三、Word2Vec

3.1 CBOW 模型

3.1.1 一个单词上下文

3.1.2 参数更新

3.1.3 多个单词上下文

3.2 Skip-Gram

3.2.1 网络结构

3.2.2 参数更新

3.3 优化

3.3.1 分层 softmax

a) 网络结构

b) 参数更新

3.3.2 负采样

a) 原理

b) 参数更新

3.3.3 降采样

3.4 subword embedding

3.5 应用

3.6 SGNS vs 矩阵分解

四、GloVe

4.1 原理

4.2 应用

五、FastText

六、ELMo

1.1 文档-单词矩阵