一个神经机器翻译作业:CS 224n- Assignment #4- NMT with RNNs


大家都知道斯坦福大学有很多高质量公开课,其中一个比较有名的是 CS224n: Natural Language Processing with Deep Learning ,做NLP的小伙伴基本都听说过。这门课不仅课件好,作业也很好,认真做一遍会有很大收获。


  • Attention机制
  • 深度学习和pytorch


本文分3部分,先是对模型进行一个公式化的描述和解析相应实现,然后解析模型训练的代码,最后解析预测相关的代码。项目代码见 cs224n_assignment4_solutions 。


1.1 生成一个序列的词向量


也就是输入一个句子,输出 \mathbf{x}_{1}, \ldots, \mathbf{x}_{m}\left(\mathbf{x}_{i} \in \mathbb{R}^{e \times 1}\right) 。



1.2 双向LSTM的Encoder


\begin{array}{l} i_{t}=\sigma\left(W_{i i} x_{t}+b_{i i}+W_{h i} h_{t-1}+b_{h i}\right) \\ f_{t}=\sigma\left(W_{i f} x_{t}+b_{i f}+W_{h f} h_{t-1}+b_{h f}\right) \\ g_{t}=\tanh \left(W_{i g} x_{t}+b_{i g}+W_{h g} h_{t-1}+b_{h g}\right) \\ o_{t}=\sigma\left(W_{i o} x_{t}+b_{i o}+W_{h o} h_{t-1}+b_{h o}\right) \\ c_{t}=f_{t} \odot c_{t-1}+i_{t} \odot g_{t} \ h_{t}=o_{t} \odot \tanh \left(c_{t}\right) \end{array}


\begin{aligned} &\mathbf{h}_{i}^{\mathrm{enc}}=[\overleftarrow{\mathbf{h}_{i}^{\mathrm{enc}}} ; \overrightarrow{\mathbf{h}_{i}^{\mathrm{enc}}}] \text { where } \mathbf{h}_{i}^{\mathrm{enc}} \in \mathbb{R}^{2 h \times 1}, \overleftarrow{\mathbf{h}_{i}^{\mathrm{enc}}}, \overrightarrow{\mathbf{h}_{i}^{\mathrm{enc}}} \in \mathbb{R}^{h \times 1} \quad 1 \leq i \leq m\\ &\mathbf{c}_{i}^{\mathrm{enc}}=[\overleftarrow{\mathbf{c}_{i}^{\mathrm{enc}}} ; \overrightarrow{\mathbf{c}_{i}^{\mathrm{enc}}}] \text { where } \mathbf{c}_{i}^{\mathrm{enc}} \in \mathbb{R}^{2 h \times 1}, \overleftarrow{\mathbf{c}_{i}^{\mathrm{enc}}}, \overrightarrow{\mathbf{c}_{i}^{\mathrm{enc}}} \in \mathbb{R}^{h \times 1} \quad 1 \leq i \leq m \end{aligned}

enc_hiddens 就是一个序列的 \mathbf{h}_{i}^{\mathrm{enc}} ,shape是 (src_len, b, h*2) 。

last_hidden 的shape是 (2,b,h) , last_hidden[0] 是 \overrightarrow{\mathbf{h}_{m}^{\mathrm{enc}}} , last_hidden[1] 是 \overleftarrow{\mathbf{h}_{1}^{\mathrm{enc}}} 。也可能反过来,总之一个是正向LSTM的最后一个隐状态,一个是反向LSTM的最后一个隐状态。

last_cell 的shape是 (2,b,h) ,类似 last_hidden 。


\begin{aligned} &\mathbf{h}_{0}^{\mathrm{dec}}=\mathbf{W}{h}[\overleftarrow{\mathbf{h}_{1}^{\mathrm{enc}}} ; \overrightarrow{\mathbf{h}_{m}^{\mathrm{enc}}}] \text { where } \mathbf{h}_{0}^{\mathrm{dec}} \in \mathbb{R}^{h \times 1}, \mathbf{W}{h} \in \mathbb{R}^{h \times 2 h}\\ &\mathbf{c}_{0}^{\mathrm{dec}}=\mathbf{W}{c}[\overleftarrow{\mathbf{c}_{1}^{\mathrm{enc}}} ; \overrightarrow{\mathbf{c}_{m}^{\mathrm{enc}}}] \text { where } \mathbf{c}_{0}^{\mathrm{dec}} \in \mathbb{R}^{h \times 1}, \mathbf{W}{c} \in \mathbb{R}^{h \times 2 h} \end{aligned}

解码是按时刻依次进行的,所以Encoder用的是 torch.LSTM ,而Decoder只能用 LSTMCell 。对于时刻 t ,进行一次下面的操作:

\mathbf{h}_{t}^{\mathrm{dec}}, \mathbf{c}_{t}^{\mathrm{dec}}=\operatorname{Decoder}\left(\overline{\mathbf{y}_{t}}, \mathbf{h}_{t-1}^{\mathrm{dec}}, \mathbf{c}_{t-1}^{\mathrm{dec}}\right) \quad \text { where } \mathbf{h}_{t}^{\mathrm{dec}} \in \mathbb{R}^{h \times 1}, \mathbf{c}_{t}^{\mathrm{dec}} \in \mathbb{R}^{h \times 1}

其中 \overline{\mathbf{y}_{t}} = [\mathbf{y}_t;\mathbf{o}_{t-1}] 。 \mathbf{y}_t \in \mathbb{R}^{e\times 1} 是译文的词向量, \mathbf{o}_{t-1} \in \mathbb{R}^{h \times 1} 是前一时刻的combined-output vector,combined-output vector是用于映射词表概率分布的向量表示,稍后解释。

得到 \mathbf{h}_{t}^{\mathrm{dec}} 后, 把它当做query,keys和values是 enc_hiddens , 计算attention向量:

\begin{array}{c} \mathbf{e}_{t, i}=\left(\mathbf{h}_{t}^{\mathrm{dec}}\right)^{T} \mathbf{W}_{\mathrm{att} \mathrm{Proj}} \mathbf{h}_{i}^{\mathrm{enc}} \text { where } \mathbf{e}_{t} \in \mathbb{R}^{m \times 1}, \mathbf{W}_{\mathrm{attProj}} \in \mathbb{R}^{h \times 2 h} \\ \alpha_{t}=\operatorname{softmax}\left(\mathbf{e}_{t}\right) \text { where } \alpha_{t} \in \mathbb{R}^{m \times 1} \\ \mathbf{a}_{t}=\sum_{i=1}^{m} \alpha_{t, i} \mathbf{h}_{i}^{\mathrm{enc}} \text { where } \mathbf{a}_{t} \in \mathbb{R}^{2 h \times 1} \end{array}

然后计算combined-output vector:

\begin{aligned} \mathbf{u}_{t}=&\left[\mathbf{a}_{t} ; \mathbf{h}_{t}^{\mathrm{dec}}\right] \text { where } \mathbf{u}_{t} \in \mathbb{R}^{3 h \times 1} \\ \mathbf{v}_{t}&=\mathbf{W}_{u} \mathbf{u}_{t} \text { where } \mathbf{v}_{t} \in \mathbb{R}^{h \times 1}, \mathbf{W}_{u} \in \mathbb{R}^{h \times 3 h} \\ \mathbf{o}_{t}&=\operatorname{dropout}\left(\tanh \left(\mathbf{v}_{t}\right)\right) \text { where } \mathbf{o}_{t} \in \mathbb{R}^{h \times 1} \end{aligned}

对每个时刻计算一次combined-output vector,需要对Y循环:

每个时刻的combined-output vector都可以计算一次概率分布,其意义是下个时刻词的概率分布, 然后跟下个时刻的target word的独热向量做交叉熵,就得到的损失。

\mathbf{P}_{t}=\operatorname{softmax}\left(\mathbf{W}_{\text {vocab }} \mathbf{o}_{t}\right) \text { where } \mathbf{P}_{t} \in \mathbb{R}^{V_{t} \times 1}, \mathbf{W}_{\text {vocab }} \in \mathbb{R}^{V_{t} \times h}

其中 V_t 是目标语言的词表大小。

J_{t}(\theta)=\text { CrossEntropy}\left(\mathbf{P}_{t}, \mathbf{g}_{t}\right)

g_t 是 t 时刻的目标词的独热向量, t 时刻的目标词就是下一个词,即第 t+1 个词。交叉熵需要求和,涉及独热向量的交叉熵实际上计算完之后只剩一项,就是目标词的负对数概率。


本节所有代码都在 nmt_model.beam_search 函数下。

预测方法是 光束搜索 。

  • 解码需要 \mathbf{y}_t, \mathbf{o}_{t-1},\mathbf{h}^{\mathrm{dec}}_{t-1},\mathbf{c}^{\mathrm{dec}}_{t-1} ,以及encoder的输出 \mathbf{h}^{\mathrm{enc}}
  • 生成1时刻的 \mathbf{y}_1 = <s>, 生成0时刻的 \mathbf{o}_0 , 生成0时刻的 \mathbf{h}^{\mathrm{dec}}_{0},\mathbf{c}^{\mathrm{dec}}_{0} 。
  • 生成 \mathrm{vocab\_size} 个路径
  • 选择5个最高概率的路径,如果有达到 </s> 或解码次数达到阈值的路径,停止该路径的扩展。
  • 对于每个可以扩展的路径,再拓展一个词表的概率分布,得到 5 \times \mathrm{vocab\_size} 个路径。

生成 \mathbf{h}^{\mathrm{enc}}, \mathbf{o}_0,\mathbf{y}_1, \mathbf{h}^{\mathrm{dec}}_{t-1},\mathbf{c}^{\mathrm{dec}}_{t-1} 的代码如下:




更新相关变量,为下一次 decode.step() 做准备:



  • Embedding Layer。 https:// pytorch.org/docs/stable /nn.html#torch.nn.Embedding
  • LSTM。 https:// pytorch.org/docs/stable /nn.html#torch.nn.LSTM
  • LSTM Cell。 https:// pytorch.org/docs/stable /nn.html#torch.nn.LSTMCell
  • Linear Layer。 https:// pytorch.org/docs/stable /nn.html#torch.nn.Linear
  • Dropout Layer。 https:// pytorch.org/docs/stable /nn.html#torch.nn.Dropout
  • pack_padded_sequence。 https:// pytorch.org/docs/stable /nn.html#torch.nn.utils.rnn.pack_padded_sequence
  • pad_packed_sequence。 https:// pytorch.org/docs/stable /nn.html#torch.nn.utils.rnn.pad_packed_sequence
  • Permute。 https:// pytorch.org/docs/stable /tensors.html#torch.Tensor.permute
  • Concatenation。 https:// pytorch.org/docs/stable /torch.html#torch.cat
  • Zeros Tensor。 https:// pytorch.org/docs/stable /torch.html#torch.zeros
  • Tensor Splitting (iteration)。 https:// pytorch.org/docs/stable /torch.html#torch.split
  • Tensor Dimension Squeezing。 https:// pytorch.org/docs/stable /torch.html#torch.squeeze
  • Tensor Concatenation。 https:// pytorch.org/docs/stable /torch.html#torch.cat
  • Tensor Stacking。 https:// pytorch.org/docs/stable /torch.html#torch.stack
  • Batch Multiplication。 https:// pytorch.org/docs/stable /torch.html#torch.bmm
  • Tensor Unsqueeze。 https:// pytorch.org/docs/stable /torch.html#torch.unsqueeze
  • Tensor Squeeze。 https:// pytorch.org/docs/stable /torch.html#torch.squeeze
  • Softmax。 https:// pytorch.org/docs/stable /nn.html#torch.nn.functional.softmax
  • Tensor View。 https:// pytorch.org/docs/stable /tensors.html#torch.Tensor.view
  • Tanh。 https:// pytorch.org/docs/stable /torch.html#torch.tan

Solutions for CS224n, winter, 2019. Welcome to discuss problems appearing in assigments, please submit to issue. Also take notes for the key point in lectures. The solutions for assignment is written by Markdown in Assignments/written part .  

  • Course page: https://web.stanford.edu/class/cs224n
  • Video page: https://www.youtube.com/watch?v=8rXD5-xhemo&list=PLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z

update 2019/12/03

  After CS224n I realize that more systematical training is needed. So I start a new repo learn_NLP_again , here is the description(algorithms and solutions is available for chapter 1 until now):

  Here is why I started this project: learn NLP from scratch again . I choose Speech and language process as my entry point, and try to write solutions and implement some algorithms/models of this book. I hope I can stick to this project and update frequently.

  After one year's training in corporation and lab, I find many faults or incorrect habbits in past parctice, (btw, there is too many commits in this repo). I'll review the code in this repo and solve issues gradually.(:smile:, hopefully)

Welcome communications in new repo!

  • note: Word Vectors I: Introduction, SVD and Word2Ve
  • Word2Vec Tutorial - The Skip-Gram Model  
  • coding: Assignment1
  • note: Word Vectors II: GloVe, Evaluation and Trainin
  • gradient-notes
  • CS231n notes on backprop
  • review-differential-calculus
  • backprop_old
  • CS231n notes on network architectures
  • coding: Assignment2
  • writing: Assignment2
  • note: Dependency Parsing
  • note: Language Models and Recurrent Neural Network
  • coding: Assignment3
  • writing: Assignment3
  • note: Machine Translation, Sequence-to-sequence and Attention
  • read: Attention and Augmented Recurrent Neural Networks
  • read: Massive Exploration of Neural Machine Translation Architectures (practical advice for hyperparameter choices)
  • coding: Assignment4
  • writing: Assignment4

key point for a4

How to understand pack_padded_sequence and pad_packed_sequence? (Chinese ed) (English ed)

It has been long time for no updating...

  • coding: Assignment5
  • writing: Assignment5

Final project

  • final-project-practical-tips
  • default-final-project-handout
  • project-proposal-instructions
  • Practical Methodology_Deep Learning book chapter
  • Highway Networks
  • Bidirectional Attention Flow for Machine Comprehension
  • anotate codes
  • train baseline
  13. GitHub

    Stanford cs224n course assignments. assignment 1: Exploring word vectors (sparse or dense word representations). assignment 2: Implement Word2Vec with NumPy. assignment 3: Implement a neural transition-based dependency parser with PyTorch. (ref: A Fast and Accurate Dependency Parser using Neural Networks ( https://nlp.stanford.edu/pubs ...

