论文阅读系列(一)

Emmm……我在周报没能每周完成的情况下又开了新的专题,关于论文阅读的,一般应该是有一篇精读,几篇泛读。其实我有一个进行文献管理的软件Mendeley,还是挺好用的,在此做一下安利。

Sentence-State LSTM for Text Representation

简介

这是我选的这周组会讲的论文,所以读的会比较详细一点。这篇论文的基本信息如下:

  • 标题:Sentence-State LSTM for Text Representation

LSTM或者BiLSTM是在自然语言处理中很常用的方法。但是LSTM一个很明显的的特征,就是它的序列性,每一个细胞输出状态的计算都用到上一个细胞的信息(细胞状态和输出状态)。这个特性使得LSTM在文本的应用中可以得到之前的语义信息,具有一定的语义关联性。除了单向LSTM,为了得到下文对上文的影响,所以也有人提出了BiLSTM,即双向LSTM,将原来的LSTM倒过来再算一次。但是这两种LSTM都是序列性的,这意味着上下文之间的语义关联会随着状态的传递不断地减弱,对长文本不友好,而且计算是线性的,通常需要一定的时间。
在长文本方面,很多人提出引入attention机制,现在attention有很多种了,比如hierarchical attention。这篇文章关注于LSTM本身的属性,提出了Sentence-state LSTM,简称为S-L STM。在每个recurrent step,也就是我们说的细胞,将整个句子传入,而不是传入某一个单词,并对LSTM的门进行简单的修改,计算得到句子的局部特征(每个单词的输出状态)和整体特征(句子的整体状态),可以增加单词之间的语义关联性。相较于LSTM顺序的特性,S-LSTM中每个recurrent step中每个单词计算可以是并行的,而且recurrent step的数量与句子的长度无关,而是通过实验结果确定,一般在3-6之间。这不仅可以提高计算的正确性,还可以提高计算的效率。

算法

这是这个算法的框架图:


从这张图像中我们可以看出,S-LSTM与原先的LSTM还是有很大的区别的。
首先来看它的细胞(recurrent step),每个t时刻对应的就是一个细胞,而不是一个layer。在原来的LSTM中,我们一个细胞的传入是一个单词的词向量等特征,但是这里将整个句子中的每个单词都传入了,还传入了一个句子对应的一个总体状态。在对这个句子中间的第$i$个单词状态的计算过程中,都用到了上一个时刻第$i-1$、$i$、$i+1$个单词相应的信息。
具体细胞的结构可以看下面两张图。
这是一张LSTM细胞的结构图,这个在网上有很多介绍了,如果不懂可以自己看看。这里贴一个参考链接:https://blog.csdn.net/gzj_1101/article/details/79376798


从图中我们可以看出大概有遗忘门、输入门和输出门三个部分,输入的信息就是细胞前一个的状态$c_{t-1}$和当前的单词$x_i$。
这是S-LSTM细胞中某一个单词求解的结构示意图,这并不是它的一个细胞,只是其中的一个部分。


从这个图中我们可以看出,明显这个的输入参数就变多了,而且输入的$t-1$时候的输出状态也变成了一个联合状态。因为输入参数的状态变多,所以也相应添加了很多遗忘门的部分。
至于对句子状态$g^t$的求解,也是一个类似于LSTM的结构,只不过只有遗忘门和输出门的部分。

优点

这个算法是受到图思想的启发。每个细胞中单词状态的计算都利用了前后单词在上一步的状态,所以语义关联可以一步步扩展开。
另外每个细胞中单词的输出计算是互不相关的,所以可以并行计算。其次,在原来的LSTM中,$t$值的选取与句子的长短有关,但是S-LSTM中,$t$值的选取与句子长度无关,,完全可以通过实验的结果设定。所以可以大大提高计算的效率。

实验

在分类和序列标注两个方面进行了多组实验。实验结果总体正确率有了略微提升,但是性能有了很大的提高。

A Hierarchical Neural Attention-based Text Classifier

本文提出了一个新的基于Attention的分层分类器。
虽然文本->句子->单词也是一种层级结构,但是本文提出的是类似于生物类别上的大分类(taxonomy)到详细分类(class)的层级结构,所以如果要用这种的话,我们也许需要在情感分类的类别上提取出更大的类别,如sentiment分类,但是情感的正负极性也不好单一给定。或者想想能不能把这个层级结构套到文本上。

Improving Multi-label Emotion Classification via Sentiment Classification with Dual Attention Transfer Network

这篇论文提出了一种基于迁移学习(transfer learning)的方法,将原来的sentiment analysis进一步迁移到emotion detection上。
该算法提出了两种迁移模型的结构:

  1. SP(shared-private)模型:一个提取shared sentiment features的shared LSTM layer(对sentiment和emotion),一个提取specific emotion features的target-specific LSTM layer(只对emotion)。
  2. DATN(Dual Attention Transfer Network):因为SP模型只能得到粗粒度的感情,对于更细的情感词无法准确的捕捉到,所以在原来SP模型的基础上添加了一个双重(其实只有sentiment指向emotion)attention机制。