【论文阅读】论文泛读系列

最近开始期末考试和大作业，好久都没有看论文。虽然说要坚持看论文，但是要不是组会，还不知道什么时候再开始看。这次的几篇都是选组会论文的时候看的。

Interpretable Emoji Prediction via Label-Wise Attention LSTMs

简介

这是我选的这周组会讲的论文，是一篇很简单的论文了。我觉得可能是实验比较好，而且分析很多。

标题：Interpretable Emoji Prediction via Label-Wise Attention LSTMs

作者：Francesco Barbieri, Luis Espinosa-Anke, Jose Camacho-Collados, Steven Schockaert, Horacio Saggion
论文地址：http://aclweb.org/anthology/D18-1508
代码地址：https://fvancesco.github.io/label_wise_attention/

这篇论文针对的任务是Emoji Prediction，即表情预测，就是对于一段给定的文字（通常是短文本），预测对应的表情符号。这么看来和Emotion Detection还是有点像的，不过表情符号的类别更多了。
现在在NLP领域中，引入Attention机制来使得对句子中更重要的单词给予更多的关注，这是一个很常见的方法了，现在研究的人也很多。但是传统的Attention给出的计算方法是针对所有的label分布的，具有一定的普遍性，这使得可能对一些常用的标签具有一定的倾向性。所以本文提出了Label-wise Attention，针对不同的标签计算Attention，实验结果和分析证明了这种方法的有效性。

算法

传统的Attention网络就是对于句子中的每个单词的LSTM输出状态$h_i$，计算Attention，然后线性变换得到句子的表示，再接一个Softmax得到最后的分布，根据分布得到一个或者多个标签。
Label-wise Attention其实也是很像的结构。但是在计算Attention时，不是针对这个句子计算一个Attention，而是针对不同的标签，分别计算相应的Attention然后再进行线性变换得到最后的分布。

优点

这个算法我觉得真的是很简单的思想了，不知道之前有没有人提出来过，但是这个文章中没有写了。它的主要优点就是针对每个标签分别处理，从而解决数据分布不均匀的问题。

实验

实验结果证明了它比传统的方法的结果好。而且通过大段地分析证明了这个算法对常用类别not heavily biased。并且说明了更少出现的label通常与一些特定的词有关。

Learning Word Representations with Cross-Sentence Dependency for End-to-End Co-reference Resolution

简介

本来选择了这篇作为组会的分享的论文，但是真的觉得讲不太清。

标题：Learning Word Representations with Cross-Sentence Dependency for End-to-End Co-reference Resolution

作者：Hongyin Luo, James Glass
论文地址：http://aclweb.org/anthology/D18-1518
代码地址：https://github.com/luohongyin/coatt-coref](https://github.com/luohongyin/coatt-coref)

这是一篇很短的论文，发现今年EMNLP上。这篇论文是通过得到句子单词之间的依赖关系来得到单词的表示，用于端对端的指代消解问题。
通常，一篇文章中有多个句子，我们把这些句子传入LSTM中时，通常有两种处理方法：

将所有句子串联作为整体输入。但是通常这对LSTM来说太长了。而且过多的更新会使得梯度消失或爆炸，而且模型的复杂度也会提高。
将这些句子分别传入LSTM，但这没有考虑不同句子单词之间的依赖性。尤其针对指代消解问题中的代词，经常上下文是有一定的关联的。

算法

这篇文章就提出了通过计算句子单词之间的依赖关系来对传入LSTM的单词的embedding进行修改的方法。具体分为两种算法：

Linear Sentence Linking（LSL）。这种方法大体上还是保留了两层Bi-LSTM的结构。对于给定的句子，在第一层，先训练得到正向和反向的输出。然后在第二层，使用前一个单词在第一层的输出状态进行初始化。在LSL中，这就是cross-sentence dependency的地方。
Attentional Sentence Linking（ASL）。这在原来的LSTM上增加了一个记忆模块，来保存上一个句子的信息。对于给定的句子的一个单词，计算上一个句子每个单词和这个单词之间关联性，这里的计算函数没有给出，但是在进一步的实验参数部分看出应该是一个多层的感知器（MLP）。然后通过关联性计算出上个句子每个单词的attention，并计算出一个上个句子的一个整体表示，然后计算这个单词和这个表示之间的相关性，并通过一个sigmoid函数来判断这个单词需要引入多少上一句的信息和保留多少自身的信息。然后对embedding进行修改。

实验

整体的算法是套在一个现成的17年提出的框架里面，实验结果肯定比原来的好。

总结

对比17年的算法，即他嵌入的原算法，这篇论文主要就是改了attention部分，改为使用MLP计算句子之间的相似度来得到attention。大概是因为论文太短了，所以算法中间很多的符号和公式都没有说清楚，所以读起来还是有一定的困难。