【论文阅读】ACL2019 泛读清单

One Time of Interaction May Not Be Enough: Go Deep with an Interaction-over-Interaction Network for Response Selection in Dialogues
是北大和微软合作的论文，解决的问题是对话系统中的response selection。模型需要计算用户聊天ci和回答ri之间的匹配得分，来表明两者是否是关联的。
本文的出发点是传统方法仅根据一层的表示进行matching，是shallow的。所以本文的核心，是定义了一个 Interaction-over-Interaction（IoI）网络。这个网络由 Interaction Block 构成。每一个 block 包含一个自注意力模块，来抽取问句或回复之间的依赖；一个交互模块，来对问句和回复之间的交互进行建模；一个压缩模块，来将前两个模块的结果合并成一个。
Incremental Transformer with Deliberation Decoder for Document Grounded Conversations
这是华中科技大的学生在微信团队实习（？）的时候发表的一篇文章，做的任务是Document Grounded Conversations（应该是个生成任务），就是在给定回答的时候需要考虑document的信息。这篇论文网络有点复杂。在Document Grounded Conversations任务中，关键点是：(1) 使用文档中与对话相关的知识；(2) 对多轮对话进行有效表示。
针对以上两点，这篇文章提出了 Incremental Transformer with Deliberation Decoder，包括：(1) The encoder employs a transformer architecture to incrementally encode multi-turn history utterances, and incorporate document knowledge into the the multi-turn context encoding process; (2) The decoder is a two-pass decoder, which is designed to improve the context coherence and knowledge correctness of the responses.
收获：写作方式可学习，Muiti-head attention可用，Transformer可用。
Improving Multi-turn Dialogue Modelling with Utterance ReWriter
是微信团队和一些学校的合作论文。这篇论文处理的还是多轮对话的问题。因为在多轮对话中，常常会出现语句之间的互相引用（coreference）和信息省略（information omission）问题。所以这篇论文将任务变成两步，第一步先把多轮对话中的句子进行补充，处理掉上面两个问题，通过transformer来抽取信息，得到dialogue history的词以及当前句子的词的分布，之后应用一个类似于pointer-generator的结构决定下一句该copy哪一个句子的词汇，去除用户句子中的省略和指代。。然后第二步再进行process。另外还公布了一个高质量的数据集。
Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study
Bengio署名的文章，主要是研究现有对话系统的神经网络模型是否有效利用了对话历史。通过从utterance和word两个层面加入扰动（打乱顺序、倒序、删减、取最后部分）的手法，研究不同的方法的生成结果。其中扰动只是发生在预测阶段，在训练阶段没有加入扰动。
实验结果表明：
(1) 在不同扰动下模型的效果相差不大，这意味着模型使用的信息只是提供给他们的信息中很少一部分。
(2) Transformer 对词序的变化不敏感，这意味着他们能学习词袋表示。
(3) Attention机制是有效的。
(4) Transformer 似乎不能捕捉到对话历史中的动态变化且对扰动不是很敏感。
Boosting dialog response generation
CMU的文章，没有怎么认真看。这篇文章是针对对话系统中的回答生成的任务。在回答生成的过程中，容易出现的通用和一般性回答，所以这篇文章提出了优化性方法，提升生成对话文本的相关性和多样性。
其工作，是基于 RAML（Reward-augmented Maximum likelihood learning, Norouzi 2016）模型：该模型的目标是最大化预测的分布 y* 在模型中条件概率分布 p(y|x)，并在模型迭代中采用连乘的 boosting，使每一轮迭代能更好的模拟分布。这篇文章具体可参见：机器之心
Constructing Interpretive Spatio-Temporal Features for Multi-Turn Responses Selection
这篇文章处理的是基于检索的Response Selection的任务，这篇文章建模为一个多分类的问题。本文提出了加入空间-时间特征：(1) 空间：句子之间上下文的空间关系通过attention来建模；(2) 时间：把不同句子的特征进行级联，扩展成4D的cube。之前有使用2D卷积核对3D数据进行处理，这里使用了3D卷积核来处理4D数据，并在3D上进行池化操作（这部分的操作有点像CV里面视频的处理）。最后使用softmax 进行分类。
可以关注跨领域的方法。
Neural News Recommendation with Long- and Short-term User Representations
最近在做Personalized SA相关的任务，所以看了这篇论文。这篇论文处理的是针对用户进行新闻推荐的任务。提出不仅要学习得到新闻文本的表示，还要学习得到用户的表示。
(1) 文本表示：分为topic encoder（已有标注数据，作为topic embedding引入）和title encoder（RNN->CNN->Attention）。
(2) 用户表示：分为short-term（从最近浏览的文章中学）和long-term（user embedding）。