ACL2019 泛读清单

  1. One Time of Interaction May Not Be Enough: Go Deep with an Interaction-over-Interaction Network for Response Selection in Dialogues
       是北大和微软合作的论文,解决的问题是对话系统中的response selection。模型需要计算用户聊天ci和回答ri之间的匹配得分,来表明两者是否是关联的。
       本文的出发点是传统方法仅根据一层的表示进行matching,是shallow的。所以本文的核心,是定义了一个 Interaction-over-Interaction(IoI)网络。这个网络由 Interaction Block 构成。每一个 block 包含一个自注意力模块,来抽取问句或回复之间的依赖;一个交互模块,来对问句和回复之间的交互进行建模;一个压缩模块,来将前两个模块的结果合并成一个。

  2. Incremental Transformer with Deliberation Decoder for Document Grounded Conversations
       这是华中科技大的学生在微信团队实习(?)的时候发表的一篇文章,做的任务是Document Grounded Conversations(应该是个生成任务),就是在给定回答的时候需要考虑document的信息。这篇论文网络有点复杂。在Document Grounded Conversations任务中,关键点是:(1) 使用文档中与对话相关的知识;(2) 对多轮对话进行有效表示。
       针对以上两点,这篇文章提出了 Incremental Transformer with Deliberation
    Decoder,包括:(1) The encoder employs a transformer architecture to incrementally encode multi-turn history utterances, and incorporate document knowledge into the the multi-turn context encoding process; (2) The decoder is a two-pass decoder, which is designed to improve the context coherence and knowledge correctness of the responses.
       收获:写作方式可学习,Muiti-head attention可用,Transformer可用。

  3. Improving Multi-turn Dialogue Modelling with Utterance ReWriter
       是微信团队和一些学校的合作论文。这篇论文处理的还是多轮对话的问题。因为在多轮对话中,常常会出现语句之间的互相引用(coreference)和信息省略(information omission)问题。所以这篇论文将任务变成两步,第一步先把多轮对话中的句子进行补充,处理掉上面两个问题,通过transformer来抽取信息,得到dialogue history的词以及当前句子的词的分布,之后应用一个类似于pointer-generator的结构决定下一句该copy哪一个句子的词汇,去除用户句子中的省略和指代。。然后第二步再进行process。另外还公布了一个高质量的数据集。

  4. Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study
        Bengio署名的文章,主要是研究现有对话系统的神经网络模型是否有效利用了对话历史。通过从utterance和word两个层面加入扰动(打乱顺序、倒序、删减、取最后部分)的手法,研究不同的方法的生成结果。其中扰动只是发生在预测阶段,在训练阶段没有加入扰动。
       实验结果表明:
    (1) 在不同扰动下模型的效果相差不大,这意味着模型使用的信息只是提供给他们的信息中很少一部分。
    (2) Transformer 对词序的变化不敏感,这意味着他们能学习词袋表示。
    (3) Attention机制是有效的。
    (4) Transformer 似乎不能捕捉到对话历史中的动态变化且对扰动不是很敏感。

  5. Boosting dialog response generation
        CMU的文章,没有怎么认真看。这篇文章是针对对话系统中的回答生成的任务。在回答生成的过程中,容易出现的通用和一般性回答,所以这篇文章提出了优化性方法,提升生成对话文本的相关性和多样性。
        其工作,是基于 RAML(Reward-augmented Maximum likelihood learning, Norouzi 2016)模型:该模型的目标是最大化预测的分布 y* 在模型中条件概率分布 p(y|x),并在模型迭代中采用连乘的 boosting,使每一轮迭代能更好的模拟分布。这篇文章具体可参见:机器之心

  6. Constructing Interpretive Spatio-Temporal Features for Multi-Turn Responses Selection
        这篇文章处理的是基于检索的Response Selection的任务,这篇文章建模为一个多分类的问题。本文提出了加入空间-时间特征:(1) 空间:句子之间上下文的空间关系通过attention来建模;(2) 时间:把不同句子的特征进行级联,扩展成4D的cube。之前有使用2D卷积核对3D数据进行处理,这里使用了3D卷积核来处理4D数据,并在3D上进行池化操作(这部分的操作有点像CV里面视频的处理)。最后使用softmax 进行分类。
       可以关注跨领域的方法。

  7. Neural News Recommendation with Long- and Short-term User Representations
       最近在做Personalized SA相关的任务,所以看了这篇论文。这篇论文处理的是针对用户进行新闻推荐的任务。提出不仅要学习得到新闻文本的表示,还要学习得到用户的表示。
    (1) 文本表示:分为topic encoder(已有标注数据,作为topic embedding引入)和title encoder(RNN->CNN->Attention)。
    (2) 用户表示:分为short-term(从最近浏览的文章中学)和long-term(user embedding)。