Hope is a dangerous thing, but I have it.


  1. 【生活总结】3/6研究生生活小结

    科研    研究生的时间说长也不长,短也不短,就是三年的时间。我总是期待着我每学期写这个学期小结的时候可以写得觉得我进步了,起码懂得比以前多了。说起来很不好意思的是,觉得这半年科研并没有很多的进步哎。可能过去了一开始的热情,逐渐明白了科研的困难了。看到自身知识不足带来的瓶颈,又缺乏足够的勇气和动力说我从头开始学就好了。    这个学期和林海博合作了一个工作,没有赶上AAAI19,但是后来经过三个月的打磨,最后投了ACL2020。这个主要是林海博的idea,我更多的是根据问题给出解决方案。在…

    生活, 总结阅读全文

  2. 【论文阅读】Text Level Graph Neural Network for Text Classification (EMNLP 2019)

    Motivation 传统的针对文本分类的GNN通常是构建一个固定的corpus level的图,这种图一般是静态图,有如下特征和缺点: 1. Corpus level,一般事先将所有的文档建模到图中。但这会使得计算资源消耗大,并且不可动态地增加文档,不可以进行online test。 2. 边的权重预先设定好,不可更改。受到预先设定的限制,并且降低了边的表达能力。 所以针对以上缺点,本文提出了一种新的文档级别的GNN方法。 Method 建图…

    论文阅读阅读全文

  3. 【论文阅读】Knowledge-Enriched Transformer for Emotion Detection in Textual Conversations (EMNLP 2019)

    Motivation 人们的对话中通常包含着很多情感信息。但是人们通常在对对话进行情感分析的时候具有如下两个特点: 1. 考虑上下文的信息。 2. 人们本身具有一定的commonsense knowledge,利用commonsense knowledge进行对话分析。 所以针对如上两个特点,本文提出了Knowledge-Enriched Transformer(KET)模型,该模型使用了层次的self-attention来得到文档的上下文关系,而且与之前方法…

    论文阅读, MathJax阅读全文

  4. 【语言特性】keras中TimeDistributed多输入问题

    最近实验中使用了层级attention机制,具体代码参考了textClassifier的代码,是用keras实现的,我直接迁移到tf2.0也是很方便。    这个代码中,sentence-level到document-level是通过keras自带的TimeDistributed实现的。TimeDistributed是自动地将相同操作应用于不同的time_step,以达到不同time_step进行相同的计算,并权重共享。    官网中参数介绍如下: * inputs: Input…

    实验阅读全文

  5. 【语言特性】tf.keras不常见问题汇总

    1. tf.keras同样是mse,但是作为loss和metrics的输出结果不一致。    可以参见这个问题。其实就是loss根据Batch算的,而metrics算的是全部的,所以metrics计算的是正确的结果。这个bug我看到在github上面提出来过了,据说已经fix了,但是不知道怎么又在tf2.0中出现了。 2. tf.keras相同模型相同训练集和测试集,相同服务器运行代码,多次的结果对应的…

    实验, Tensorflow2.0, python阅读全文

  6. 【语言特性】tf.keras多输出和自定义loss

    基础Loss    tf.keras中自带了很多loss函数,比如回归问题的MSE和分类问题的交叉熵等,通常我们会在model.compile中设置,如下代码所示: model.compile(optimizer='adam', loss='mean_squared_error', metrics=[]) 多个输出,loss计算独立    但是最近做的工作是一个多任务的问题,需要计算多个输出的loss,然后将它们加起来求平均作为最终的Loss,…

    python, Tensorflow2.0, 实验阅读全文

  7. 【基础配置】服务器tensorflow-gpu2.0安装

    原来一直用的tensorflow,但是由于它静态图的属性,每次debug都很艰难,要看计算的值都要传出来才能看到,而且要一次搭建成功了才能run。总之说来就是凭着经验和运气在debug,虽然说好像也有一个debug的工具,但是在pycharm上并不可用(或者是我没找到方法)。本来说做完横向就转去学pytorch,实验室似乎除了我和林小可爱就没人用tf了。林海博在此时给我安利了tf2.0,在网上看了一些教程,我也学了两天用它写了个简单的分类的程序,顿时感觉嘤嘤嘤太好用了。本地没有GPU还是跑…

    实验, 配置阅读全文

  8. 【语言特性】Python 常用方法

    Dataframe 1. 去掉某个元素为空的一行(以免去停后文本为空) data.dropna(inplace=True) 2. 去掉重复项(但是会导致用range进行遍历的时候在删掉位置报错) data = data.drop_duplicates 3. 遍历 for index, row in data.iterrows(): texts.append(row['text']) labels1.append(row['…

    实验, python阅读全文

  9. 【论文阅读】Emotion Detection with Neural Personal Discrimination (EMNLP2019)

    引言 这是EMNLP2019的一篇文章。 在情感分析中,通常是对于给定的一个文本,我们对它进行独立的分析和情感预测。但是根据趋同性理论,相似和关联性常常同时发生,这个理论运用到情感分析中可以认为具有相似背景的作者在表达情感时是相似的。这个和我们想要做的用户分组有一定的相似性。但是我们当时提出的是语言表达的相似性,这篇文章将用户之间的关联落到背景信息上,选取了作者的性别和位置两个属性,来得到用户之间的社会关联性。 如果选取作者的背景信息来得到文本之间的关联,这面临两个问题:(1) 如何得到用…

    论文阅读阅读全文

  10. 【生活总结】1/3研究生生活小结

    课程   其实研一下的时候课程就不多了,大部分都在学期一半就结束了,除了英语,英语真的是物超所值的一门课。而且上到后来才觉得上课真的是休息的时候,可以有时间光明正大的玩手机不干活。但是后来很多课上也是带着电脑或者ipad在看论文或者画图。 科研   下学期就开始正经步入研究生生活了,大部分时间都在看论文和跑实验。   3月的时候赶ACL2019。其实想法年前就有了,但是实验效果不好,一直拖在这里,结果过年也不开心,总记得要过来跑实验,而且还有课程作业,所以初五就来了。来了有几天也没做什…

    生活, 总结阅读全文