-
【实验分析】Yelp数据处理
最近可能有几个看效果的实验可能要用到Yelp review的数据,官网(https://www.yelp.com/dataset/documentation/main)下载的数据是原始的数据,我要将它预处理成我要的样子。 数据要求 1. 要得到review的text、user ID和star。 2. 仅保留review条数在REVIEW_NUM(参数可调)以上的user ID。 3. 仅保留符合要求的user ID对应的text、user ID和star。 数据处理 读取数据…
-
【论文阅读】ACL 2019 - Sentiment Analysis and Argument Mining
1. Are You Convinced? Choosing the More Convincing Evidence with a Siamese Network 这篇文章是IBM的文章,关于论辩挖掘中的论辩的确定性判断。这篇文章的一个主要的工作就是构建了一个新的数据集。方法用了Siamese network(孪生网络)的改进版。 2. From Surrogacy to…
-
【论文阅读】ACL2019 泛读清单
1. One Time of Interaction May Not Be Enough: Go Deep with an Interaction-over-Interaction Network for Response Selection in Dialogues 是北大和微软合作的论文,解决的问题是对话系统中的response selection。模型需要计算用户聊天ci和回答ri之间的匹配得分,来表明两者是否是关联的。…
-
【生活琐事】2020年寒假打卡
Fighting! 锻炼 爱好 刷题 论文 看书 2.3 休息 复习了音阶,在学习送别第一句和第二句 leetcode 数组6题 (1. 判断重复还是可以考虑set的呀; 2. 异或^真是个有趣的操作。) - - 2.4 休息 - leetcode #350 #189 #48(1. 果然记不得vector操作的我巨亏) - - 2.5 休息 学习了三个小时,结果见图片 - 看了两篇在投的论文,和一篇CVPR2019的《Multi-Label Image Recogni…
-
【读书小记】《切尔诺贝利的悲鸣》摘录
1. 一个接一个死掉,但是没有人来问我们经历了什么、看到了什么,没有人想听和死亡或恐惧有关的事。但是我告诉你的故事是关于爱情,关于我的爱……(P25) 2. 记得托尔斯泰怎么写的吗?皮埃尔经历过战争,觉得很震撼,他以为自己和全世界永远为之改变,但是过了一段时间后,他告诉自己:“我还是和从前一样对巴士司机大叫、咆哮,就像从前一样。”如果是这样,人为什么又要记得?为了确定真相,还是为了公平?所以他们可以释放自己,然后遗忘?是不是因为他们明白自己成为重大事件的一部分?或者他们想把自己隐藏在过去…
-
【生活琐事】2019惜福
选2019年日历的时候,犹犹豫豫最后选了西西弗书店的日历,主要是因为日历的名字取得很合我心意,叫惜福日历。我希望我2019年也是要惜福哇。 一月 去上海找小丁玩,去了很有特色的路。我也想有一栋小洋房……不过这个楼里吃顿饭好贵啊!! 下了很大的雪,在学校逛了一圈没有人哎! 当了一次冒牌的嘉宾。 遇到了我很喜欢的一对cp。不过我磕得不是很敬业啦。 因为将要过年,所以一月的主题还是聚餐呀。和室友吃饭~ 实验室聚餐~不过讲真第一桌都快要吃完了我们桌的锅里的水还没开! 和华华丹丹吃饭,谢…
-
【生活总结】3/6研究生生活小结
科研 研究生的时间说长也不长,短也不短,就是三年的时间。我总是期待着我每学期写这个学期小结的时候可以写得觉得我进步了,起码懂得比以前多了。说起来很不好意思的是,觉得这半年科研并没有很多的进步哎。可能过去了一开始的热情,逐渐明白了科研的困难了。看到自身知识不足带来的瓶颈,又缺乏足够的勇气和动力说我从头开始学就好了。 这个学期和林海博合作了一个工作,没有赶上AAAI19,但是后来经过三个月的打磨,最后投了ACL2020。这个主要是林海博的idea,我更多的是根据问题给出解决方案。在…
-
【论文阅读】Text Level Graph Neural Network for Text Classification (EMNLP 2019)
Motivation 传统的针对文本分类的GNN通常是构建一个固定的corpus level的图,这种图一般是静态图,有如下特征和缺点: 1. Corpus level,一般事先将所有的文档建模到图中。但这会使得计算资源消耗大,并且不可动态地增加文档,不可以进行online test。 2. 边的权重预先设定好,不可更改。受到预先设定的限制,并且降低了边的表达能力。 所以针对以上缺点,本文提出了一种新的文档级别的GNN方法。 Method 建图…
-
【论文阅读】Knowledge-Enriched Transformer for Emotion Detection in Textual Conversations (EMNLP 2019)
Motivation 人们的对话中通常包含着很多情感信息。但是人们通常在对对话进行情感分析的时候具有如下两个特点: 1. 考虑上下文的信息。 2. 人们本身具有一定的commonsense knowledge,利用commonsense knowledge进行对话分析。 所以针对如上两个特点,本文提出了Knowledge-Enriched Transformer(KET)模型,该模型使用了层次的self-attention来得到文档的上下文关系,而且与之前方法…
-
【语言特性】keras中TimeDistributed多输入问题
最近实验中使用了层级attention机制,具体代码参考了textClassifier的代码,是用keras实现的,我直接迁移到tf2.0也是很方便。 这个代码中,sentence-level到document-level是通过keras自带的TimeDistributed实现的。TimeDistributed是自动地将相同操作应用于不同的time_step,以达到不同time_step进行相同的计算,并权重共享。 官网中参数介绍如下: * inputs: Input…