标签: 实验


  1. 【实验分析】Yelp数据处理

    最近可能有几个看效果的实验可能要用到Yelp review的数据,官网(https://www.yelp.com/dataset/documentation/main)下载的数据是原始的数据,我要将它预处理成我要的样子。 数据要求要得到review的text、user ID和star。仅保留review条数在REVIEW_NUM(参数可调)以上的user ID。仅保留符合要求的user ID对应的text、user ID和star。数据处理读取数据需要的文件是review.json,需要读取我们…

    实验, NLP阅读全文

  2. 【语言特性】keras中TimeDistributed多输入问题

    最近实验中使用了层级attention机制,具体代码参考了textClassifier的代码,是用keras实现的,我直接迁移到tf2.0也是很方便。    这个代码中,sentence-level到document-level是通过keras自带的TimeDistributed实现的。TimeDistributed是自动地将相同操作应用于不同的time_step,以达到不同time_step进行相同的计算,并权重共享。    官网中参数介绍如下: inputs: Input ten…

    实验阅读全文

  3. 【语言特性】tf.keras不常见问题汇总

    tf.keras同样是mse,但是作为loss和metrics的输出结果不一致。    可以参见这个问题。其实就是loss根据Batch算的,而metrics算的是全部的,所以metrics计算的是正确的结果。这个bug我看到在github上面提出来过了,据说已经fix了,但是不知道怎么又在tf2.0中出现了。 tf.keras相同模型相同训练集和测试集,相同服务器运行代码,多次的结果对应的最优mse相差比较大。比如可能在0.63~0.67之间波动。    这个问题在百度没有找到答案,但…

    实验, Tensorflow2.0, python阅读全文

  4. 【语言特性】tf.keras多输出和自定义loss

    基础Loss    tf.keras中自带了很多loss函数,比如回归问题的MSE和分类问题的交叉熵等,通常我们会在model.compile中设置,如下代码所示: model.compile(optimizer='adam', loss='mean_squared_error', metrics=[]) 多个输出,loss计算独立    但是最近做的工作是一个多任务的问题,需要计算多个输出的loss,然后将它们加起来求平均作为最终的Loss,由于多个输出不可以合并,那用上面的方法就不合适了。…

    python, Tensorflow2.0, 实验阅读全文