首页 > 社会焦点 > 正文

一周论文 | 解读2016年最值得读的三篇NLP论文 + 在线Chat实录(4)

2017-03-27 编辑:

其中 x 的 embedding 和 encoder 中的 embedding 是共享的,而 hidden 是 reconstructor 中单独的参数,inverse attention 的做法也是和原来的 attention 做法是一样。那么整个模型的 training 目标就是:

一周论文 | 解读2016年最值得读的三篇NLP论文 + 在线Chat实录

在做 testing 的时候,也是用这个目标,不同的是:先通过 beam search 根据 likelihood P 得到一些 candidate,然后用 reconstructor 去算每个 candidate 对应的 reconstruction score R,根据 P+lambda R 去选择最终的 translation,相当于是做一个 reranking。流程如下:

一周论文 | 解读2016年最值得读的三篇NLP论文 + 在线Chat实录

实验只在 zh-en 的数据集上验证,不过有很多 analyze 的实验,同时 encoder-decoder 的参数是通过 RNNSearch 模型 warm start 的。

资源

训练集:1.25M LDC的zh-en数据集;

验证集:NIST2002;

测试集:NIST2005, NIST2006, NIST2008

实验结果

做了很多分析的实验:

1. 先是让人打分,看 reconstruction score 和 adequacy 还是 fluency 相关性更大,人觉得是 adequacy 更相关。

2. 然后是在 training 的时候观察验证集上的 bleu 和 reconstruct 的 source sentence 的 bleu(x, x')的bleu 的变化,然后发现 110k iteration 的时候是这两个值是 balance 最好的。

3. 之后是在不同 beam size 的时候,加上 reconstruction 之后验证集上的 bleu 和 translation 的长度都变好了。

4. 接着是在测试集上的 bleu 变化,高了 2 个点以上。

5. 然后在 testing 的时候加上 reconstruction 比不加又高 1 个点。

6. 在长句子上的表现更好,bleu 更高。

另外还说虽然模型变复杂了,但是速度没有变的特别慢,还有一个是和作者之前自己提出的 context gate,model coverage 比较,都比它们好,以及其他一些涉及人工观察的实验。

相关工作

1. Modeling coverage for NMT

2. Context gates for NMT

3. Semi-supervised learning for NMT

  简评

本文用(supervised)autoencoder 的思路,在原有的 NMT 模型上构建了一个 reconstructor,使得 x 翻译得到 y 之后,这个 y 也能通过 reconstructor 重建回 x,这样一来就说明模型中 encoder 和 decoder 的 hidden 所包含的信息是相对充分的,能够改善翻译不充分(重复翻译和翻译不足)的问题。思路非常的清晰简单,模型也不复杂,实验非常丰富,分析了很多的点来说明这个模型表现的很好。值得学习这种清晰的思路和简单的模型构建。

完成人信息

吴郦军 中山大学

  实录

问:为什么 beam search size 越大,效果越差?

答:这个问题是这样,一方面 LL 的目标函数本身倾向于更短的句子;另一方面当 beam size 变大的时候,这个问题就会凸显的更加严重。我们来看下,当 beam size 变大时,其实是可能产生很多短的 candidate 的,而这些短的 candidate 的概率就会变得相对较大,因为句子的概率是连乘 `(P(y_1...t)=p(y_1)p(y_2|y_1)...p(y_t|y_<t))` 的形式,所以短的句子很可能概率更大,这也就是第一点 LL 的问题;那么,当 beam size 比较小的时候,decoding 的每一步都会去选择概率最大的 k 个词语,所以那些短的句子基本上也就不会出现了。

问:Model 是 warm start 的,那如果不是 warm start 效果会如何?另外 reconstructor 是 cold start 的,这个是不是不好?

答:准确的说,现在很多 nmt 的工作都是 warm start 开始的,因为可能存在不是 warm start 模型可能无法收敛, 学不出来等的情况或者是为了加快学习速率,比如用预先训练好的 language model 的 embedding,再比如 rl 的方法不 warm start 就会导致搜索空间太大而无法学到等。所以 warm start 还是很重要的而且很通用。在这个工作中,如果不 warm start 似乎没有看出特别大的问题,所以这个还是需要实验来证明好不好;另外对于 reconstructor,的确可以先将地下的 encoder 和 decoder 固定住,先 pre-train 上层的 constructor,然后再 joint 的 supervised training,这样也是可以的。不过同样好不好还是得看试验结果,这里可能只是学习速率上的区别。这点因为没有做实验,也不好说。只是个人猜测。

问:为什么 beam size 变大,就会产生更多较短的 candidates?

答:decoding 的做法是根据每一步来选概率最大的,开始的时候,概率低的那些词语基本上是不会出现在 beam 的 pool 里面的。而当 size 变大时,这些词语就被 cover 在 beam 的 pool 里面了,而如果他们比较早的就到了 eos 的话,整个句子的概率就会相对较大,也就很有可能选择了这样不好的答案。这点应该是和 LL 这个目标是相吻合的,所以也就是倾向于更短的句子这个意思。

问:Lambda 这个参数是 1 是如何确定的?


大家都爱看
查看更多热点新闻