社会焦点

一周论文 | 解读2016年最值得读的三篇NLP论文 + 在线Chat实录(5)

字号+ 作者: 来源: 2017-03-27

答: 这点其实我觉得是本文可能一个不太严谨的地方,个人觉得应该得试下不同的 lambda,然后给出一个不同 lambda 对于这个问题的结果的影响。我觉得作者应该是尝试了不同的 lambda,然后发现 1 是最好的,所以才这

答:这点其实我觉得是本文可能一个不太严谨的地方,个人觉得应该得试下不同的 lambda,然后给出一个不同 lambda 对于这个问题的结果的影响。我觉得作者应该是尝试了不同的 lambda,然后发现 1 是最好的,所以才这样 report 的。不过也很好奇其他 lambda 的结果,夸张一点说,如果 lambda 大于 1 又会如何呢?其实在一些不同的任务上,lambda 一般是一个 trade-off 的作用,一般应该是 lambda*x + (1-lambda)*y 这样,不过这里不一定是 trade-off,所以就暂且当做同样实验表明 lambda=1 是效果最好的吧。

问: NMT 是如何学习到词与词之间的映射关系?为什么 NMT 能够工作?

答:这个问题。不知道这里提到的词到词的映射是否指的是我理解的 x 中的词要和 y 中的词语一一对应?如果是的话,其实 nmt 本身就没有这个要求,而是强大的 seq2seq 框架,整个 seq2seq 就相当于是两个 language model 的组合(encoder,decoder),那 language model 本身就是可以产生像样的句子。这应该是回到了第二点 nmt 为何 work。那么再看本文,其实这就是一个 autoencoder 的框架,我们如果不看 y 作为单独的词语,而只看 hidden h 的话,那么整体上就是一个 autoencoder。本身其实也不是学习一个词到词的映射,而只是两个 Loglikelihood 的目标。我们从 intuition 的角度理解,他就是希望翻译出来的 y 也能更好的翻译回 x,如果 y 能够翻译回 x,那么整体所包含的语义就是比较丰富的,应该也能表明 encoder 和 decoder 中的 hidden 都有更丰富的信息。这也是这个工作效果为何的确好。

问:Reconstructor 是从翻译过的 y 重新 decoder 回 y,因为 y 有可能翻译的不好,可以理解为 noise,所以像 Denoised Autoencoder —— 如果是这样,是否可以用 DAE 那一套:deep DAE? deep DEA 后是否效果更好 —— 但是这里不是学习,只是验证前面的 seq-to-seq 的效果,所以可以 single layer 就够了。

答:关于 DAE 我没有关注过,所以不是很好回答。但是这篇文章是一个 supervised 训练过程,所以其实不是 sample 或者说翻译出来的 y 来做 reconstructor 的训练,而是用 pair 的 label data y 来做训练的,因此 y 并没有 noise 的这个说法。

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章