全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe(5)_

　　14 GloVe：用于词表征的全局向量（GloVe: Global Vectors for Word Representation）

目标：本论文提出了一种全局对数双线性回归模型（global log-bilinear regression model），其结合了该文献中两种主要模型族的优势，它们是：全局矩阵分解和局部上下文窗口方法（Pennington et al., 2014）。

描述：

尽管 LSA 这样的方法能有效地利用统计信息，但它们在词类比任务上的表现相对较差，这表明了它们次优的向量空间结构。skip-gram 这样的方法可能在词类比上表现更好，但它们在利用语料库的统计信息上表现并不好，因为它们是在分离的局部上下文窗口上训练的，而不是在全局的共现（co-occurrence）计数上训练的。

任何任意词之间的关系可以通过研究它们的共现概率与多个探针词（probe word）之间的比例来检验。

该论文的作者认为词向量学习的合适起点应该是共现概率的比例，而非概率本身。

我们可以将这种共现关系表示成以下形式：

全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe

这使得该特征矩阵可与其转置互换。

该算法中还包含了一个加法偏移：

全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe

其在计算该共现矩阵时，在避免分歧的同时又维持了 X 的稀疏性。

该论文中所得到的模型可与全局的 skip-gram 模型进行比较，而非 (Mikolov et al., 2013a) 中提出的固定窗口大小的 skip-gram 模型。

其表现似乎会随训练数据的增加而单调增加。

15 讨论

在进行了文献调查之后，本节再次回到原来的研究问题上，并根据这些原论文的实验结果和结论推导出了一些简明扼要的结论。

问题 1：用于从文本中提取特征的相对简单的统计技术是什么？

像 n-gram 这样的词频计数模型和像 TF-IDF 这样的简单词袋模型仍然是获取文本的数值向量表征的最简单的工具。

问题 2：使用神经网络而非这些简单方法是否有什么固有的好处？

使用神经网络的好处主要是它们有能力识别模糊的模式，并且可以在主题分类和句法解析树生成等许多应用领域保持灵活性。

问题 3：相对于使用简单的方法，使用神经网络有怎样的权衡？

其权衡主要考虑的是计算成本和内存使用，尽管模型复杂度也是一个因素，但基于此，神经网络可被训练学习任意复杂的生成模型。

问题 4：在性能和准确度上，这些不同的技术之间有怎样的差异？

因为各种应用各有千秋，所以这个问题的回答会有些主观性。通常而言，可以使用 TF-IDF 这样的简单的统计学方法来解决文档相似性问题。CNN 本质上是以迭代式地降维的方式来对输入数据建模，使得它非常适合主题分类和文档摘要等任务。RNN 非常擅长建模文本序列，这使得它们非常适合语言句法建模。在各种框架中，GloVe 的预训练词嵌入的表现优于 vanilla Word2Vec，其被认为是当前最佳的。

问题 5：在哪些用例中，这些权衡比神经网络的好处更重要？

正如上一个问题解释的那样，对于一些简单的信息检索用例（比如文档排序），TF-IDF 和词 PMI（点互信息）就已经足够了。用不着在这样的应用中使用神经网络。

16 总结

本论文总结了最近几年涌现的最先进的神经网络技术的重要方面。当涉及到开发从简单的聊天机器人到通用人工智能实体概念化等一系列应用时，机器翻译、自然语言理解和自然语言生成的领域是重要的研究领域。

在第 15 节的讨论部分总结了被调查论文的结果，并为新手进入该领域提供了一个直接可用的参考。

对于未来的工作，我们打算实验性地比较不同的词嵌入方法，以作为迭代地构建高质量的用于未来机器学习模型使用的引导。

致谢和参考文献（略）

　　原文链接：https://arxiv.org/abs/1704.08531

　　本文为机器之心编译，转载请联系本公众号获得授权。

　　?------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：editor@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe(5)

相关阅读：

相关推荐：