全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe_

选自arXiv

作者：Vineet John

机器之心编译

参与：吴攀、李亚洲、蒋思源

文本特征提取是自然语言处理的核心问题之一，近日，加拿大滑铁卢大学的 Vineet John 在 arXiv 发布了一篇关于用于文本特征提取的神经网络技术的综述论文。机器之心对该论文进行了编译介绍，论文原文可点击文末「阅读原文」查阅。

全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe

https://arxiv.org/abs/1704.08531

本论文的目标是促进有关使用神经网络架构的文本特征提取技术的讨论。本论文中所讨论的研究问题关注的是当前最佳的神经网络技术，它们已经在语言处理、语言生成、文本分类和其它计算语言学任务中被证明是有用的工具。

1 动机

目前基于文本的特征提取所使用的大部分方法都依赖于相对简单的统计技术。比如说，n-gram 这样的词共现模型或 TF-IDF 这样的词袋模型。

本研究项目的动机是识别和调查使用神经网络的技术，并将它们与传统文本特征提取模型放在一起来进行研究，以展示它们方法上的不同。

文本特征提取可以用于多种不同的应用，包括但不限于：无监督语义相似度检测、文章分类和情感分析。

本项目的目标是记录使用神经网络从文本数据中进行特征提取这一领域的不同之处、优点和缺点。另外还描述了这些技术随时间的演化。

本报告可被工程师用作快速查询表，可用来寻找构建文本分类的方法或回归流程，正如在第 15 节讨论的那样，可用于将用例对应到特定的特征提取实现上。

2 研究问题

问题 1：用于从文本中提取特征的相对简单的统计技术是什么？

问题 2：使用神经网络而非这些简单方法是否有什么固有的好处？

问题 3：相对于使用简单的方法，使用神经网络有怎样的权衡？

问题 4：在性能和准确度上，这些不同的技术之间有怎样的差异？

问题 5：在哪些用例中，这些权衡比神经网络的好处更重要？

3 方法

在第 2 节中列出的研究问题将通过调查一些这个主题的重要概述论文来解决 (Goldberg, 2016)(Bengio et al., 2003)(Morin and Bengio, 2005)。也会研究这个领域一些有突破性的研究论文，其中包括词嵌入 (Mikolov et al., 2013a)(Mikolov et al., 2013b)(Mikolov et al., 2013c).

除此之外，还将调查一些更不明显的特征提取方法，包括类似词性标注、词块、命名实体识别和语义角色标注等任务 (Socher et al., 2011)(Luong et al., 2013)(Maas et al., 2015)(Li et al., 2015)(Collobert et al., 2011)(Pennington et al., 2014).

4 背景

本节在计算语言学领域提供了关于这一任务的高层面的背景解读。

4.1 词性标注（Part-of-Speech Tagging）

词性标注的目标是用一个单独的标签标记每一个词，该标签表示了其句法作用，比如名词、动词、形容词等。

最好的 POS 标注器基于在文本窗（windows of text）上训练的分类器，然后在推理阶段再被送入一个双向解码算法。

总体来说，模型类似于一个双向依存性网络（bi-directional dependency network），而且可以使用多种方法进行训练，其中包括支持向量机和双向 Viterbi 解码器。

4.2 词块（Chunking）

词块的目标是通过名词或动词短语等句法成分来标记句子的分段。其也被称为浅层句法分析（shallow parsing），可以被看作是词性标注在短语层面（而非词层面）的泛化。

词块的实现通常需要一个底层的 POS 实现，然后这些词再被组合起来或通过连接（concatenation）进行分块。

4.3 命名实体识别（Named Entity Recognition）

NER 将一个句子中的基本元素标注到类别上，比如 PERSON 或 LOCATION。

训练 NER 分类器的特征包括 POS 标签、CHUNK 标签、前缀和后缀以及被标记实体的大型词典。

4.4 语义角色标注（Semantic Role Labeling）

SRL 的目标是为句子的句法成分分配语义角色。

当前最佳的 SRL 系统由多个阶段组成：产生一个解析树，识别哪个解析树节点表示了给定动词的参数，最后分类这些节点来计算对应的 SRL 标签。

SRL 系统通常会详细给出多个特征，比如词性和词的句法标签及在树中的节点、该动词在解析树中的句法路径、该解析树中的节点是否是名词或动词短语等的一部分。

5 文档向量化

文档向量化可被用来将文本内容转换成一个数值向量表征，该表征可被用作特征，然后其可被用来训练机器学习模型。本节探讨了几种用来计算这种特征向量的统计学方法 (John and Vechtomova, 2017)。

5.1 n-gram 模型

n-gram 是来自给定文本或语音序列的 n 项连续序列。给定一个完整的文档语料库，每个元组 n 个 gram，字符和词都被表示为一个比特向量（bit vector）中一个特定的比特；在与一个文本体（body of text）聚合时，其会形成一个稀疏的对该文本的向量化表征，采用了 n-gram 共现的形式。

5.2 TF-IDF 模型

即项频率-逆文档频率（term frequency - inverse document frequency），这是一种数值统计方法，目的是反映一个词对集合或语料库中的一个文档的重要程度 (Sparck Jones, 1972)。TF-IDF 的值会随一个词在该文档中所出现的次数的增长而线性增长，但也会被该词在该语料库中的出现频率而抵消，这有助于调节那些在一般情况下都常会出现的词。这是一个词袋模型，而且并不保存词的顺序。

5.3 段落向量模型（Paragraph Vector Model）

段落向量模型是由一个无监督学习算法构成的，其可以为可变长度的文本（比如句子或文档）学习到固定大小的向量表征（Le and Mikolov, 2014）。该向量表征可被学习用来预测从段落中采样的上下文中的周围的词。两种不同的实现都已经在社区中取得了突出表现：

Doc2Vec：一个用 Gensim 实现的 Python 库：https://radimrehurek.com/gensim/models/doc2vec.html

FastText：一个用 C++ 做的独立实现 (Bojanowski et al., 2016) (Joulin et al., 2016).

转载请注明出处。