全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe(3)_

　　9 一种用于段落和文档的层次神经自编码器（A Hierarchical Neural Autoencoder for Paragraphs and Documents）

目标：试图根据基本的词嵌入和句子嵌入来构建段落嵌入，然后基于编码该段落嵌入以试图重构原段落（Li et al., 2015）。

描述：

该实现使用了一个 LSTM 层来将词转换成句子的向量表示。一个后续的 LSTM 层将多个句子转换成一个段落。

为了实现这一点，我们需要在创建嵌入表示时保留句法、语义和对话的相关属性。

使用了层次 LSTM 来保存句子结构。

使用给定输入的输出的最大化似然来评估参数，类似于标准的序列到序列模型。

评估是使用 softmax 函数计算的，以最大化组成词的似然。

使用层次自编码器的注意（attention）模型可用于对话系统，因为其为对话进行了明确的建模。

　　10 在连续空间词表征中的语言规律（Linguistic Regularities in Continuous Space Word Representations）

目标：在本论文中，作者调查了被输入层权重明确学习到的向量空间词表征。这些表征非常擅长得到语言中的句法和语义规律，而且每一个关系都可以使用一个关系特定的向量偏移（vector offset）来特征化。这允许基于词之间的偏移（Mikolov et al., 2013c）来实现向量导向的推理。这是导致了 Word2Vec 的诞生的创新论文之一，这是一种当前最佳的词嵌入工具（Mikolov et al., 2013a）。

描述：

神经网络语言模型的一个定义特征是它们的词表征，是高维的实值向量（real-valued vector）。

在这个模型中，词被一些学习到的查找表（lookup-table）转换成实值向量，这些向量被用作一个神经网络的输入。

这些模型的一个主要优势是其分布式表征实现了一定水平的泛化，而使用经典的 n-gram 语言模型是不可能办到的。

本论文中的词表征是通过一个循环神经网络语言模型学习到的。

输入向量 w(t) 表示在时间 t 的输入词，使用了 1-of-N 编码，输出层 y(t) 可以得到词上面的一个概率分布。隐藏层 s(t) 维持一个对其句子历史的表征。输入向量 w(t) 和输出向量 y(t) 具有和词汇表一样的维度。

隐藏层和输出层的值通过如下方式计算：

全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe

图 1：RNN 语言模型

拥有实值特征表征的最大特点之一是能够计算类比问题 a : b; c : d 的答案，其中 d 是未知的。使用连续空间词表征，这可以变得像计算 y = xb ? xa + xc 一样简单，其中 y 是该模型所能计算出 d 的最佳估计。如果在被训练的词之中没有向量，则 y == xw，那么最近邻的向量表征可以使用余弦相似度估计出来：

全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe

　　11 使用用于形态学的递归神经网络的更好的词表征（Better Word Representations with Recursive Neural Networks for Morphology）

目标：本论文旨在解决复杂词和罕见词的向量表示中的不准确问题，这个问题被认为是由形态上相关的词之间的关系的缺乏而导致的（Luong et al., 2013）。

描述：

该论文的作者将 RNN 中的每个词素（morpheme）都看作是一个基本单元，并根据它们的词素为形态复杂的词在工作过程中构建表征。通过训练一个神经语言模型（NLM）和用于复杂词的集成 RNN 结构，他们使用语境信息学习词素语义及它们的组合性质。

讨论了这样一个问题：如果一开始罕见词的向量表征就是不准确的，那么 xapples ? xapple ≈ xcars ? xcar 这样的 Word2Vec 句法关系就不是正确的。

morphoRNN 运行在词素水平上，而非词水平上。例子可见图 2.

父词（parent word）是通过将词干向量和词缀向量结合起来创造的，如式 1 所示。

全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe

　　图 2：morphoRNN

其成本函数是关于新构建的表征 pc(xi) 和参考表征 pr(xi) 之间的平方欧几里德损失（squared Euclidean loss）。该损失函数见式子 2.

全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe

对语境敏感和不敏感的 Morphological RNN 版本都在本论文中得到了描述。

类似于经典的 RNN，该网络也是通过在一个前向通过的架构中计算激活函数和反向传播误差来进行训练的。

这个 RNN 模型的表现优于其它大多数自然语言处理模型，可以被用于补充词向量。

转载请注明出处。