全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe(2)_

　　6 用于自然语言处理的神经网络模型入门（A Primer of Neural Net Models for NLP(Goldberg, 2016)）

全连接的前馈神经网络是非线性学习器，其可在使用了线性学习器的地方随时替换。

在实验结果上观察到的高准确度是由这种非线性与预训练的词嵌入所共同导致的。

多层前馈网络可以在情感分类和事实性问答上实现有竞争力的表现。

卷积和池化架构在许多任务上都得到了有潜力的结果，其中包括：文档分类、短文本归类、情感分类、实体之间关系类型分类、事件检测、释义识别、语义角色标注、问答、基于评论预测电影票房收入、建模文本兴趣和建模字符序列与词性标签之间的关系。

卷积和池化架构让我们可以将任意大的项编码成固定大小的向量，该向量捕获了它们最突出的特征，但这样它们也牺牲了大多数的结构信息。

循环和递归网络允许在使用序列和树的同时保留结构信息。

循环模型已经表明可以为语言建模得到非常强大的结果，另外还可用于序列标注、机器翻译、依存句法分析、情感分析、噪声文本规范化、对话状态跟踪、响应生成和建模字符序列与词性标签之间的关系。

递归模型已被证明能在 constituency 和依存句法分析再排序、对话解析、语义关系分类、基于解析树的政治意识形态检测、情感分类、目标依赖情感分类和问答方面得到当前最佳和近乎最佳的结果。

卷积网络已被观察到可有效地用于归纳相关任务，在语言建模任务上能得到与循环/递归网络同样的好效果。

7 一种神经概率语言模型（A Neural Probabilistic Language Model）

目标：如果了解一个句子的基本结构，那么其就能通过可互换短语替代原句的一部分而创造一个新句子（Bengio et al., 2003）。

挑战：主要的瓶颈是计算输出层的激活函数，因为该输出层是一个由 softmax 激活函数组成的全连接层。

描述：

本论文在优化算法方面的主要贡献是数据并行处理（不同的处理器处理不同的数据子集）和共享内存异步处理器的使用。

论文作者们提出通过学习词的分布式表征克服维度灾难，这种词的分布式表征允许每一个训练句子通过表示相邻句语义的指数反馈给模型。

令语言建模和其他学习问题变得困难的根本问题在于维度灾难。这在构建拥有许多离散随机变量（如句子中的词）之间的联合分布式时特别明显。

当前最佳的结果通常由使用 trigrams 获得的。

可以通过共享参数的多层神经网络替代现有句子的相似语义的语言结构而生成新句子。

本论文的目标是获得词向量序列的实数值，并学习沿特征向量相关的词序列的联合概率函数，从而学习实数值向量的表征和参数的概率分布。

概率函数可以调整而最大化训练数据的对数似然性，同时惩罚成本函数的方法与 Ridge 回归所使用的罚项一样。

这将确保语义相似的词最终具有几乎相等的特征向量，这称为学习分布特征向量。

对离散型变量建模，如将句子结构和连续值做对照，连续型函数可以假设其存在某些形式的局部性，但相似的假设不能在离散型函数中存在。

N-gram 模型通过计算每一个词（可以跟随一组 n 个预测词）的条件概率而实现对语言的概率建模。

可以通过将流行算法有效组合而生成新的词序列。如 n-grams 和超高的词频计数相结合。

　　8 层级概率神经网络语言模型（Hierarchical Probabilistic Neural Network Language Model）

目标：在训练和识别期间，实现条件概率的层次结构分解能得到约为 200 的加速。层次结构分解是从 WordNet 语义层次结构提取且有先验知识约束的二元层级层级聚类（Morin and Bengio, 2005）。https://wordnet.princeton.edu/

描述：

与上一篇论文相似，该论文尝试解决「维度灾难（curse of dimensionality，第 7 节）」，并尝试产生一个更快的变体。

Back-off n-grams 是用来学习表征每一个词的实值向量。

所学习的词嵌入在分布式架构中所有参与的节点之间共享。

整个模型非常重要的组成部分是选择词的二值编码，即分层词聚类的选择。在本论文中，作者们将经验统计和 WordNet 资源的先验知识

转载请注明出处。