社会焦点

全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe(4)

字号+ 作者: 来源: 2017-04-30

12 向量空间中词表征的有效估计(Efficient Estimation of Word Representations in Vector Space) 目标:本论文的主要目标是介绍可用于从数十亿词的巨型数据集(并且使用了数以百万计的词汇)中学习高质量词向量

  12 向量空间中词表征的有效估计(Efficient Estimation of Word Representations in Vector Space)

目标:本论文的主要目标是介绍可用于从数十亿词的巨型数据集(并且使用了数以百万计的词汇)中学习高质量词向量的技术(Mikolov et al., 2013a)。

挑战:在该神经网络的全连接输出层出现的复杂度占用了大部分计算。几种被认为可以改善这种情况的方法是使用 softmax 输出激活单元的层次化版本,或者避免在最后一层避免执行归一化。

描述:

  • 本论文提出的思想基于 (Bengio et al., 2003) 之前提出的思想。

  • 其目标是得到具有词的句法和语义特征的高质量词嵌入,使得能够使用代数运算来表示其在向量空间中的距离,比如 man ? woman = king ? queen 或 tell ? told = walk ? walked

  • 这里的训练时间是随被学习的特征向量的维度而增长的,而不是训练数据的量。

  • 该方法试图找到值的分布式向量表征,而非使用 LSA 和 LDA 等方法得到的值的连续表征。

  • 该模型是使用随机梯度下降和反向传播训练的。

  • 该 RNN 模型在本质上有对复杂模式的句子结构的更好的表征,而无需指定上下文的长度。

  • 为了实现数据的分布式训练,该模型中使用了多个 DistBelief 框架。使用了 Adagrad 来执行异步梯度下降。

  • 本论文概念化了两种用于基于语境的词向量训练的不同模型,这两者都是词的连续的分布式的表征,它们分别是:1)连续词袋模型(CBOW):该模型使用词的上下文(即这个词前后的词)来预测当前词;2)skip-gram 模型:该模型使用当前词来预测其所处的上下文。如图 3 所示:

  • 全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe

    图 3:CBOW 和 Skip-gram 模型

    其实验结果表明该 CBOW 和 Skip-gram 模型始终优于当时的最佳模型。其还观察到,当达到了一定程度后,再继续增加数据的维度和规模会开始带来反效果。

      13 词与短语及它们的组合的分布式表征(Distributed Representations of Words and Phrases and their Compositionality)

    目标:这篇论文基于 Word2Vec skip-gram 模型的思想,并提出了关于词嵌入的质量以及训练过程的加速的优化。它也提出了一种可替代层次 softmax 最后层的方法,被称为负采样(negative sampling)(Mikolov et al., 2013b)。

    描述:

    其建议的一种优化方法是下采样训练集的词,以实现模型训练的速度提升。

    给定一个训练词序列 [w1, w2, w3, ..., wT ],该 skip-gram 模型的目标是最大化其平均对数概率,如式子 3 所示:

    全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe

    其中 c 是窗口,即围绕被训练的当前词周围的上下文。

  • 正如 (Morin and Bengio, 2005) 中介绍的那样,一种计算高效的全 softmax 的近似是层次 softmax。该层次 softmax 使用了输出层一个二叉树表征,其中 W 词是其枝叶,并且对每一个节点都明显地表示了其子节点的相对概率。这些就定义了一种随机游走(random walk),可将概率分配给词。

  • 该论文的作者使用了二值霍夫曼树(binary Huffman tree),其可以将短码分配给常见的词,从而实现快速训练。据观察,在此之前,将词按它们出现的频率分组可以很好地用作基于神经网络的语言模型的加速技术。

  • 噪声对比估计(NCE)是层次 softmax 的一种替代方法,其设想一个好模型应该可以根据 logistic 回归的方法来区分数据和噪声。

  • 为了克服罕见词和常见词之间的不平衡,我们使用了一个简单的下采样方法:训练集中的每一个词都按照以下公式计算出的概率被丢弃:

  • 全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe

  • 这类似于网络中神经元的 dropout,尽管在统计学上,其更类似于使用这种方法从语料库中移除常见词。

  • 丢弃常出现的词可以减少计算和内存成本。

  • 可以使用 unigram 和 bigram 词频计数将单独的词合并成短语,如下所示

  • 全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe

  • 学习这些分布式表征的另一个有趣的性质是:由其 skip-gram 模型学习到的词表征和短语表征表现出了一种线性结构,使得其可以使用简单的向量运算来执行准确的类推推理。

  • 转载请注明出处。


    1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

    相关文章