社会焦点

全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe(5)

字号+ 作者: 来源: 2017-04-30

14 GloVe:用于词表征的全局向量(GloVe: Global Vectors for Word Representation) 目标:本论文提出了一种全局对数双线性回归模型(global log-bilinear regression model),其结合了该文献中两种主要模型族的

  14 GloVe:用于词表征的全局向量(GloVe: Global Vectors for Word Representation)

目标:本论文提出了一种全局对数双线性回归模型(global log-bilinear regression model),其结合了该文献中两种主要模型族的优势,它们是:全局矩阵分解和局部上下文窗口方法(Pennington et al., 2014)。

描述:

  • 尽管 LSA 这样的方法能有效地利用统计信息,但它们在词类比任务上的表现相对较差,这表明了它们次优的向量空间结构。skip-gram 这样的方法可能在词类比上表现更好,但它们在利用语料库的统计信息上表现并不好,因为它们是在分离的局部上下文窗口上训练的,而不是在全局的共现(co-occurrence)计数上训练的。

  • 任何任意词之间的关系可以通过研究它们的共现概率与多个探针词(probe word)之间的比例来检验。

  • 该论文的作者认为词向量学习的合适起点应该是共现概率的比例,而非概率本身。

  • 我们可以将这种共现关系表示成以下形式:

  • 全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe

    这使得该特征矩阵可与其转置互换。

  • 该算法中还包含了一个加法偏移:

  • 全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe

  • 其在计算该共现矩阵时,在避免分歧的同时又维持了 X 的稀疏性。

  • 该论文中所得到的模型可与全局的 skip-gram 模型进行比较,而非 (Mikolov et al., 2013a) 中提出的固定窗口大小的 skip-gram 模型。

  • 其表现似乎会随训练数据的增加而单调增加。

  • 15 讨论

    在进行了文献调查之后,本节再次回到原来的研究问题上,并根据这些原论文的实验结果和结论推导出了一些简明扼要的结论。

    问题 1:用于从文本中提取特征的相对简单的统计技术是什么?

    像 n-gram 这样的词频计数模型和像 TF-IDF 这样的简单词袋模型仍然是获取文本的数值向量表征的最简单的工具。

    问题 2:使用神经网络而非这些简单方法是否有什么固有的好处?

    使用神经网络的好处主要是它们有能力识别模糊的模式,并且可以在主题分类和句法解析树生成等许多应用领域保持灵活性。

    问题 3:相对于使用简单的方法,使用神经网络有怎样的权衡?

    其权衡主要考虑的是计算成本和内存使用,尽管模型复杂度也是一个因素,但基于此,神经网络可被训练学习任意复杂的生成模型。

    问题 4:在性能和准确度上,这些不同的技术之间有怎样的差异?

    因为各种应用各有千秋,所以这个问题的回答会有些主观性。通常而言,可以使用 TF-IDF 这样的简单的统计学方法来解决文档相似性问题。CNN 本质上是以迭代式地降维的方式来对输入数据建模,使得它非常适合主题分类和文档摘要等任务。RNN 非常擅长建模文本序列,这使得它们非常适合语言句法建模。在各种框架中,GloVe 的预训练词嵌入的表现优于 vanilla Word2Vec,其被认为是当前最佳的。

    问题 5:在哪些用例中,这些权衡比神经网络的好处更重要?

    正如上一个问题解释的那样,对于一些简单的信息检索用例(比如文档排序),TF-IDF 和 词 PMI(点互信息)就已经足够了。用不着在这样的应用中使用神经网络。

    16 总结

    本论文总结了最近几年涌现的最先进的神经网络技术的重要方面。当涉及到开发从简单的聊天机器人到通用人工智能实体概念化等一系列应用时,机器翻译、自然语言理解和自然语言生成的领域是重要的研究领域。

    在第 15 节的讨论部分总结了被调查论文的结果,并为新手进入该领域提供了一个直接可用的参考。

    对于未来的工作,我们打算实验性地比较不同的词嵌入方法,以作为迭代地构建高质量的用于未来机器学习模型使用的引导。

    致谢和参考文献(略)

      原文链接:https://arxiv.org/abs/1704.08531

      本文为机器之心编译,转载请联系本公众号获得授权

      ?------------------------------------------------

    加入机器之心(全职记者/实习生):hr@jiqizhixin.com

    投稿或寻求报道:editor@jiqizhixin.com

    广告&商务合作:bd@jiqizhixin.com

    相关阅读:

  • r语言文本挖掘实例
  • excel文本中提取数字
  • 文本特征提取算法
  • r语言人工神经网络模型
  • 易语言分割文本
  • 灰度共生矩阵特征提取原理
  • bp神经网络预测模型
  • 小波包提取特征向量
  • 概率神经网络 matlab代码
  • hog特征提取代码
  • lda主题模型文本分类及预测
  • 信号特征提取及其应用
  • 相关推荐:

  • 华为史上最美操作系统,你绝对不能错过的EMUI5.0
  • 国产操作系统典范:deepin操作系统
  • 娱乐办公两不误!这个笔记本能把屏幕拔下来写字
  • 斗鱼响应新规加强监管,坚持打造优质精品直播
  • SpaceX 火箭爆炸原因确定:液态氧过冷成了固态
  • 华为Mate9中国版真机秀 你绝对没发现它有两种版本
  • 99%的人都不知道的微信高效使用术?
  • 乐视网一周蒸发88亿元 贾跃亭反思节奏发展过快
  • 似乎已经战胜传统渠道的小米 今年为什么被OPPO、vivo 打败?
  • 优雅商务风,性能一鸣惊人—TCL 950体验评测
  • 转载请注明出处。


    1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

    相关文章