社会焦点

技术大咖教你用TensorFlow为图片添加字幕(3)

字号+ 作者: 来源: 2017-05-13

但是,对于一个静态图片,我们的字幕生成器是关注图片里有利于分类的特征,而这并不一定是有利于字幕生成的特征。为了改进每个特征里与字幕相关的信息量,我们可以把这个图片向量模型(这个用来编码特征的VGG-16模

  但是,对于一个静态图片,我们的字幕生成器是关注图片里有利于分类的特征,而这并不一定是有利于字幕生成的特征。为了改进每个特征里与字幕相关的信息量,我们可以把这个图片向量模型(这个用来编码特征的VGG-16模型)作为整个字幕生成模型的一部分。这就可以让我们能更精细地调优图片编码器来更好地承担字幕生成的角色。

  而且,如果我们去仔细地观察生成的字幕,就会发现它们其实相当的模糊与普通化。用下面这个图片-字幕对为例:

  技术大咖教你用TensorFlow为图片添加字幕

  图5. 来源:Raul Puri,图片来自MS COCO数据集

  这个图片当然是“长颈鹿站立在树旁边”。但是如果看看其他的图片,我们就可能注意到它会对于任何有长颈鹿的图片都生成“长颈鹿站立在树旁边”,因为在训练集里,长颈鹿通常都出现在树的附近。

  下一步工作

  首先,如果你想改进这里介绍的模型,请阅读以下谷歌的开源“Show and Tell网络”。它可以用Inception-v3图片向量和MS COCO数据集来训练。

  目前最前沿的图片字幕模型包含了一个视觉注意力机制。可以让模型在生产字幕时,发现图片里的引起兴趣的区域来有选择地关注图片内容。

  同时,如果你有对最前沿的字幕生成器的实现感兴趣,请阅读这个论文《展示、关注和说出:使用视觉注意力的神经图片字幕生成》

  注意:别忘了访问GitHub上与这篇文章对应的Python代码和iPython notebook。

  这篇博文是O’Reilly和TensorFlow的合作产物。

  作者介绍:

  Raul Puri

  Paul Puri是加州大学伯克利分校CO 2017届毕业的本科生研究人员。Raul已经对多个领域的研究项目做出了贡献,包括但不限于:机器人和自动化、计算机视觉、医疗成图、生物记忆设备等。不过所有这些研究工作都专注于机器学习和机器学习系统在安全、自主驾驶、自然语言处理、计算机视觉和机器人里面的应用。Raul也非常热情于通过教授应用机器学习概念课程来回馈社会。他还是多门伯克利分校机器学习课程的助教和讲师。

  Daniel Ricciardelli

  Dan Ricciardelli是加州大学伯克利分校的一名本科生研究员。他的研究方向包括用于金融和工业的自然语言处理、计算机视觉、深度主动学习和自动知识发现。Dan在伯克利机器学习组织里非常热心于让机器学习能为技术及非技术学生和专业人员所接触。

  This article originally appeared in English: "Caption this, with TensorFlow".

  7月12-15日, 由O'Reilly和Cloudera共同举办的全球顶尖的数据盛会Strata Data Conference将重返中国

相关阅读:

  • windows下安装tensorflow
  • 用tensorflow训练自己的图片
  • 获取tensorflow的元素个数
  • 怎么样在线升级tensorflow版本
  • gpu lstm tensorflow keras
  • 在学tensorflow之前要学python吗
  • tensorflow基于lstm实现对话生成
  • google内部基于tensorflow的项目
  • 字幕下载
  • 中文字幕
  • 字幕网站
  • 相关推荐:

  • 华为史上最美操作系统,你绝对不能错过的EMUI5.0
  • 国产操作系统典范:deepin操作系统
  • 娱乐办公两不误!这个笔记本能把屏幕拔下来写字
  • 斗鱼响应新规加强监管,坚持打造优质精品直播
  • SpaceX 火箭爆炸原因确定:液态氧过冷成了固态
  • 华为Mate9中国版真机秀 你绝对没发现它有两种版本
  • 99%的人都不知道的微信高效使用术?
  • 乐视网一周蒸发88亿元 贾跃亭反思节奏发展过快
  • 似乎已经战胜传统渠道的小米 今年为什么被OPPO、vivo 打败?
  • 优雅商务风,性能一鸣惊人—TCL 950体验评测
  • 转载请注明出处。


    1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

    相关文章