从短句到长文，计算机如何学习阅读理解(3)_

　　从短句到长文，计算机如何学习阅读理解

微软亚洲研究院提出的R-NET算法的网络结构图。其中最为独特的部分是第三层文章的自匹配网络（Self-Matching Networks），告。

关于这项研究的论文已经被ACL 2017录用，并获得审稿者的一致好评。

SQuAD数据集于2016年9月份发布了正式版。一经推出，微软亚洲研究院自然语言计算研究组就敏锐地判断这是一个非常重要的数据集，将会极大地推动机器阅读理解的研究，并将在研究界和工业界产生积极深远的影响。10月，研究团队就第一次提交了他们的研究成果，并且取得了第一名的好成绩，而后续几个月的数次提交，则是在不断地刷新着自己的成绩。对于研究团队来说，这其实是一个试错的过程，团队每天都会讨论总结当天的试错成果，有新的想法就不断尝试。

　　未来的方向

提及机器阅读理解未来值得探索的方向，韦福如分享了他的三点看法。他认为一方面基于深度学习的算法和模型还有很大的空间，适合机器阅读理解的网络结构值得在SQuAD类似的数据集上进一步尝试和验证。具体来说，通过对R-NET目前处理不好的问题的进一步分析，能否提出可以对复杂推理进行有效建模，以及能把常识和外部知识（比如知识库）有效利用起来的深度学习网络，是目前很有意义的研究课题。另外，目前基于深度学习的阅读理解模型都是黑盒的，很难直观地表示机器进行阅读理解的过程和结果，因而可解释性的深度学习模型也将是很有趣的研究方向。

其次，人类理解文本的能力是多维度的，结合多任务（尤其是阅读理解相关的任务，例如阅读理解之后进行摘要和问答）的模型非常值得关注和期待。更进一步，虽然SQuAD提供了比较大的人工标注数据集，如何有效且高效地使用未标注的数据也是非常值得期待的研究课题和方向。最后从任务上看，目前SQuAD的任务定义中答案是原文的某个子片段，而实际中人可能读完文章之后需要进行更复杂的推理、并组织新的文字表达出来。

“目前我们的算法基本都是抽取型的方式，未来生成型的算法也值得更多的探索和研究。另外，目前机器阅读理解关注的都是理解客观信息的能力，未来机器理解文字里面所表达出来的主观信息（例如情感）也是非常有趣并值得关注的方向。”韦福如说道。

你也许还想看：

微软发布MS MARCO数据集，提高计算机阅读理解能力

【研究员视角】大牛带你读论文|自然语言处理

微软人工智能的下一个新征程

　　感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。微软小冰进驻微软研究院微信啦！快去主页和她聊聊天吧。

从短句到长文，计算机如何学习阅读理解(3)

相关阅读：

相关推荐：