社会焦点

资源 | MIT自然语言处理数据集和语料库集合

字号+ 作者: 来源: 2017-03-22

资源 | MIT自然语言处理数据集和语料库集合,存储过程 数据集,cifar10数据集,kdd99数据集怎样处理,国家语言资源监测语料库

  项目地址:https://github.com/karthikncode/nlp-datasets

  范围

问答系统

对话系统

面向目标的对话系统

  问答系统

  :人工生成的机器阅读理解数据集,来自微软,2016。

  论文:https://arxiv.org/abs/1611.09268

  数据:

  NewsQA:Maluuba 的机器理解数据集,2016。

  论文:https://arxiv.org/abs/1611.09830

  数据:https://github.com/Maluuba/newsqa

  SQuAD:超过 100,000 个问题和其机器理解文本的数据集,由斯坦福大学推出,2016。

  论文:https://arxiv.org/abs/1606.05250

  数据:https://rajpurkar.github.io/SQuAD-explorer/

  GraphQuestions:一个特征丰富的事实性问题回答数据集,来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016。

  论文:

  数据:https://github.com/ysu1989/GraphQuestions

  Story Cloze:一个常见故事的语料库和有关故事的总结性语句,来自美国罗切斯特大学,2016。

  论文:https://arxiv.org/abs/1604.01696

  数据:

Children's Book Test:金发女孩原则(当给定样品的一些属性可以从一个极端到另一个极端(例如从极冷至极热)的尺度分布时,一些数据将落在这些极端之间): 以内存显式方式表示的儿童图书,2015。

  论文:https://arxiv.org/abs/1511.02301

  数据:

  SimpleQuestions:大量使用记忆网络的简单问答数据,2015。

  论文:https://arxiv.org/pdf/1506.02075v1.pdf

  数据:。

  WikiQA:一个开放问题与回答的挑战数据集,由微软推出,2015。

  论文:

  数据:

  CNN-DailyMail:用于训练机器进行阅读理解任务的数据集,2015。

  论文:https://arxiv.org/abs/1506.03340

  代码:https://github.com/deepmind/rc-data

  数据:~kcho/DMQA/。

  QuizBowl:一个神经网络,用于长段回答事实问题,来自马里兰大学,2014。

  论文:

  数据:

  MCTest:一个用于开放问题机器理解文本的数据集,来自微软,2013。

  论文:

  数据:

  QASent:Jeopardy 模型?一个用于机器问答的准同步语法数据集,2007。

  论文:

  数据:

  对话系统

  Ubuntu Dialogue Corpus:一个用于非结构化多回路对话系统研究的大型数据集,2015。

  论文:https://arxiv.org/abs/1506.08909

  数据:

  面向目标的对话系统

  Frames:用于向面向目标的对话系统加入记忆的语料库,Maluuba,2016。

  论文:

  数据:

  DSTC 2 & 3:对话状态跟踪挑战(Dialog State Tracking Challenge)2 和 3,2013。

  论文:

  数据:~mh521/dstc/

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章