资源 | MIT自然语言处理数据集和语料库集合_

　　项目地址：https://github.com/karthikncode/nlp-datasets

　　范围

问答系统

对话系统

面向目标的对话系统

　　问答系统

　　：人工生成的机器阅读理解数据集，来自微软，2016。

　　论文：https://arxiv.org/abs/1611.09268

　　数据：

　　NewsQA：Maluuba 的机器理解数据集，2016。

　　论文：https://arxiv.org/abs/1611.09830

　　数据：https://github.com/Maluuba/newsqa

　　SQuAD：超过 100,000 个问题和其机器理解文本的数据集，由斯坦福大学推出，2016。

　　论文：https://arxiv.org/abs/1606.05250

　　数据：https://rajpurkar.github.io/SQuAD-explorer/

　　GraphQuestions：一个特征丰富的事实性问题回答数据集，来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》，2016。

　　论文：

　　数据：https://github.com/ysu1989/GraphQuestions

　　Story Cloze：一个常见故事的语料库和有关故事的总结性语句，来自美国罗切斯特大学，2016。

　　论文：https://arxiv.org/abs/1604.01696

　　数据：

Children's Book Test：金发女孩原则（当给定样品的一些属性可以从一个极端到另一个极端（例如从极冷至极热）的尺度分布时，一些数据将落在这些极端之间）: 以内存显式方式表示的儿童图书，2015。

　　论文：https://arxiv.org/abs/1511.02301

　　数据：

　　SimpleQuestions：大量使用记忆网络的简单问答数据，2015。

　　论文：https://arxiv.org/pdf/1506.02075v1.pdf

　　数据：。

　　WikiQA：一个开放问题与回答的挑战数据集，由微软推出，2015。

　　论文：

　　数据：

　　CNN-DailyMail：用于训练机器进行阅读理解任务的数据集，2015。

　　论文：https://arxiv.org/abs/1506.03340

　　代码：https://github.com/deepmind/rc-data

　　数据：~kcho/DMQA/。

　　QuizBowl：一个神经网络，用于长段回答事实问题，来自马里兰大学，2014。

　　论文：

　　数据：

　　MCTest：一个用于开放问题机器理解文本的数据集，来自微软，2013。

　　论文：

　　数据：

　　QASent：Jeopardy 模型？一个用于机器问答的准同步语法数据集，2007。

　　论文：

　　数据：

　　对话系统

　　Ubuntu Dialogue Corpus：一个用于非结构化多回路对话系统研究的大型数据集，2015。

　　论文：https://arxiv.org/abs/1506.08909

　　数据：

　　面向目标的对话系统

　　Frames：用于向面向目标的对话系统加入记忆的语料库，Maluuba，2016。

　　论文：

　　数据：

　　DSTC 2 & 3：对话状态跟踪挑战（Dialog State Tracking Challenge）2 和 3，2013。

　　论文：

　　数据：~mh521/dstc/

转载请注明出处。