【NIPS 2017】Bengio 联合大牛发起对话智能挑战赛_

新智元编译

来源: deeppavlov.github.io

编译：刘小芹

　　新智元启动 2017 最新一轮大招聘：COO、总编、主笔、运营总监、视觉总监等８大职位全面开放。

　　新智元为COO和执行总编提供最高超百万的年薪激励；为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。加盟新智元，与人工智能业界领袖携手改变世界。

　　简历投递：jobs@aiera.com.cn HR 微信：13552313024

　　【新智元导读】NIPS 2017 发起对话智能公开挑战赛，组织者包括 Yoshua Bengio 等7人。挑战赛内容是创建一个可以与人类伙伴进行智能的对话的 chatbot，且所有评估后的对话将创建成开源数据集。本文介绍了挑战赛具体内容和时间。这会不会成为语音领域的“ImageNet”？期待中国学者的表现。

　　对话系统和会话代理（包括聊天机器人，个人助理和语音控制接口）在我们的日常生活中越来越普及。NIPS正在发起一场对话智能公开挑战赛，内容是创建一个可以与人类伙伴进行智能的对话的聊天机器人（chatbot）。

　　参与

　　可以组成团队参赛，也可注册作为“人类评估志愿者”参加。

　　挑战赛概览

　　机器学习最近的进展重新引发了研究界对对话系统的兴趣。对话系统的交互能力不仅在现实世界出现越来越多的应用，也与 AI 的总体目标密切相关。这项 NIPS 竞赛旨在联合社区进行一项具有挑战性的任务：创建能够进行智能的对话的系统。参赛队伍需要提交一个对话系统，该系统能够与人类就特定新闻事件进行智能的、使用自然语言的对话。在竞赛的最后阶段，参赛队伍和人类志愿者将随机匹配，一个bot和一个人类进行聊天，并评估对话质量。我们希望这项竞赛能带来两个主要的成果：（1）对state-of-the-art的对话系统提出一个衡量其性能的标准；（2）利用被评估的对话创建一个开源数据集。

　　时间安排

April, 2017开放注册。注册队伍可以为资格认证轮提交解决方案。

18th of June, 2017资格认证结束。

24th-30th of July, 2017 第一个数据集发布。公开人类评估报告收集的数据。队伍可以在第一个数据集上调整解决方案。

12th of November, 2017关闭提交会话代理通道。参赛队伍为 NIPS Live Competition 提交最终解决方案

20th of November - 3rd of December, 2017Pre-NIPS人类评估。参赛队伍和志愿者开始评估各队伍的解决方案，通过消息平台远程进行。

4th-9th of December, 2017NIPS对话智能直播挑战赛。参赛队伍，大会参与者和志愿者继续评估参赛队伍的解决方案。获奖者宣布。

　　竞赛规则

　　本挑战赛包含4轮

第1轮：资格认证。注册为参赛者需要提交一份申请，包含两部分内容：（1）描述方法细节和工作描述的提案，包括大事记，参考来源和其他相关信息（最多1页，参考页数不限），另外还需提供系统架构和相关的技术信息（最多2页）；（2）参考链接到在SQuAD或MS MARCO排行榜上的提交，或链接你的chatbot以便测试。提交结果于2017年6月18日截止，2017年6月25日前通知。

第2轮：人类评估轮。入选队伍成员将被邀请参加一个为期一周的 NLP 暑期学校研讨会，需要就各自的研究进行演讲。可以现场参加或远程参加。在这周里，队伍成员，暑期学校参加者，以及志愿者将对竞赛任务中提交的对话系统进行评估。在本轮结束后，为 NIPS 直播比赛选出最多10支队伍。每队必须在本轮比赛评估至少150场对话。评估通过消息平台远程进行。

第3轮：调整（turning）。在人类评估轮期间收集的评估对话数据集是开源的，参赛队伍可以使用这些数据集来调整他们的解决方案。

第4轮：NIPS 回合。在 NIPS 大会开始两周前，参赛队伍以及志愿者开始对提交的对话系统进行评估。NIPS开幕后，大会参与者将被邀请自愿评估在第3轮调整后的解决方案。最终评分在 NIPS 大会上发表。

　　任务

　　人类评估志愿者和对话机器人都需完成以下任务：

随机连接一个伙伴（peer）。伙伴可以是 chatbot 也可以是其他人类，伙伴的信息不会提供。
双方将得到有关最近的新闻的文章/维基百科文章。
与伙伴讨论文章的内容，时间长度自定。
选择另一篇新闻/维基百科文章和/或另一个伙伴。

　　评估

评估者不会得到有关伙伴（peer）身份的任何信息；
队伍成员将彼此自动排除对自己提交系统的评估；
每个回答（response）的评分在1到10的范围内；
整个对话的质量以广度和参与度评估，范围在0到10分；
最终评委是挑战赛期间每一轮评估的平均值。

　　技术架构

参赛者需以支持通用接口（API）的可执行文件或源代码形式提供解决方案。
这些解决方案将在隔离的虚拟环境（容器）中运行。
这些解决方案将无法访问任何外部服务或互联网，只能与 supervisor bot 沟通，以防止作弊。
master bot 将促进人类评估者与参赛者的解决方案之间的沟通，提供信息服务（Facebook/Telegram），主要功能是将参加者连接到（随机选择的）解决方案或伙伴，并记录评估过程。
master bot 将提供人类评估所提出的解决方案所需的提示和上下文。

　　数据集

　　竞赛期间收集的数据集将按照MIT的许可分发。

　　公开解决方案

　　参赛者必须在比赛结束后将其系统开源，因为挑战赛的目的是让社区在创造对话智能方面持续进步。团队预训练模型所使用的数据应可开放获取，或者为学术目的可获取。

　　奖金

　　待公布。

　　组织者

Mikhail Burtsev, Valentin Malykh, MIPT, 莫斯科

Ryan Lowe, 麦吉尔大学，蒙特利尔

Iulian Serban, Yoshua Bengio, 蒙特利尔大学，蒙特利尔

Alexander Rudnicky, Alan W. Black, 卡内基梅隆大学，匹兹堡

新智元招聘

转载请注明出处。