AI的未来是Cortana？微软AI负责人沈向洋：AI当前水平、技术难点、微软AI之路及如何面对人才挑战_

　　 AI的未来是Cortana？微软AI负责人沈向洋：AI当前水平、技术难点、微软AI之路及如何面对人才挑战

　　作者｜沈向洋

　　编辑｜尾尾

　　不管你承认与否，人工智能的时代即将到来（或许已经到来）。面对这个新风口，技术人应当如何自处，企业又该如何迎风而上？微软 AI 负责人沈向阳如是说。

　　编者按

017 年 5 月 10 日，在刚刚结束了 Microsoft Build 2017 大会的主题演讲后，微软人工智能及微软研究事业部负责人沈向洋博士（Harry Shum）接受了 InfoQ 等特邀媒体的采访。本文对此次采访的要点整理。

为什么现在人工智能这么火？沈向洋说：“云计算与日俱增的强大威力、运行于深度神经网络的强力算法，再加上今天能够获取到的海量数据，在这三股强大动力的交织驱动下，今天，我们终于有能力实现人工智能的梦想。人工智能拥有无穷的潜力，它有能力颠覆任何现有的垂直行业。”

那么，人工智能当前究竟发展到了什么水平？前进的路上技术难点在哪里？微软的人工智能之路是如何规划的，又是怎样面对人才竞争的呢？

　　如何看待人工智能？

在回答 InfoQ 记者提问时，沈向洋博士全面阐述了他对人工智能的理解：人工智能分为感知和认知两方面，感知方面已有重大进展，认知方面的还远远没有获得突破，但可解释的 AI 将在 5 年到 10 年获得重大突破。

　　为什么会有人工智能？

谈到人工智能，虽然大家在今天会激动的不得了——我自己也觉得——有些东西已经在发生了，但是，首先你要回过头来看，为什么会有人工智能？

人工智能是对于人类智能出来的，也就是 Human Intelligence。后来 60 年以前约翰·麦卡锡定义一个词叫 Artificial Intelligence，据说是麦卡锡真正提出这样一个智能的定义。

　　人工智能分为感知和认知两部分

为什么大家会觉得人有智能？其实，人的智能基本上分成两部分，一部分是感知，一部分是认知，而人工智能也是对应的。

　　感知方面有非常大的进展

感知里面最了不起的、最大的一部分就是视觉感知。

以前有人做过这样的研究，一个人 91% 的信息是从视觉收集过来的，我忘记了他用什么样的方法算出来这个数字，但大家基本上会同意这个观点：绝大多数感知都来自于视觉，然后是听觉，最后才是其他的感知。

我觉得这边的进展非常大，我一直讲，过去这一年我都在讲计算机语音识别也就是五年的事情，五年之内计算机语音，它可以识别，不管你怎么去讲它都能识别。接下来 10 年左右的时间我觉得计算机视觉也会达到这一点，今天视觉很多东西已经超过人，人脸识别。我讲的是是很泛泛的普遍认知，到一个新地方，看到一个新东西能够联想到什么，这些东西大概十年左右的时间可以实现。

　　认知方面远远没有获得突破

在认知方面，今天我们远远没有获得突破，都谈不上跟人类相比的地步。

首先是自然语言处理的问题，然后就是知识获取的问题。越来越多的人更应该去做这方面的工作。自然语言处理，我刚才也提到机器阅读，语言这个问题，相对来讲的确是比较复杂。用今天现有的方法，包括深度学习的方法，解出来的效果还不是足够好，当然用深度学习已经可以帮助到我们很多东西，比如像翻译也用了很多自然语言的东西。

更重要的，今天大家对整个“认知”这样的一件事情的定义，还在一个比较初级的阶段。

例如，什么叫做常识（Common Sense）？你怎么知道见到这个人以后，为什么会对他很有一种亲近的感觉？这些我们还不是很理解，而这是一个很大的问题。

稍微岔开一点讲，很重要的一个问题是，今天我们个人工智能做的这些东西，和脑科学的结合不够，理解也不够。很主要的原因就是对“智能”的很多东西，只有人脑这样一个范本，但人脑结构很特别，今天我们还不够理解。脑科学作为一门科学，今天也还处在一个早期的阶段，我们还不能做太多的实验，也不能随时把一个人的脑袋打开塞一些东西进去。

这个是一个长期的问题，现在越来越多的人也在想这样的问题——连接人工智能和脑科学。

　　认知方面，可解释的 AI 将做出非常了不起的成果

有一个方向让我们觉得是很激动人心：现在在微软研究院很多的人在做这方面的事情，我也跟很多大学有一些合作，就是所谓的“可解释的 AI”（Explainable AI）。我认为，Explainable AI 在接下来 5 到 10 年，肯定可以做出非常了不起的成果。今天我如果有研究生的话，我就会让他们做这个方向的工作，原因非常简单，因为今天 AI 最大的突破就是深度学习，但是深度学习的一个最大的问题就是，出来的结果非常好，但是你没法解释。

我自己看到的，这方面写得最好的一篇文章，是最近在《纽约客》的一篇有关医疗 AI 的。为什么看同一张图，医生会跟你讲，你没问题，原因是一、二、三。但今天 AI 还做不到这点，深度学习做不到这点，很大的问题是大家解问题的空间不一样，医生是在一个所谓的 neural，脑的这样一个连续的空间在解，而 AI 很多的理解是在符号的离散的空间上去做。

所以，如何把这些东西连起来，从技术上有讲有很多有待突破的地方，也是我们现在研究院很认真在做科研的一个方面。

　　微软在人工智能方面的进展

　　语音方面

首先，我们讲人工智能在语音方面的突破，人工智能在语音识别，语音合成上面最近都取得了非常瞩目的结果。2016 年 9 月，微软的对话语音识别技术在产业标准 Switchboard 语音识别基准测试中实现了词错率低至 6.3% 的突破，创造当时该领域内错误率最低纪录。一个月后，微软进一步将词错率降低至 5.9%，首次达成与专业速记员持平而优于绝大多数人的表现。

转载请注明出处。