前金山软件CEO张宏江：数据是AI公司最终的护城河

　　张宏江博士曾为前微软亚太研发集团首席技术官、微软亚洲工程院院长、金山软件CEO，去年年底从金山退休后，今年4月20日，他加盟源码资本，成为了投资合伙人。加入源码资本后，他在源码资本2017年码会上分享了自己的观点——“AI的本质与机遇”。

　　AI经过了60年，这已经是第三次浪潮。这一波潮流的起因什么？为什么这次浪潮带来的革新更加猛烈？深度学习的基本原理是什么，未来AI的应用将给我们带来什么影响？

　　作为投资人，张宏江更总结，对AI投资的判断中，产业链应包含：基础、技术，应用；而基础已经被巨头控制，技术层面能否出来一些公司还有待存疑，那么应用层的投资又有三个关键投资点的存在。

　　以下是张宏江博士的演讲全文，经黑智（VR-2014）编辑。

口述 | 张宏江

　　编辑 | 黑智（VR-2014）

今天，我们从AlphaGo讲起。我们的议题包括这一波AI潮流的原因是什么，机器学习的驱动燃料——大数据的发展，深度学习的基本原理，AI技术的发展给我们的日常生活，给我们的创意以及工作带来什么样的影响。最后是投资AI领域有什么样的机会以及陷阱，尤其是陷阱我会多讲。

从AlphaGo说起AI潮流：算法+计算力+大数据

　　典型的深度学习算法就是深层的神经网络；

　　AlphaGo在一场比赛中消耗的能量是人的300倍；

　　数据爆炸在过去十年改变了我们的生活。

这一波人工智能的热潮其实是从去年AlphaGo与围棋大师李石世对决开始的；虽然我从来不会下围棋，但我下了赌注赌AlphaGo会赢。

为什么我会下这个赌注？我们读过关于AlphaGo的文章，其实它是一个典型的深度学习的系统，它用了深度的神经网络，还用了深度学习里面的强化学习，半监督学习，还用了蒙特卡洛搜索的方法。

整体来说是经典的技术和新的机器学习算法结合在一块，从而能够提高算法的性能，使它的学习能力更强。通过增加深度学习网络的隐层神经元数目从而建立起很好的学习能力，吸收知识的能力。这是算法上。

其实在这个背后还有非常重要的两条，这是过去几十年计算机发展带来的结果。

第一条，互联网过去20年的发展带来了大数据，而且是高质量的大数据。以AlphaGo为例，在它跟李世石对局之前已经跟人类六到九段的棋手对决过一万六千多次，这个中间他获得了超过3000万的布局点，这个对于它的能力提高非常重要。它跟自己下棋的过程中又获得了3000多万个布局点，同时形成它的决策网络。这是我今天讲的重点，就是高质量大数据这一块。

第二条，高性能的计算资源。如果我们看一下最终AlphaGo拿出来跟李世石对局系统用了1920个CPUs，超过280个GPUs。这是什么意思？我们知道一个衡量围棋大师的标准是一到九段，而更细的平级是用ELO这个数。

用了1920个CPU，280个GPU以后AlphaGo的能力，ELO数，从一开始两千多到了三千多，我们看李世石的数字是3500个，其实已经相当接近了。正是因为有了高质量的大数据，有了高性能的计算资源，有了新的学习方法，使得AlphaGo能够轻松地战胜了围棋大师。而且我们说到一点是，当李世石艰苦赢了第四局之后，这个时候AlphaGo当天晚上又自己跟自己下了一百万次。

为什么这次AI的浪潮跟前两次不太一样？今天我们谈的AI其实谈的是大数据小的新的算法。计算资源这些年发展下来，随着摩尔定律的指引，计算性能增加是快速的成指数的增加，同时计算的成本也是随着指数往下走的，计算资源越来越强，价格越来越便宜，从而我们可以廉价地利用大量计算资源。

过去十年的另外一个根本性的变化，就是如果你自己不想买计算设备，你可以用云计算。我们看云那一块，大数据的处理能力在云计算的平台上已经以标准云服务的方式提供给大家，大家可以很方便低成本地使用。这是另外一个在计算方面的进步，根本改变了在机器学习只是在大公司来做的状态，今天小公司可以用云计算来做了。

回头来讲数据，这是我特别喜欢的题目。在AlphaGo之前，我就一直跟大家讲大数据，当然心里面是想推广金山云。但是大数据确实在过去十年内改变我们的工作、改变了我们的生活，改变了我们的思考。

IDC有过一个报告指出，在2013年的人类产生数据是4.4个ZB，到了2020年的话这个数字将会增加到44个ZB，增加10倍，年增长率是40%。今天每4小时沃尔玛用户产生数据超过2.5PB，每天Twitter产生推文有5亿条，今天今日头条的用户请求超过60亿次，每天头条处理数据量超过6.3PB，这是每天人们产生的数据。假如说这些数据又有很好的跟踪和标注，这些数据可以驱动人工智能，驱动人工智能的算法。

前金山软件CEO张宏江：数据是AI公司最终的护城河 | 投资人说

大数据：机器学习的驱动燃料

　　人脸数据库的进步大大提高了计算精度；

　　Jim Grey的科研四范式：从观察、实验到计算模型，到数据推动的模型；

　　大数据正在成为企业AI的标配。

讲一个人脸识别的例子。

今天大家觉得人脸识别已经过关了，一系列的公司在人脸识别上做的比人的识别率还要高。这个功能在手机上也已经做的非常好。之前一个人拍了很多照片，开始找这些照片的时候就发现比较麻烦了，但现在你想找某一个人，可能需要记住什么时候照的照片。但更方便的是记住了和哪些人照的照片，通过识别人脸能使得找照片变得非常容易。这种功能是我们20多年前的梦想，今天在手机上就可以做成了。

这是我手机上的一个屏幕，我自己的照片，我太太的照片，小孩的照片都在这儿。以前我工作的老板雷军照片也在上面。我一点，所有雷军照片全都出来了。我想看某一个具体的照片，这是雷军和戴尔电脑创始人Michael Dell的合影，还有和Dell团队的其他人的合影。我们看到手机把这些人名字自动标出来了，这个人是谁，那个人是谁，以后他所有的照片进来就全部能够识别了。这个在今天的品牌手机上都提供了这种功能。

我20年前在惠普实验室申请过一个美国专利。这个专利的内容恰恰就是我刚才所说的那个整个流程：拍了新的照片以后把它的数据库照片进行比较，从而识别出这个人是谁。在20年前我们很清楚移动设备计算能力有限，我们觉得这个处理的能力应该是分布式的计算，今天我们叫做云。20年过去，现在恰恰把20年前的事情变成现实，这个中间可以说是算法的进步，也可以说是计算资源的进步。

我实际上想跟大家说是人脸数据库的进步。

在20年前做人脸的时候，我们手里面拿到几百个标准的照片，今天我们拿到上亿张的照片。最早90年代的时候你只有几百个人，几百张照片的数据库，90年代末2000年的时候到了上千张、上万张照片，从而可以看到识别率的提高。到了工业时代，也就是5、6年前谷歌、Facebook分别用深度学习的方法做人脸识别，做训练的数据量比以前增加了非常多，使识别精度增加。

当用户的数据大量增长的时候，同一个算法的识别的精度也在快速的成长。而且当我用的计算量，CPU用得多的时候。性能也有快速的提高。所以这再次证明了刚才的观点，数据本身可能比算法还要重要。或者说没有这么多数据的时候根本不可能想象深度的神经网络。

再难的事情到了中国人手里面就有改善，世界上没有任何一个地方像中国有如此多的摄像头，如此多的头像和身份证的照片，就形成了中国的优势。今天不是两亿张照片，是几十亿张的照片，上亿被标注的人。只有有了大量数据之后你才可以用深度神经网络，才可以把这些内容、这些信息提取出来。

今天人脸识别的这些公司已经远远超过了人眼识别率，而且在世界上走在前列。当你在一张照片跟数据库进行比较这个人是不是你的时候，这种精度已经到了万率级的误差。基本上用摄像头以及算法，在中国最好什么坏事都不要做，哪怕在你的汽车里面，在加油站的时候拍了一张你的手放在不该放的地方，很快就会被传播出来，识别精度如此之准确的。

一年多以前微软亚洲研究院的孙剑带领着团队用了152层的神经网络作出了超过人类的图象识别精度的算法。再次想跟大家验证的是，当我们模型复杂度刚刚开始增加，从8层到152层的时候，我们看到计算量增加，看到持续的训练数据的增加。在2012年8层神经网络的时候，相应的神经元超过65万个，连接超过6亿。152层网络的时候神经元到了2200万，因为有新的算法，但参数调整更加准确，因为它的连接可以看到有113亿，我们大脑里面神经元的突触链接应该是一百万亿的。

人工智能的进展在很大意义上是从原来的传统建模、制定规则到今天依赖于数据机器学习的根本转变。这种转变恰恰是因为我们今天有了数据，覆盖度越来越好，精度越来越高，从而我们对模型的依赖比较低了，或者是说再复杂的模型都有足够数据训练。

过去的传统AI的算法或者是神经网络之所以不能够达到今天的精度，很大程度上是因为我们没有非常好的数据，从而依赖于某种模型，依赖于某种算法。在今天，我们已经在很大程度上覆盖整个样板空间的时候，我们数据如此之大，从而使得我们原来非常困难的问题，今天解决的非常好。

不同的算法的性能会随着数据量变化产生的变化，当数据量增加的时候它的精度也在迅速提高。但是你可能会问一个问题，是不是现在我们有足够多的数据，从而我们人工智能就能够覆盖所有的场景？去年发生第一起特斯拉伤人的事件，说明即使特斯拉这样每天有几十万辆车在路上跑，但是数据依然不够，依然在有些情况下出现死人的事故。

如果做数据库的人不知道Jim Grey，那基本上不应该跟别人说是做数据库的。Jim Grey他在十多年前就提出了人类在做科研的四个不同的范式。过去最早的纯粹基于观察和实验，百年前的理论模型，几十年前开始的计算模型，到今天数据推动的模型。过去十年大数据进展非常快，大数据已经开始在企业里面大规模的进行运用了。

美国一个咨询公司调查了300家3000人以上的公司，基本上60%的IT公司都在使用大数据了，只是说使用层次不一样。最早期是统计发生了什么，后来分析发生的事情，到今天预测怎么样发生。未来，大数据将洞察什么样的决策是好的商业决策，再进一步的认知真正落实到行动上，也就是自我学习的能力了。

英特尔这样老牌的公司今天在疯狂并购做AI或者创作数据的公司，比如说两个月以前以天价并购了一家以色列公司Mobileye。原因很简单，英特尔认为汽车其实是人类生活中能产生大量数据的设备，这些数据能够帮助数据使用者给人画像、判断一些商业应用。而这一切产生的过程、处理的过程由英特尔控制，这意味着它控制了另外一个新的平台，这是为什么英特尔在这方面投入这么大的资本。

讲完了计算和大数据。再回到一开始的所说的算法的进展。

深度学习的基本原理

　　大数据驱动的深度学习方式，是机器自主学习；

转载请注明出处。