张宏江：AI的应用与未来终将会代替超越人类(2)_

　　当用户的数据大量增长的时候，同一个算法的识别的精度也在快速的成长。而且当我用的计算量，CPU用得多的时候。性能也有快速的提高。所以这再次证明了刚才的观点，数据本身可能比算法还要重要。或者说没有这么多数据的时候根本不可能想象深度的神经网络。

　　再难的事情到了中国人手里面就有改善，世界上没有任何一个地方像中国有如此多的摄像头，如此多的头像和身份证的照片，就形成了中国的优势。今天不是两亿张照片，是几十亿张的照片，上亿被标注的人。只有有了大量数据之后你才可以用深度神经网络，才可以把这些内容、这些信息提取出来。

　　今天人脸识别的这些公司已经远远超过了人眼识别率，而且在世界上走在前列。当你在一张照片跟数据库进行比较这个人是不是你的时候，这种精度已经到了万率级的误差。基本上用摄像头以及算法，在中国最好什么坏事都不要做，哪怕在你的汽车里面，在加油站的时候拍了一张你的手放在不该放的地方，很快就会被传播出来，识别精度如此之准确的。

　　一年多以前微软亚洲研究院的孙剑带领着团队用了152层的神经网络作出了超过人类的图象识别精度的算法。再次想跟大家验证的是，当我们模型复杂度刚刚开始增加，从8层到152层的时候，我们看到计算量增加，看到持续的训练数据的增加。在2012年8层神经网络的时候，相应的神经元超过65万个，连接超过6亿。152层网络的时候神经元到了2200万，因为有新的算法，但参数调整更加准确，因为它的连接可以看到有113亿，我们大脑里面神经元的突触链接应该是一百万亿的。

　　人工智能的进展在很大意义上是从原来的传统建模、制定规则到今天依赖于数据机器学习的根本转变。这种转变恰恰是因为我们今天有了数据，覆盖度越来越好，精度越来越高，从而我们对模型的依赖比较低了，或者是说再复杂的模型都有足够数据训练。

　　过去的传统AI的算法或者是神经网络之所以不能够达到今天的精度，很大程度上是因为我们没有非常好的数据，从而依赖于某种模型，依赖于某种算法。在今天，我们已经在很大程度上覆盖整个样板空间的时候，我们数据如此之大，从而使得我们原来非常困难的问题，今天解决的非常好。

　　不同的算法的性能会随着数据量变化产生的变化，当数据量增加的时候它的精度也在迅速提高。但是你可能会问一个问题，是不是现在我们有足够多的数据，从而我们人工智能就能够覆盖所有的场景？去年发生第一起特斯拉伤人的事件，说明即使特斯拉这样每天有几十万辆车在路上跑，但是数据依然不够，依然在有些情况下出现死人的事故。

　　如果做数据库的人不知道Jim Grey，那基本上不应该跟别人说是做数据库的。Jim Grey他在十多年前就提出了人类在做科研的四个不同的范式。过去最早的纯粹基于观察和实验，百年前的理论模型，几十年前开始的计算模型，到今天数据推动的模型。过去十年大数据进展非常快，大数据已经开始在企业里面大规模的进行运用了。

　　美国一个咨询公司调查了300家3000人以上的公司，基本上60%的IT公司都在使用大数据了，只是说使用层次不一样。最早期是统计发生了什么，后来分析发生的事情，到今天预测怎么样发生。未来，大数据将洞察什么样的决策是好的商业决策，再进一步的认知真正落实到行动上，也就是自我学习的能力了。

　　英特尔这样老牌的公司今天在疯狂并购做AI或者创作数据的公司，比如说两个月以前以天价并购了一家以色列公司Mobileye。原因很简单，英特尔认为汽车其实是人类生活中能产生大量数据的设备，这些数据能够帮助数据使用者给人画像、判断一些商业应用。而这一切产生的过程、处理的过程由英特尔控制，这意味着它控制了另外一个新的平台，这是为什么英特尔在这方面投入这么大的资本。

　　讲完了计算和大数据。再回到一开始的所说的算法的进展。

　　3、深度学习的基本原理

　　大数据驱动的深度学习方式，是机器自主学习；深度学习第三次浪潮的特征：大数据+强计算+新算法。

　　AI做了60年，终于迎来了第三次浪潮，这次浪潮看起来比前面两次浪潮来得更猛烈，而且解决的问题比以前更多。很重要的是，我们用的深度学习的方式与传统的专家系统方式有很大的不一样。专家系统的方式是人总结规则，然后把规则交给机器，机器来开始利用这个规则面对使用场景。深度学习方式，大数据来驱动的是机器自己来学习的。好处是机器本身具有学习能力，所以可以较容易地从一个应用扩展到另外一个应用。

　　过去的十年，恰恰是深度学习迅速发展的十年。2006年Hinton在Nature发表文章，标志了深度学习这个词诞生。2010年随着大数据的爆发，深度学习热潮开始兴起。2012年Hinton这个团队用CNN模型以超过第二名10个百分点的成绩夺得当年竞赛冠军。到了2016年的AlphaGo，人们对深度学习的能力没有怀疑了，深度学习将会改变人类，这是一个新的时代的到来。

　　深度学习，到底是什么样的东西？神经网络这件事其实在第二次浪潮（80-90年代）就已经开始了，大家已经用过了，80年代-90年代初，神经网络泛滥的一塌糊涂。那个时候数据量不够，就是输入层、输入层、隐含层。另外一个根本改变是今天的设备、速率如此之强大。

　　为什么深度学习方法不一样了？首先是一开始的原理就是神经网络，类似大脑的思考原理。人类大脑大概有1000亿个神经元，在这些神经元之间有超过一百万亿的连接。神经元的数字还有连接的数字，是人智力很重要的标志。一个具体的神经元就是有一个核加上一个突触链，我们根据这种原理做模拟神经元。并且将它跟别的神经元的连接。经过一个非线性的函数，从而转成一个输出。输出的信号就是你所需要的结果。当神经元多了的时候，或者层数多的时候显然需要的训练数据就要更多。

　　为什么大数据实际上是深度学习驱动力？以前模拟系统来做的神经元，用物理模拟机器来做这个复杂度，不可能做到一亿的神经元，不可能做到一百万亿的连接。但是今天我们用计算机能够做到。深度学习是什么意思？很简单，深度学习就是层数比较多的神经网络。每一次训练你输出一系列的数据，当实际输出和目标函数有一定的差距，这个差距反馈回去再进行训练，这是整个循环的过程。

　　4、AI的发展与影响

　　AI的应用与未来：辅助人，代替人，超越人；机器将造成未来社会出现90%的闲人，但机器难以替代资本家、艺术家和手艺人；

　　机器在感知上超越了人类，但在认知上还要5-10年。

转载请注明出处。