讲堂| 刘铁岩：人工智能的挑战与机遇(2)_

面对这样的情况，更有意义的事情可能是冷静下来，去从事一些能够改变人工智能现状以及未来的很本质的基础研究工作，甚至是去反思人工智能发展的路线图，看看我们是不是应该重启一条道路。这些事情才能使得我们不仅仅是随波逐流，不仅仅是变点现，骗点钱，而是在人工智能发展的真正道路上留下我们自己的足迹，过了几十年当大家回忆的时候，另外一个人站在台上讲述人工智能一百年的时候，他会在那个图上标着一个星星，那里面讲的是你的故事。

前面这些人工智能现象的背后是什么？说到技术层面，现在最火的两个词，一个叫Deep Learning（深度学习），一个叫Reinforcement Learning（增强学习）。深度学习是什么？通俗地讲，它就是一个端到端的学习，我们不需要一些feature engineering，而是用一个非常复杂的、容量很大的模型去直接拟合输入输出，让模型自己探索有意义的中间表达。

什么是增强学习？通俗地讲，就是学习机器不断地跟环境做自主的互动，在互动的过程中用长远的收益来指导当下该做什么决策，通过不断的跟环境互动去调整决策的最优性。

讲堂| 刘铁岩：人工智能的挑战与机遇

之所以现在深度学习和增强学习能够取得很大的成功，背后有一个很大的原因，就是基于巨大的数据和巨大的运算量训练出的拥有巨大容量的模型，所以它们的成功离不开硬件系统，这也是为什么现在GPU这么火，包括云计算、多机协作已经成了我们必不可少的环节。

这是现在人工智能的现状。面对这样的现状，我们是按照大家指定的这条道路去走，多搞几个GPU去训练一些模型跟别人PK，还是反思一下这条路对不对，有没有什么问题，接下来我想跟大家讨论的就是人工智能的诸多问题。我只列了一些其中的代表，但其实问题远远不止这些。

第一件事，现今的人工智能技术，尤其是以深度学习为代表的，需要大量的标注数据，来让我们能够训练一个有效的模型，它不太依赖于人的先验知识，要learning from scratch。如果想从零开始学习就需要有大量的样本提供规律。比如，图像分类，现在通常会用上千万张图像来训练；语音识别，成千上万小时的有标注的语音数据；机器翻译一般都是在千万量级的双语语对上去做训练，这样的数据之前是不可想象的，但是我们这个时代是大数据时代，所以有了这些数据，就使得深度学习训练成为了可能。但这是不是一剂万能的灵药呢？其实在很多领域里是不可能或者是很难获得类似的数据的。比如医疗上面，很多疑难杂症，全世界也没有几例，那怎么能够对这个类别搜集大数据。所以从这个意义上讲，如果我们能够找到一种方法克服对大的标注数据的需求，我们才能够使得现在的人工智能技术突破目前数据给它划定的边界，才能够深入到更多的领域里面去。

第二个挑战是关于模型大小以及模型训练难度的问题，前面提到了深度神经网络有很多层，而且一般参数都很大，几十亿的参数是家常便饭。面对这样的网络，至少有两个困难，一个是我们经常提到的梯度消减和梯度爆炸的问题，当深层网络有非常多层次的时候，输出层和标签之间运算出来的残差或者是损失函数，是很难有效地传递到底层去的。所以在用这种反向传播训练的时候，底层的网络参数通常不太容易被很有效的训练，表现不好。人们发明了各种各样的手段来解决它，比如加一些skip-level connection，像我们微软亚洲研究院发明的ResNet技术就是做这件事情的，还有很多各种各样的技巧。但这些其实都只是去解决问题的技巧，回过头来，原来的这个问题本身是不是必要的，是需要我们反思的。

再有就是模型爆炸。前面说了几十亿的参数是家常便饭，几十亿甚至上百亿个参数意味着什么，意味着模型本身的存储量是非常大的。举一个简单的例子，如果我们用神经网络来做语言模型，给出的训练数据集是Clueweb整个网络上的网页，大概有十亿个网页的量级。这样的一个数据，如果要去用循环神经网络去训练一个语言模型，简单计算一下就会知道，它需要用到的模型的大小大概是80G到100G的大小，听起来好像不太大，但是现在主流的GPU板上的存储24G已经算是高配，换句话说，80G到100G的大小已经远远超过一个GPU卡的容量，那么就一定要做分布式的运算，还要做模型并行，有很多技术难度在里面。即便有一个GPU卡，能够放下这80G或100G的模型，如此大的训练数据过一遍也可能要用上百年的时间，这听起来也相当不靠谱。到底需不需要这么大的模型，有没有必要我们非要把自己放在一个内存也不够用，计算时间也非常长，也不能忍受的境地呢，这个是值得思考的问题。

讲堂| 刘铁岩：人工智能的挑战与机遇

说到大模型，标注数据很大，那必然要提到分布式运算，分布式运算听起来是一个相对成熟的领域，因为系统领域已经对分布式计算研究了很多年。但是回到我们分布式机器学习这件事情上是有所不同的：这里我们做分布式运算的目的是为了让我们能够用更多的资源来容纳更大的模型，使得运算的时间缩短到能接受的程度，但是我们不想丢掉运算的精度。

举个例子，原来用上百年的时间可以得到一个非常精准的语言模型，现在有100台机器，虽然算的很快，但出来的语言模型不能用了，这件得不偿失。

说到分布式运算有两个主流的方式，一个是同步的并行方式，一个是异步的并行方式。同步的并行方式是什么，就是很多机器都分了一个子任务，大家每计算一步之后要互相等待，交换一下计算的结果，然后再往前走。这个过程能够保证对整个分布式运算的流程是可控的，可以知道发生了什么，在数学上可以做建模，能够在理论上有所保证。但它的问题就是所谓的木桶原理，这个集群里面只要有一台机器很慢，分布式运算就会被这台机器拖垮，就不会得到好的加速比。

转载请注明出处。