讲堂| 刘铁岩：人工智能的挑战与机遇(3)_

所以人们开始做异步的并行方式，异步的意思就是每台机器各自做自己的事情，互相不等待，把当前按照各自的数据训练出来的模型更新推到某一个服务器上，再更新整体模型。但这时候又出现了一个新的问题，就是乱序更新的问题，这个过程是不能被我们原来的数学模型所描述的，违背了优化技术的一些基本假设。比如当我们使用随机梯度下降法的时候，可以证明当时用一个不断减小的学习率时，优化过程是有收敛性的。这是因为我们每一次增加的那个梯度是在上一次计算的模型基础上算出来的梯度。一旦加上去的梯度可能是旧的，不是依据前一个模型算出来的，到底优化过还能不能收敛，就不那么清楚了，所以虽然速度快，精度却可能没有保证。

第四个，我把它叫做调参黑科技，难言之隐。这件事情特别有趣，我前一段时间参加过一个论坛，一位嘉宾的一句话给我印象特别深，他说大家知道为什么现在很多公司都有深度学习实验室吗，以前没听说过有一个叫支持向量机实验室的，为什么？这是因为像SVM这样的技术训练过程非常简单，需要调节的超参数很少，基本上只要按部就班去做，得到的结果都差不多。

但深度学习这件事情，如果不来点调参黑科技，就得不到想要的结果。所谓深度学习实验室，就是一批会调参的人，没有他们深度学习就没那么好用。虽然是句玩笑，但是深度学习力要调的东西确实太多了，比如说训练数据怎么来，怎么选，如果是分布式运算怎么划分，神经网络结构怎么设计，10层、100层还是1000层，各层之间如何连接，模型更新的规则是什么，学习率怎么设，如果是分布式运算各个机器运算出来的结果怎么聚合，怎么得到统一的模型，等等，太多需要调的东西，一个地方调不好，结果可能就大相径庭。这就是为什么很多论文里的结果是不能重现的，不是说论文一定不对，但至少人家没有把怎么调参告诉你，他只告诉了你模型长什么样而已。

下一个挑战，叫做黑箱算法，不明就里。这不仅仅是神经网络的问题，更是统计机器学习多年来一直的顽疾，就是用一个表达能力很强的黑盒子来拟合想要研究的问题，里面参数很多。这样一个复杂的黑盒子去做拟合的时候，结果好，皆大欢喜。如果结果不好，出现了反例，该怎么解决呢，这里面几亿、几十亿个参数，是谁出了问题呢，其实是非常难排错的事情。相反，以前有很多基于逻辑推理的方法，虽然效果没有神经网络好，但是我们知道每一步是为什么做了决策，容易分析、排错。所以最近几年有一个趋势，就是把基于统计学习的方法和基于符号计算的方法进行结合，造出一个灰盒子，它既具备很强的学习能力，又能在很大程度上是可理解、可支配、可调整的。

讲堂| 刘铁岩：人工智能的挑战与机遇

到现在为止，这几件事都是现在人工智能技术层面的问题。接下来，谈的是更像方法论和哲学的问题，仅为个人的观点，跟大家一起分享。

其中一条，我叫做蛮力解法，舍本逐末。这句话什么意思？刚才我提到过深度学习之所以这么成功，是因为它有一个特别强的表达能力，在历史上人们证明过深层神经网络有universal approximation theorem，只要隐结点的数目足够多，任意给一个连续函数，它都可以无限逼近这个函数，换言之，有了很强的表达能力，什么问题都可以学的很好。听起来好像是挺美好的事，但实际上它背后存在一个问题：它拟合的是数据的表象，数据表象可以非常复杂，但是数据背后驱动的规律是不是真的那么复杂呢，如果我们只看到表象不去研究数据产生的本质，很可能你花了很大的力气去拟合，但是浪费了很多时间，得到的结果也不鲁棒。

举个例子，我们发现大自然也好，人类社会也好，其实没有想象的那么复杂，虽然你看到的很多数据很复杂，它们背后的规律可能非常简单。像量子力学有薛定谔方程、量子化学、流体力学、生物遗传学、经济学、社会学也都有类似的简单方程，科学家发现那么纷繁复杂的现象都可以被一个动态系统所刻划，而动态系统背后的规律可能就是一个最高二阶的偏微分方程。大家可以想象，如果不知道这些机理，不对动态系统做建模，只对动态系统的产出数据做建模，就会觉得这个问题非常复杂，要有一个容量非常大的神经网络去逼近这个数据。但反过来，如果目光焦点在这个动态系统身上，可能就两三个参数的一个二阶微分方程就搞定了。

下面也是一个值得思考的问题——动物智能，南辕北辙，虽然前面提到人工智能产生了很多的进步，但其实目前所做的还主要是认知的事情，做一个Pattern Recognition，听听声音，看看图像，这是动物也能做的事。今天的人工智能没有回答一个关键的问题，就是动物和人的区别。可能有人会讲，据说猴子的大脑比人的大脑小很多，有可能是体量的不同。但人的祖先跟大猩猩在包容量上应该没有本质的区别，那到底为什么经过漫长的进化，人能成为万物之灵主宰地球了呢？

我自己的观点是因为人类发明了很多动物界没有的机制和规律。比如我们有文字，我们可以把我们对世界的认知，总结出来的规律写下来，把它变成书，变成资料传给我们的下一代。当老一辈的人去世之后，孩子们读读书，就掌握了之前几百年几千年人们对世界的认识。但是老一代大猩猩死掉之后，它的孩子就要从头学起。另外，我们人类有强大的教育体系，人从幼儿园开始，小学，中学，一直进入大学，用了十几年的时间，就把几百年、几千年的知识都掌握在身上了，可以站在巨人的肩膀上继续往前走，这非常了不起。好的老师，会教出好的学生，教学相长，薪火相传。

这些人类的精髓在今天的人工智能技术里面是并没有充分体现，而没有它们我们怎么能指望深度神经网络达到人的智商呢？

转载请注明出处。