带着公关任务的AlphaGo,混江湖的面子与里子(2)
2017-05-28 编辑:
每多让一子,被让子者将会获得巨大的优势。一般来说最多能让四子,而让四子基本就是专业棋手跟入门棋手的教学赛了。这次出战的AlphaGo能不能对人类选手让子胜不得而知,但如果它能够对旧版的AlphaGo让三子,那说明棋力已经有了等级上的进化。
这个进化的核心实力来自什么呢?显然不是来自运算速度的加快和数据处理量的加大。根据Demis Hassabis的说明,“本次对弈的新版 AlphaGo计算量小了十倍,自我对弈能力更强,运行起来更简单,更好,功耗也更小。”
而这个神秘效果或许来源于几个能力。最核心的就是AlphaGo改良了蒙特卡洛树搜索算法。这种算法的本质,是在完全信息博弈的情况下采用不断穷举极大值与极小值,在根据数据结果来匹配能达成玩家目标的搜索结果。顺着搜索树上升,最终达到最优结果。
这个算法是AlphaGo初代时就开始采用的机器学习算法。但这个算法的缺点在于对于博弈目标需要的运算量会非常庞大,如果不加以限制,很可能出现暴力穷举的运算方式。这对于围棋显然是不智的。
而解决运算量问题的方式就是通过卷积神经网络,使用策略网络与价值网络对举的方式来确定运动方向,这样就几大减少了搜索树的运算量与运算时间。据说,这一版本的AlphaGo策略网络/价值网络构成的精神网络由12层增加到了40层,这其中蕴含的也绝不仅仅是数量上的增加,而应该是更复杂的算法逻辑在起作用。
初代AlphaGo对人类棋谱的大量学习完毕,也给版本进化提供了有力基础。这一版本的AlphaGo更多采取自我对弈的方式来完成强化学习,辅助以少量人类棋谱。显然会在优质数据搜索上更上一层楼,也更加无法被人类预判。
同时这次的AlphaGo虽然依旧是使用监督学习与增强学习结合的训练手段,但应该已经达成了部分无监督学习。这很可能是master连胜60局时很多奇招和布局感的来源。
简单来说吧,AlphaGo的“里子”在于它使用了全面改进的算法和优质数据源,虽然目前资料甚少,我们还无法窥探其究竟。但AlphaGo通过多种算法逻辑、训练逻辑与学习资源相结合,让机器获得了近乎于直觉和创造力的东西,恐怕才是它传达出的最重要信息。
虽然这个信息包裹在层层商业目的和新闻噱头的背后,但还是有必要把它找出来……因为……我也不知道因为什么,但这里似乎可以再引用一句《一代宗师》:功夫只有两个字,一横一竖,对的站着,错的躺下。
——AI也是如此。
相关阅读:
相关推荐: