形象化的比较,国际象棋的选择是有限的,每一步都大约有30多种选择,然后再下一步又有30多种选择,以此类推。实际上,国际象棋的这种树形结构很适合用传统的计算机方法去搜索并解决。而围棋的选择则要多得多,每一步都有几万种走法(several hundreds),而下一步又有几万种……由此形成的排列组合,对于传统的计算机或人工智能而言是无解的。
DeepMind是如何解决这个问题的呢?初版AlphaGo,也就是战胜了李世石的那个版本,核心是两个深度神经网络。深度神经网络有很多参数,这些参数可以通过训练进行调整,从而很好地对知识进行表征,真正理解领域里发生了什么事情。我们希望AlphaGo能够真正理解围棋的基本概念,并且全部依靠自己学习这些概念。
具体说,AlphaGo用了卷积神经网络,可以从每一层的一小块当中,得出一些更高层的理解,你可以简单理解为表示棋子在这种局势下会赢还是会输的特征,然后每一层以此类推,最终得到高层表征,也就是AlphaGo学会的概念。初版AlphaGo使用了12层网络,而Master版本的使用了40层。
AlphaGo使用两种不同的深度神经网络,第一种是策略网络,目标是选择在哪里落子。第二种则是价值网络,价值网络的作用是衡量走这一步对最终输赢的影响:棋盘的局部(patches)经过很多层很多层的表征处理,最终得出一个数字,这个数字就是代表这步棋会赢的概率,概率越大(接近1),那么AlphaGo获胜的概率就越大。
AlphaGo训练的过程,实际上结合了两种机器学习,首先是监督学习,其中人类棋谱被用作训练数据,然后结合强化学习,在强化学习过程中,系统通过试错不断提升自己,弄清哪种策略最好。这张图显示了AlphaGo的训练过程,先从大量的人类专家下棋的训练数据集开始,我们让策略网络所做的,就是学习人类专家的走法,不断调整参数,最终在每个位置走出跟人类专家一样的走法。
这就是策略网络,我们用策略网络做强化学习,也就是让策略网络不断自我对弈,在很短的时间里掌握什么是最好的下法。然后,我们用价值网络判断,每一步是黑棋赢还是白棋赢,就像人类专家通过直觉判断是否该这样走一样。
如果像往常一样,我们要去判断每一步赢的几率,那么计算力是不够的。在AlphaGo这里,我们结合策略网络和价值网络,大幅降低了搜索的难度。首先,我们用策略网络减少了搜索的宽度,然后用价值网络减少了搜索的深度。
这两种搜索算法的结合,也被称为蒙特卡洛树搜索方法,AlphaGo先使用策略网络选择怎么走,然后用价值网络判断这样走的赢率,最终得出一个数字。这个模拟过程会重复很多次,计算出每种不同走法的赢率。然后,这些数字会被传回一开始的部分,让系统决定走哪一步赢率最大。
上面说的这些就是跟李世石对战的AlphaGo的大致步骤。这张图显示了当时AlphaGo使用的硬件或者计算力支撑,使用了大约50块TPU,能够搜索(结合图中显示的数字)。看到这个数字你也许会认为AlphaGo做的计算量很大了,但实际上深蓝当时做的是AlphaGo的要做得多,每秒做上亿次计算。因此,可以说AlphaGo做的计算比深蓝要“更聪明”,更谨慎。
接下来我介绍新版AlphaGo,也被称为AlphaGo Master,这次对战柯洁的新版AlphaGo。AlphaGo Mater使用更加有效的算法,所需的计算量是AlphaGo的1/10。这张图显示了AlphaGo Mater使用的硬件,通过谷歌云提供的一块TPU,你可以把它当做是一台计算机。
而使Master如此强大的原因之一,是我们使用了最好的数据——AlphaGo自我对弈的数据。所以,AlphaGo实际上成了自己的“老师”,每一代生成的数据都成为下一代、更强一代的训练材料。我们使用这一过程,训练了更强大的策略网络和价值网络。
具体说,我们让AlphaGo自我对弈,也就是通过强化学习,生成大量数据,训练下一代的AlphaGo。这时,策略网络就使用它自己生成的数据,在不进行任何搜索的情况下,自己训练自己得出最强大的走法,由此得出了目前最强大的策略网络。
类似的,我们也这样训练价值网络,我们使用AlphaGo自我对弈后获胜的那些数据来作为训练样本,这些都是质量很高(最高)的样本,里面含有大量每局AlphaGo自我对弈中每一步走法赢率判断的信息。换句话说,新的价值网络会判断Master每一步的最终赢率是多少。
然后,我们将上述过程重复多次,不断得到新的价值网络和策略网络,AlphaGo也能不断做出更高效的搜索质量和更好地判断胜率。
那么,我们怎么衡量AlphaGo的能力呢?我们最初用Zen和进行对比,后来是樊麾,再到李世石,以及线上对战平台。
转载请注明出处。