【电脑报深度报道】柯洁再度告负！Alpha Go究竟有多厉害？(2)_

　　【电脑报深度报道】柯洁再度告负！Alpha Go究竟有多厉害？

柯洁认输

“以彼之道，还施彼身”带给柯洁的，只是比赛前半段的短暂轻松。很快，柯洁开始变得明显有些犹豫，多次拿起黑棋又放下，并时不时抓头发、皱眉、托晒、摇头，脸上不时露出“诡异”笑容，不知道是苦笑还是微笑。

相比之下，AlphaGo落子速度飞快，柯洁用时约80分钟思考后，AlphaGo才用时约20分钟，有些棋子甚至是“秒下”，但落子结果却在不停地给柯洁出难题，一番勾心斗角之后，都是AlphaGo更占优势。

围棋专家们早已看到了结局，记者在午餐偶遇讲解员常昊时，常昊就表示，“柯洁明显和AlphaGo差距很大，在开局不久就已经落后了，AlphaGo的布局构思远胜于人类。”

第一场比赛，柯洁和执棋的黄士杰没有吃午饭，四个小时之内上了几次厕所。

或许，在全世界都认定必输局面情况下，胜负已经不是人机大战第二季的主要看点。

“人工智能不是对手，可以成为朋友。我们看看它的极限究竟在哪里。”古力在发布会开始前表示。

只是，想要看到AlphaGo的极限并不容易。5月24日，DeepMind首席科学家大卫·席尔瓦（David Silver）透露称，目前的AlphaGo，比去年战胜李世石的那一版要“强三子”：“AlphaGo成为自己的老师，它从自己的搜索里学习，有着更强大的策略和价值网络。”

也就是说，按照围棋等级划分，现在AlphaGo 的积分为4500分左右，遥遥超越所有人类，目前暂列人类职业棋手第一位的的柯洁积分为3620分。

此言一出，四座皆惊。虽然此前也有过类似传闻，但这一次却是实实在在从DeepMind首席科学家口中说出。柯洁立刻发了一条微博：“早就听说新版AlphaGo的强大……但……让……让三个？我的天！”他解释说，这个差距有多大呢，就像武林高手对决让人先捅三刀。

尽管此后DeepMind团队的樊麾二段发表声明称，“当AlphaGo与从未对弈过的人类棋手对局时，这样的优势就不复存在。”不过，这并不能掩盖AlphaGo的种种可怕。

更可怕的，或许还是如今版AlphaGo强大的自我迭代和更新能力，在算法上，这一版本的 AlphaGo 已经不需要外在“导师”，能实现自我学习了。

早期，AlphaGo仍通过学习六段以上的围棋选手下法来进行学习，但如今与去年相比，2.0版的AlphaGo将正式摒弃人类棋谱，只靠计算机自身深度学习的方式成长。即通过数学模型下的自我对弈和深度学习，下出完全属于人工智能（AI）的围棋。

搜狗总裁王小川称，此次AlphaGo可能已经放弃了监督学习，也就是说不再依赖原先人类的3000万局棋谱，甚至有可能放弃了蒙特卡洛树搜索，大大减少了暴力计算，落子速度更快、准确率更高。两台没有棋谱数据的AlphaGo自我对战学习如何下棋，并达到登峰造极的地步，只需要一周的时间。

换句话说，就是“AlphaGo已经是自己的导师”，甚至于它已经不满足于只是单纯取得胜利，而是控制胜利的概率以及输赢的差距——根据举个通俗的例子：90%赢10目和100%赢1目，AlphaGo一定会选择赢1目的变化，因为胜率更高。这也是AlphaGo在早早掌控巨大优势，后盘一路放缓脚步的原因。

这个说法得到了哈萨比斯等人某种程度上的认可。“我们的确在研究如何通过多线路决策来扩大胜率，甚至是去控制胜率，这是我们的一个探索方向。” 哈萨比斯说，他们的确在测试AlphaGo获取胜利的程度。

从此以后，人机大战或许再无意义

“此次出战的AlphaGo是单机版，比李世石对弈的版本要高出十倍，以计算量仅需原来的十分之一，训练时间也从几个月缩减到了几个星期。”哈萨比斯说，目前的AlphaGo是在云端由单TPU运行，与李世石对战的AlphaGo在云上有50个TPUs在运作，搜索50个棋步为10000个位置/秒，而5月23日打败柯洁的AlphaGoMaster则在单个TPU上进行游戏。TPU是专门为机器学习而设计的处理器。

转载请注明出处。