【电脑报深度报道】柯洁再度告负!Alpha Go究竟有多厉害?(2)
2017-05-27 编辑:
柯洁认输
“以彼之道,还施彼身”带给柯洁的,只是比赛前半段的短暂轻松。很快,柯洁开始变得明显有些犹豫,多次拿起黑棋又放下,并时不时抓头发、皱眉、托晒、摇头,脸上不时露出“诡异”笑容,不知道是苦笑还是微笑。
相比之下,AlphaGo落子速度飞快,柯洁用时约80分钟思考后,AlphaGo才用时约20分钟,有些棋子甚至是“秒下”,但落子结果却在不停地给柯洁出难题,一番勾心斗角之后,都是AlphaGo更占优势。
围棋专家们早已看到了结局,记者在午餐偶遇讲解员常昊时,常昊就表示,“柯洁明显和AlphaGo差距很大,在开局不久就已经落后了,AlphaGo的布局构思远胜于人类。”
第一场比赛,柯洁和执棋的黄士杰没有吃午饭,四个小时之内上了几次厕所。
或许,在全世界都认定必输局面情况下,胜负已经不是人机大战第二季的主要看点。
“人工智能不是对手,可以成为朋友。我们看看它的极限究竟在哪里。”古力在发布会开始前表示。
只是,想要看到AlphaGo的极限并不容易。5月24日,DeepMind首席科学家大卫·席尔瓦(David Silver)透露称,目前的AlphaGo,比去年战胜李世石的那一版要“强三子”:“AlphaGo成为自己的老师,它从自己的搜索里学习,有着更强大的策略和价值网络。”
也就是说,按照围棋等级划分,现在AlphaGo 的积分为4500分左右,遥遥超越所有人类,目前暂列人类职业棋手第一位的的柯洁积分为3620分。
此言一出,四座皆惊。虽然此前也有过类似传闻,但这一次却是实实在在从DeepMind首席科学家口中说出。柯洁立刻发了一条微博:“早就听说新版AlphaGo的强大……但……让……让三个?我的天!”他解释说,这个差距有多大呢,就像武林高手对决让人先捅三刀。
尽管此后DeepMind团队的樊麾二段发表声明称,“当AlphaGo与从未对弈过的人类棋手对局时,这样的优势就不复存在。”不过,这并不能掩盖AlphaGo的种种可怕。
更可怕的,或许还是如今版AlphaGo强大的自我迭代和更新能力,在算法上,这一版本的 AlphaGo 已经不需要外在“导师”,能实现自我学习了。
早期,AlphaGo仍通过学习六段以上的围棋选手下法来进行学习,但如今与去年相比,2.0版的AlphaGo将正式摒弃人类棋谱,只靠计算机自身深度学习的方式成长。即通过数学模型下的自我对弈和深度学习,下出完全属于人工智能(AI)的围棋。
搜狗总裁王小川称,此次AlphaGo可能已经放弃了监督学习,也就是说不再依赖原先人类的3000万局棋谱,甚至有可能放弃了蒙特卡洛树搜索,大大减少了暴力计算,落子速度更快、准确率更高。两台没有棋谱数据的AlphaGo自我对战学习如何下棋,并达到登峰造极的地步,只需要一周的时间。
换句话说,就是“AlphaGo已经是自己的导师”,甚至于它已经不满足于只是单纯取得胜利,而是控制胜利的概率以及输赢的差距——根据举个通俗的例子:90%赢10目和100%赢1目,AlphaGo一定会选择赢1目的变化,因为胜率更高。这也是AlphaGo在早早掌控巨大优势,后盘一路放缓脚步的原因。
这个说法得到了哈萨比斯等人某种程度上的认可。“我们的确在研究如何通过多线路决策来扩大胜率,甚至是去控制胜率,这是我们的一个探索方向。” 哈萨比斯说,他们的确在测试AlphaGo获取胜利的程度。
从此以后,人机大战或许再无意义
“此次出战的AlphaGo是单机版,比李世石对弈的版本要高出十倍,以计算量仅需原来的十分之一,训练时间也从几个月缩减到了几个星期。”哈萨比斯说,目前的AlphaGo是在云端由单TPU运行,与李世石对战的AlphaGo在云上有50个TPUs在运作,搜索50个棋步为10000个位置/秒,而5月23日打败柯洁的AlphaGoMaster则在单个TPU上进行游戏。TPU是专门为机器学习而设计的处理器。