【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解(2)
2017-05-24 编辑:
柯洁在数子时被媒体捕捉到“笑”了一下,在发布会上坦言那是“哭笑”。实际上他很早就知道结果了,主要是AlphaGo下棋是匀速的,因此在单关也花费比较多时间思考,所以柯洁在这个空档拼命数子,料到自己会输,最后果然输了1/4子。
DeepMind:算法比数据量更重要,AlphaGo 的架构细节稍后会全面公开
DeepMind的赛后感言可归纳为以下几点:
1. DeepMind对于“机机大战”没有兴趣——要衡量 AlphaGo 的实力,必须让它跟人类对弈。这次比赛的目的也是为了发现AlphaGo的更多弱点。李世石上次赢了AlphaGo,他们回去以后就对架构和系统做了升级,希望能弥补这种“knowledge gap”。当时的弱点或许被“Fix”了,但AlphaGo还有更多弱点,这是AlphaGo自己(通过自我对弈)和他们这些开发人员都不知道的。
2. AlphaGo不会控制输赢差距,它只想赢。AlphaGo总是尽量将赢棋的可能性最大化而不是将赢的目数最大化。它每次面临决策的时候,总是会选择它自己认为更稳妥、风险更小的路线。AlphaGo在争取赢棋时的一些行为,它可能会放弃一些目数以求降低它感知到的风险,即使这个风险非常小。
3. 没有完全弃用人类棋谱。当然在最初的版本中,AlphaGo从人类棋谱中学习,后来到现在它大部分的学习材料都来自于自我对弈的棋谱。新版本AlphaGo的一大创新就是它更多地依靠自我学习。在这个版本中,AlphaGo实际上成为了它自己的老师,从它自己的搜索中获得的下法中学习,和上一个版本相比大幅减少了对人类棋谱的依赖。
4.AlphaGo这次强大的地方在于算法。去年和李世石对战后,他们提出了更强大的算法,而且发现算法比数据量更重要,这也是为什么Master的训练速度是初代AlphaGo的十分之一。这次AlphaGo的硬件支撑是统一通过谷歌云来的,跟上次对战李世石的时候不同。
5. AlphaGo实际上是在谷歌云端的单一一台机器上运行的,建立于TPU上。这和去年使用的谷歌云端多台机器分布式结构有很大区别。因为现在有了一个运行起来更好、更简单的更加强大、高效的算法,它能够用十分之一的运算力来得到更强大甚至更好的结果。
6. 还会公布一些AlphaGo自我对弈的棋谱,这周稍后会正式宣布。
哈萨比斯:AlphaGo 研发介绍, AlphaGo 意味着什么?
“希望这周的比赛能够激发中国的围棋棋手和世界的人工智能科学家”。哈萨比斯介绍了DeepMind在做的事情,以及他们的目标——“发现智能的本质”(slove intelligence),他将最新版 AlphaGo 的技术细节留给了 David Sliver 具体阐释。
哈萨比斯提到,在DeepMind,他们研究的不是一般的人工智能(AI),而是通用智能,或者说通用的学习机器。这种机器具有自主学习的能力,可以执行多种任务,而其技术核心就是深度学习和强化学习。哈萨比斯认为,只要创造出通用的学习机器,就能够解决很多现在所无法解决的问题。他以载入史册的IBM深蓝对战国际象棋大师卡斯帕罗夫为例,深蓝当时获胜的根本原因是暴力计算。
哈萨比斯认为,与围棋不同,国际象棋是一种盘面已知的游戏,也就是说,最开始所有的棋子都在棋盘上,当你判断局势时,所有的信息都已经有了。而围棋则是不断构筑的游戏,要判断在哪里落子,很多时候顶尖围棋手会告诉你,他们依靠的是直觉,“就感觉这样走是对的”。
刚开始的不经意一步,很可能对未来的形势造成巨大乃至根本性的影响。
Sliver首次揭露了AlphaGo Master版本的新架构和算法
Sliver还是先从最初的AlphaGo讲起,为什么DeepMind团队会选择围棋攻克呢?Sliver表示,围棋是人类最古老最有智慧的游戏,也是测试、构建并且理解人工智能最好的方式。实际上,游戏被用于测试人工智能由来已久,计算机科学家先从国际象棋入手,到了现在的围棋。。而且,这些游戏AI的很多算法后来也被应用于各种各样的AI程序和应用。最后,围棋为誉为AI的圣杯,就像Demis刚刚说的那样。