【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解(2)

2017-05-24 编辑：

　　柯洁在数子时被媒体捕捉到“笑”了一下，在发布会上坦言那是“哭笑”。实际上他很早就知道结果了，主要是AlphaGo下棋是匀速的，因此在单关也花费比较多时间思考，所以柯洁在这个空档拼命数子，料到自己会输，最后果然输了1/4子。

　　DeepMind：算法比数据量更重要，AlphaGo 的架构细节稍后会全面公开

　　DeepMind的赛后感言可归纳为以下几点：

　　1. DeepMind对于“机机大战”没有兴趣——要衡量 AlphaGo 的实力，必须让它跟人类对弈。这次比赛的目的也是为了发现AlphaGo的更多弱点。李世石上次赢了AlphaGo，他们回去以后就对架构和系统做了升级，希望能弥补这种“knowledge gap”。当时的弱点或许被“Fix”了，但AlphaGo还有更多弱点，这是AlphaGo自己（通过自我对弈）和他们这些开发人员都不知道的。

　　2. AlphaGo不会控制输赢差距，它只想赢。AlphaGo总是尽量将赢棋的可能性最大化而不是将赢的目数最大化。它每次面临决策的时候，总是会选择它自己认为更稳妥、风险更小的路线。AlphaGo在争取赢棋时的一些行为，它可能会放弃一些目数以求降低它感知到的风险，即使这个风险非常小。

　　3. 没有完全弃用人类棋谱。当然在最初的版本中，AlphaGo从人类棋谱中学习，后来到现在它大部分的学习材料都来自于自我对弈的棋谱。新版本AlphaGo的一大创新就是它更多地依靠自我学习。在这个版本中，AlphaGo实际上成为了它自己的老师，从它自己的搜索中获得的下法中学习，和上一个版本相比大幅减少了对人类棋谱的依赖。

　　4.AlphaGo这次强大的地方在于算法。去年和李世石对战后，他们提出了更强大的算法，而且发现算法比数据量更重要，这也是为什么Master的训练速度是初代AlphaGo的十分之一。这次AlphaGo的硬件支撑是统一通过谷歌云来的，跟上次对战李世石的时候不同。

　　5. AlphaGo实际上是在谷歌云端的单一一台机器上运行的，建立于TPU上。这和去年使用的谷歌云端多台机器分布式结构有很大区别。因为现在有了一个运行起来更好、更简单的更加强大、高效的算法，它能够用十分之一的运算力来得到更强大甚至更好的结果。

　　6. 还会公布一些AlphaGo自我对弈的棋谱，这周稍后会正式宣布。

　　哈萨比斯：AlphaGo 研发介绍， AlphaGo 意味着什么？

　　“希望这周的比赛能够激发中国的围棋棋手和世界的人工智能科学家”。哈萨比斯介绍了DeepMind在做的事情，以及他们的目标——“发现智能的本质”（slove intelligence），他将最新版 AlphaGo 的技术细节留给了 David Sliver 具体阐释。

　　【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解

　　哈萨比斯提到，在DeepMind，他们研究的不是一般的人工智能（AI），而是通用智能，或者说通用的学习机器。这种机器具有自主学习的能力，可以执行多种任务，而其技术核心就是深度学习和强化学习。哈萨比斯认为，只要创造出通用的学习机器，就能够解决很多现在所无法解决的问题。他以载入史册的IBM深蓝对战国际象棋大师卡斯帕罗夫为例，深蓝当时获胜的根本原因是暴力计算。

　　哈萨比斯认为，与围棋不同，国际象棋是一种盘面已知的游戏，也就是说，最开始所有的棋子都在棋盘上，当你判断局势时，所有的信息都已经有了。而围棋则是不断构筑的游戏，要判断在哪里落子，很多时候顶尖围棋手会告诉你，他们依靠的是直觉，“就感觉这样走是对的”。

　　刚开始的不经意一步，很可能对未来的形势造成巨大乃至根本性的影响。

　　【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解

　　Sliver首次揭露了AlphaGo Master版本的新架构和算法

　　【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解

　　Sliver还是先从最初的AlphaGo讲起，为什么DeepMind团队会选择围棋攻克呢？Sliver表示，围棋是人类最古老最有智慧的游戏，也是测试、构建并且理解人工智能最好的方式。实际上，游戏被用于测试人工智能由来已久，计算机科学家先从国际象棋入手，到了现在的围棋。。而且，这些游戏AI的很多算法后来也被应用于各种各样的AI程序和应用。最后，围棋为誉为AI的圣杯，就像Demis刚刚说的那样。