新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）_

　　舒石唐旭发自东瑶村

　　量子位报道 | 公众号 QbitAI

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

　　到底是谁击败了柯洁？

　　答案似乎显而易见。但量子位之所以问这个问题，是因为如今击败柯洁的AlphaGo，与去年击败李世乭的AlphaGo，有着本质的区别。

　　DeepMind把AlphaGo粗略分成几个版本：

第一代，是击败樊麾的AlphaGo Fan。与Zen/Crazy Stone等之前的围棋软件相比，棋力要高出4子。

第二代，是击败李世乭的AlphaGo Lee。与上一代相比，棋力高出3子。

第三代，是柯洁如今的对手，也是年初60连胜的：AlphaGo Master。相比于击败李世乭的版本，棋力又再次提升3子。

　　需要强调的是，AlphaGo Lee和AlphaGo Master有着根本不同。不同在哪里，今天DeepMind创始人兼CEO哈萨比斯(Demis Hassabis)，AlphaGo团队负责人席尔瓦(Dave Silver)联手首度揭开新版AlphaGo的秘密。

　　量子位这一篇推送的内容，整理自哈萨比斯、席尔瓦今日上午的主题演讲，还有今日午间量子位对这两位DeepMind核心人物的专访。

　　单TPU运算，更强的策略/价值网络

　　首先用数据说话。

　　AlphaGo Lee

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

运行于谷歌云，耗用50个TPU进行计算

每次搜索计算后续50步，计算速度为10000个位置/秒

2016年在首尔击败李世乭

　　作为对比，20年前击败卡斯帕罗夫的IBM深蓝，可以搜索计算一亿个位置。席尔瓦表示，AlphaGo并不需要搜索那么多位置。

　　AlphaGo Master

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

运行于谷歌云，但只用一个TPU机器

自学成才，AlphaGo自我对弈提高棋力

拥有更强大的策略/价值网络

　　由于应用了更高效的算法，这次和柯洁对战的AlphaGo Master，运算量只有上一代AlphaGo Lee的十分之一。所以单个TPU机器足以支撑。

　　AlphaGo团队的黄士杰博士也在朋友圈表示，最新的AlphaGo可以被称为单机版。而上一代AlphaGo使用了分布式计算。

　　在会后接受量子位采访时，席尔瓦证实此次AlphaGo仍然使用了第一代TPU，而不是前不久公布的第二代。

　　另外席尔瓦澄清说：“今年升级版的AlphaGo是在单机上运行的，它的物理服务器上部署了4个TPU”。

　　显然PPT有个小小的误导。

　　如果你想更进一步了解TPU，这里有几篇量子位的报道推荐：

《详解谷歌第二代TPU：功耗性能究竟如何？巨头想用它干什么？》

《Google展示AI新实力：第二代TPU、AutoML》

《Google深度揭秘TPU：一文看懂内部原理，以及为何碾压GPU》

　　回到AlphaGo，可能你也注意到了，这个新版本的围棋AI有了更强大的策略/价值网络。下面围绕这一点继续解密。

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

　　△席尔瓦 AlphaGo的算法

　　为了讲清楚新的策略/价值网络强在哪里，还是应该首先介绍一下AlphaGo的算法如何构成。席尔瓦介绍，量子位搬运如下。

　　当初DeepMind团队，之所以选择围棋方向进行研究，一个重要的原因在于围棋是构建和理解运算的最佳试验台，而且围棋的复杂性远超国际象棋，这让电脑无法通过深蓝一样的暴力穷举方式破解围棋的奥秘。

　　击败李世乭的AlphaGo，核心是一个卷积神经网络。DeepMind团队希望AlphaGo最终能够理解围棋，形成全局观。席尔瓦表示，AlphaGo Lee由12层神经网络构成，而AlphaGo Master有40层神经网络。

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

　　这些神经网络进一步细分为两个功能网络：

策略网络（policy network）

价值网络（value network）

　　在这两个网络的训练中，使用了监督学习和强化学习两种方式。

　　首先基于人类的专家库数据，对策略网络的上百万参数进行调整。调整的目标，是让策略网络在相同的情况下，能够达到人类围棋高手的水平：下出同样的一步棋。

　　然后是强化学习，让人工智能进行自我博弈，这一训练结束后，就形成了价值网络，这被用于对未来的棋局输赢进行预测，在不同的下法中作出优劣判断。

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

　　通过策略网络，可以降低搜索的宽度，减少候选项，收缩复杂性。而且不会让AlphaGo下出疯狂不靠谱的步骤。

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

　　另一方面，通过价值网络减少深度，当AlphaGo计算到一定的深度，就会停止。AlphaGo不需要一直穷尽到最后。

　　把这个两个结合起来，就是AlphaGo的树搜索。通过策略网络选出几个可能的路径，然后对这些路径进行评估，最后把结果提交给树顶。这个过程重复几百上千次，最后AlphaGo得出赢棋概率最高的一步。

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

　　新策略/价值网络如何炼成

　　那么新的新策略/价值网络，到底强在哪里？

　　AlphaGo Master这次成了自己的老师，用席尔瓦的话说，这位围棋AI是自学成才。它从自我对弈的棋局里进行学习，积累了最好的训练数据。“上一代AlphaGo成为下一代的老师”席尔瓦形容道。

　　通过AlphaGo的自我博弈，不断吸取经验、提高棋力，这一次AlphaGo用自我对弈训练出的策略网络，可以做到不需要更多运算，直接给出下一步的决策。

　　这种改变明显减少了对计算力的需求。

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

　　另一个价值网络，也是基于AlphaGo的自我对弈进行训练，通过对弈后的复盘，价值网络能够学到哪一步是关键所在。通过高质量的自我对弈，训练价值网络预测哪一步更重要。

　　席尔瓦表示：“在任何一步，AlphaGo都会准确预测如何能赢”。

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

　　这个过程不断反复迭代，最终打造了一个更强大的AlphaGo。自我博弈，带来数据质量的提高，从而推动了AlphaGo的快速提升。

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

　　如此前一样，DeepMind证实也会公布这一代AlphaGo的相关论文。更多的细节，我们可以期待Deepm稍后的发布。

　　攻克智能，解决问题

　　AlphaGo来自DeepMind。2010年DeepMind在伦敦成立，目前有500名员工，其中一半是科学家。哈萨比斯说，DeepMind要把人工智能科学家、数据和计算力结合在一起，推动人工智能的发展。

　　新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

　　△哈萨比斯

　　这家公司的愿景：第一是攻克智能。第二是用智能解决所有问题。

　　换句话说，DeepMind的目标是构建通用人工智能。所谓通用人工智能，首先AI具备学习的能力，其次能举一反三，执行各种不同的任务。如何抵达这个目标？哈萨比斯说有两个工具：深度学习、强化学习。

　　AlphaGo就是深度学习和强化学习的结合。AlphaGo也是DeepMind迈向通用人工智能目标的一步，尽管现在它更多的专注于围棋领域。

　　哈萨比斯表示，希望通过AlphaGo的研究，让机器获得直觉和创造力。

　　这里所谓的直觉，是通过体验直接获得的初步感知。无法表达出来，可通过行为确认其存在和正误。

　　而创造力，是通过组合已有知识产生新颖或独特想法的能力。AlphaGo显然已展示出了这些能力，尽管领域有限。

　　“未来能够看到人机结合的巨大力量，人类智慧将被人工智能放大。”哈萨比斯说。目前AlphaGo的技术已经被用于数据中心，能节约15%的电能；另外也能被用于材料、医疗、智能手机和教育等领域。

　　尽管已经连战连捷，AlphaGo仍然有继续探索的空间。哈萨比斯和DeepMind仍然想在围棋领域继续追问：我们离最优解还有多远？怎样才是完美棋局？

　　当今社会已有越来越多的数据产生，然而人类往往无法通过这些数据了解全局的变化，在这种情况下人工智能有可能推动科研继续进步。

　　一切正如国际象棋棋王卡斯帕罗夫所说：

　　“深蓝已经结束，AlphaGo才刚开始。”

　　专访全文

新AlphaGo首度揭秘：单机运行，4个TPU，算法更强（专访+演讲）

△哈萨比斯、席尔瓦接受量子位等专访

　　提问：在Master已经对包括柯洁在内的人类棋手60连胜之后，举办这场比赛的意义在哪里？

　　哈萨比斯：Master在网上下的都是快棋，人类棋手在下棋时时间控制得可能不会太精准，人类棋手在网上的注意力也不一定完全集中，因此我们仍然需要跟柯洁进行对弈来对AlphaGo进行测试。

　　同时，通过这些网上的对弈，第一，是希望测试一下AlphaGo的系统；第二，也是希望为围棋界提供一些新的想法和思路，给柯洁一定备战的时间，也为他提供一些分析AlphaGo打法的素材。

　　提问：关于AlphaGo的行业应用，有哪些您比较看好？今后Deepmind会不会在中国开展一些行业应用？

转载请注明出处。