AlphaGo这只小狗狗，怎么就成了“阿老师”？_

　　这是一篇写给你姥姥的科普贴。

　　AlphaGo打败李世乭的时候，柯洁说“它赢不了我”；

　　AlphaGo赢了柯洁的时候，他说AlphaGo进步的速度太快，自己还是想跟人类下棋。

　　态度巨变背后，柯洁只是从19岁到了20岁，小狗狗却已在不断的训练中变得愈发凶猛。

　　 AlphaGo这只小狗狗，怎么就成了“阿老师”？

　　柯洁与AlphaGo的对阵现场（图源：The New York Times）

　　一方面，小狗狗自己一直在不断学习和训练，让脑子变得越来越聪明。另一方面呢，狗爹DeepMind还给小狗狗投喂了新硬件，让它身体倍儿棒、脑子能转得快点儿。

　　“小狗狗”的修仙之路

　　一开始，狗爹DeepMind教了小狗狗两样武器：策略网络（Policy Network）和价值网络（Value Network）。

　　策略网络是要让小狗狗知道，下一个棋子最可能落在哪些位置。

　　毕竟围棋棋盘这么大，一共19*19个点，每个点上又有白子、黑子和无子三种可能性，整个决策过程会出现的可能性是炸裂型的。

　　如果小狗狗真的每一步棋都把情况都算尽，按它脑子现在的运算速度，不只会把对面的柯洁熬成一个老柯，也得把自己活活耗成一条老狗。

　　所以，需要缩小计算范围，那些不太可能出现的情况咱就先不管了。

　　学习方法嘛，第一步可以算是“题海战术”——给小狗狗投喂大量人类顶级棋手的棋谱数据，让它记住最经常出现的套路。

　　 AlphaGo这只小狗狗，怎么就成了“阿老师”？

　　（图源：The Atlantic）

　　价值网络可以帮助小狗狗判断的是：按照策略网络里会出现的那些可能性，棋子落在特定位置的胜率会怎么样。

　　根据策略网络能算出来的可能性，小狗狗还可以用同样的方法，更深入地预测接下来可能会发生的走棋。小狗狗不会真的把所有可能性算完，而是举出下一步棋的几种主要可能，再算出来它们在后续各种可能性中的平均胜率。

　　但是，如果策略网络算漏了几种厉害的棋可怎么办？小狗狗眉头一皱，打算在已经原本想放弃的可能性中，尽可能地多挑几个都算一下试试。

　　 AlphaGo这只小狗狗，怎么就成了“阿老师”？

　　蒙特卡洛树搜索的步骤（图源：wiki）

　　最后，小狗狗会所有的结果放在一起比较，来决定到底要听谁的。

　　小狗狗也会找机会跟人类高手（比如李世乭）互相殴打。切磋之后，狗爹DeepMind会带着小狗狗回伦敦老家，研究这次比赛的数据，继续闭关修炼。

　　“阿老师”的重现江湖

　　有一天，武林上突然出现一位自称Master（大师）的人物，通过网络嗷嗷跟人类顶级玩家过招，且从来没有输过。

　　事后大家才知道，它就是小狗狗。不过，据狗爹DeepMind讲，小狗狗进化成阿老师啦，以前三个月的事儿，现在他们一星期就可以搞定！

　　 AlphaGo这只小狗狗，怎么就成了“阿老师”？

　　DeepMind创始人哈萨比斯（Demis Dassabis）

　　阿老师真身跟柯洁对弈的第二天，DeepMind就介绍了如今阿老师的功力。简单说就是：阿老师可以让小狗狗3个子儿。

　　从大脑发育程度上讲，小狗狗只有12层神经网络，而成年后的阿老师已经有40层了。无敌太寂寞，阿老师已经开始减少对人类棋谱的依赖，更多地依靠深度学习、自我对弈来修行了。

　　阿老师聪慧起来，算法也就更高效。所以，阿老师需要进行的运算量，只是勤劳但是笨拙的小狗狗的十分之一。小狗狗需要耗用50个TPU（可以理解成一种提升脑力运算速度的高级狗粮），阿老师在单个TPU机器上就可以战斗。

　　阿老师的自我修行，也给它积累了最好的训练数据。阿老师勤劳分析自己跟自己打架之后的每一地鸡毛，通过各种复盘和回想，逼着自己找出最关键的那步棋。

　　“狗爹”的星辰大海

　　对阿老师的爸爸DeepMind来讲，跟人类玩家的战局只是训练决策的一种游戏而已。

　　狗爹的目标，可是大海星辰呀。在解决围棋问题的过程中，阿老师要利用策略网络来减少搜索的宽度，再利用价值网络减少搜索的深度。让阿老师下围棋，只是为了训练它深度学习、强化学习的能力，最终化身通用智能，实现人机合作，走上狗生巅峰。

　　 AlphaGo这只小狗狗，怎么就成了“阿老师”？

　　决策网络和价值网络

　　让人类跟阿老师互相殴打，是为了让两边熟悉一下彼此，更方便合作。狗爹打比方说，阿老师其实是新的哈勃望远镜，就像人类以前可以用哈勃望远镜探索宇宙，现在也可以借助阿老师来发现新的知识。

　　“我不在意谁下赢围棋！”狗爹讲，“因为最终的胜利属于全人类。”