AlphaGo这只小狗狗,怎么就成了“阿老师”?
2017-05-26 编辑:
这是一篇写给你姥姥的科普贴。
AlphaGo打败李世乭的时候,柯洁说“它赢不了我”;
AlphaGo赢了柯洁的时候,他说AlphaGo进步的速度太快,自己还是想跟人类下棋。
态度巨变背后,柯洁只是从19岁到了20岁,小狗狗却已在不断的训练中变得愈发凶猛。
柯洁与AlphaGo的对阵现场(图源:The New York Times)
一方面,小狗狗自己一直在不断学习和训练,让脑子变得越来越聪明。另一方面呢,狗爹DeepMind还给小狗狗投喂了新硬件,让它身体倍儿棒、脑子能转得快点儿。
“小狗狗”的修仙之路
一开始,狗爹DeepMind教了小狗狗两样武器:策略网络(Policy Network)和价值网络(Value Network)。
策略网络是要让小狗狗知道,下一个棋子最可能落在哪些位置。
毕竟围棋棋盘这么大,一共19*19个点,每个点上又有白子、黑子和无子三种可能性,整个决策过程会出现的可能性是炸裂型的。
如果小狗狗真的每一步棋都把情况都算尽,按它脑子现在的运算速度,不只会把对面的柯洁熬成一个老柯,也得把自己活活耗成一条老狗。
所以,需要缩小计算范围,那些不太可能出现的情况咱就先不管了。
学习方法嘛,第一步可以算是“题海战术”——给小狗狗投喂大量人类顶级棋手的棋谱数据,让它记住最经常出现的套路。
(图源:The Atlantic)
价值网络可以帮助小狗狗判断的是:按照策略网络里会出现的那些可能性,棋子落在特定位置的胜率会怎么样。
根据策略网络能算出来的可能性,小狗狗还可以用同样的方法,更深入地预测接下来可能会发生的走棋。小狗狗不会真的把所有可能性算完,而是举出下一步棋的几种主要可能,再算出来它们在后续各种可能性中的平均胜率。
但是,如果策略网络算漏了几种厉害的棋可怎么办?小狗狗眉头一皱,打算在已经原本想放弃的可能性中,尽可能地多挑几个都算一下试试。
蒙特卡洛树搜索的步骤(图源:wiki)
最后,小狗狗会所有的结果放在一起比较,来决定到底要听谁的。
小狗狗也会找机会跟人类高手(比如李世乭)互相殴打。切磋之后,狗爹DeepMind会带着小狗狗回伦敦老家,研究这次比赛的数据,继续闭关修炼。
“阿老师”的重现江湖
有一天,武林上突然出现一位自称Master(大师)的人物,通过网络嗷嗷跟人类顶级玩家过招,且从来没有输过。
事后大家才知道,它就是小狗狗。不过,据狗爹DeepMind讲,小狗狗进化成阿老师啦,以前三个月的事儿,现在他们一星期就可以搞定!
DeepMind创始人哈萨比斯(Demis Dassabis)
阿老师真身跟柯洁对弈的第二天,DeepMind就介绍了如今阿老师的功力。简单说就是:阿老师可以让小狗狗3个子儿。
从大脑发育程度上讲,小狗狗只有12层神经网络,而成年后的阿老师已经有40层了。无敌太寂寞,阿老师已经开始减少对人类棋谱的依赖,更多地依靠深度学习、自我对弈来修行了。
阿老师聪慧起来,算法也就更高效。所以,阿老师需要进行的运算量,只是勤劳但是笨拙的小狗狗的十分之一。小狗狗需要耗用50个TPU(可以理解成一种提升脑力运算速度的高级狗粮),阿老师在单个TPU机器上就可以战斗。
阿老师的自我修行,也给它积累了最好的训练数据。阿老师勤劳分析自己跟自己打架之后的每一地鸡毛,通过各种复盘和回想,逼着自己找出最关键的那步棋。
“狗爹”的星辰大海
对阿老师的爸爸DeepMind来讲,跟人类玩家的战局只是训练决策的一种游戏而已。
狗爹的目标,可是大海星辰呀。在解决围棋问题的过程中,阿老师要利用策略网络来减少搜索的宽度,再利用价值网络减少搜索的深度。让阿老师下围棋,只是为了训练它深度学习、强化学习的能力,最终化身通用智能,实现人机合作,走上狗生巅峰。
决策网络和价值网络
让人类跟阿老师互相殴打,是为了让两边熟悉一下彼此,更方便合作。狗爹打比方说,阿老师其实是新的哈勃望远镜,就像人类以前可以用哈勃望远镜探索宇宙,现在也可以借助阿老师来发现新的知识。
“我不在意谁下赢围棋!”狗爹讲,“因为最终的胜利属于全人类。”
相关阅读:
AlphaGo:人类围棋驶向 2.0 时代的船票
柯洁说:后两场全力以赴,之后不再与AI对弈
人工智能注定统治人类,在最后挣扎的人机对弈前你要读完这篇文章
不建日程、寻路、找吃的,为什么小冰不像其他AI那样争做你的秘书?
相关阅读:
相关推荐: