社会焦点

AlphaGo这只小狗狗,怎么就成了“阿老师”?

字号+ 作者: 来源: 2017-05-26

AlphaGo这只小狗狗,怎么就成了“阿老师”?,泰迪狗狗生小狗狗后吃什么好,绝艺与阿法狗谁厉害,阿狸狗破戒大师,alphago为什么会下围棋,长大后我就成了你 老师

  这是一篇写给你姥姥的科普贴。

  AlphaGo打败李世乭的时候,柯洁说“它赢不了我”;

  AlphaGo赢了柯洁的时候,他说AlphaGo进步的速度太快,自己还是想跟人类下棋。

  态度巨变背后,柯洁只是从19岁到了20岁,小狗狗却已在不断的训练中变得愈发凶猛。

  AlphaGo这只小狗狗,怎么就成了“阿老师”?

  柯洁与AlphaGo的对阵现场(图源:The New York Times)

  一方面,小狗狗自己一直在不断学习和训练,让脑子变得越来越聪明。另一方面呢,狗爹DeepMind还给小狗狗投喂了新硬件,让它身体倍儿棒、脑子能转得快点儿。

  “小狗狗”的修仙之路

  一开始,狗爹DeepMind教了小狗狗两样武器:策略网络(Policy Network)和价值网络(Value Network)。

  策略网络是要让小狗狗知道,下一个棋子最可能落在哪些位置。

  毕竟围棋棋盘这么大,一共19*19个点,每个点上又有白子、黑子和无子三种可能性,整个决策过程会出现的可能性是炸裂型的。

  如果小狗狗真的每一步棋都把情况都算尽,按它脑子现在的运算速度,不只会把对面的柯洁熬成一个老柯,也得把自己活活耗成一条老狗。

  所以,需要缩小计算范围,那些不太可能出现的情况咱就先不管了。

  学习方法嘛,第一步可以算是“题海战术”——给小狗狗投喂大量人类顶级棋手的棋谱数据,让它记住最经常出现的套路。

  AlphaGo这只小狗狗,怎么就成了“阿老师”?

  (图源:The Atlantic)

  价值网络可以帮助小狗狗判断的是:按照策略网络里会出现的那些可能性,棋子落在特定位置的胜率会怎么样。

  根据策略网络能算出来的可能性,小狗狗还可以用同样的方法,更深入地预测接下来可能会发生的走棋。小狗狗不会真的把所有可能性算完,而是举出下一步棋的几种主要可能,再算出来它们在后续各种可能性中的平均胜率。

  但是,如果策略网络算漏了几种厉害的棋可怎么办?小狗狗眉头一皱,打算在已经原本想放弃的可能性中,尽可能地多挑几个都算一下试试。

  AlphaGo这只小狗狗,怎么就成了“阿老师”?

  蒙特卡洛树搜索的步骤(图源:wiki)

  最后,小狗狗会所有的结果放在一起比较,来决定到底要听谁的。

  小狗狗也会找机会跟人类高手(比如李世乭)互相殴打。切磋之后,狗爹DeepMind会带着小狗狗回伦敦老家,研究这次比赛的数据,继续闭关修炼。

  “阿老师”的重现江湖

  有一天,武林上突然出现一位自称Master(大师)的人物,通过网络嗷嗷跟人类顶级玩家过招,且从来没有输过。

  事后大家才知道,它就是小狗狗。不过,据狗爹DeepMind讲,小狗狗进化成阿老师啦,以前三个月的事儿,现在他们一星期就可以搞定!

  AlphaGo这只小狗狗,怎么就成了“阿老师”?

  DeepMind创始人哈萨比斯(Demis Dassabis)

  阿老师真身跟柯洁对弈的第二天,DeepMind就介绍了如今阿老师的功力。简单说就是:阿老师可以让小狗狗3个子儿。

  从大脑发育程度上讲,小狗狗只有12层神经网络,而成年后的阿老师已经有40层了。无敌太寂寞,阿老师已经开始减少对人类棋谱的依赖,更多地依靠深度学习、自我对弈来修行了。

  阿老师聪慧起来,算法也就更高效。所以,阿老师需要进行的运算量,只是勤劳但是笨拙的小狗狗的十分之一。小狗狗需要耗用50个TPU(可以理解成一种提升脑力运算速度的高级狗粮),阿老师在单个TPU机器上就可以战斗。

  阿老师的自我修行,也给它积累了最好的训练数据。阿老师勤劳分析自己跟自己打架之后的每一地鸡毛,通过各种复盘和回想,逼着自己找出最关键的那步棋。

  “狗爹”的星辰大海

  对阿老师的爸爸DeepMind来讲,跟人类玩家的战局只是训练决策的一种游戏而已。

  狗爹的目标,可是大海星辰呀。在解决围棋问题的过程中,阿老师要利用策略网络来减少搜索的宽度,再利用价值网络减少搜索的深度。让阿老师下围棋,只是为了训练它深度学习、强化学习的能力,最终化身通用智能,实现人机合作,走上狗生巅峰。

  AlphaGo这只小狗狗,怎么就成了“阿老师”?

  决策网络和价值网络

  让人类跟阿老师互相殴打,是为了让两边熟悉一下彼此,更方便合作。狗爹打比方说,阿老师其实是新的哈勃望远镜,就像人类以前可以用哈勃望远镜探索宇宙,现在也可以借助阿老师来发现新的知识。

  “我不在意谁下赢围棋!”狗爹讲,“因为最终的胜利属于全人类。”

  相关阅读:

  AlphaGo:人类围棋驶向 2.0 时代的船票

  柯洁说:后两场全力以赴,之后不再与AI对弈

  人工智能注定统治人类,在最后挣扎的人机对弈前你要读完这篇文章

  不建日程、寻路、找吃的,为什么小冰不像其他AI那样争做你的秘书?

相关阅读:

  • alphago被踢出世界围棋排名
  • 小狗狗刚到家怎么处理
  • alphago为什么会下围棋
  • 阿狸狗破戒大师
  • 泰迪狗狗生小狗狗后吃什么好
  • 狗粮怎么喂给小狗狗吃
  • 阿莫老师谈单教程
  • alphago内部数据曝光
  • 绝艺与阿法狗谁厉害
  • 长大后我就成了你 老师
  • 老师,放开阿sir
  • 魔鬼夜访阿法狗
  • 相关推荐:

  • 华为史上最美操作系统,你绝对不能错过的EMUI5.0
  • 国产操作系统典范:deepin操作系统
  • 娱乐办公两不误!这个笔记本能把屏幕拔下来写字
  • 斗鱼响应新规加强监管,坚持打造优质精品直播
  • SpaceX 火箭爆炸原因确定:液态氧过冷成了固态
  • 华为Mate9中国版真机秀 你绝对没发现它有两种版本
  • 99%的人都不知道的微信高效使用术?
  • 乐视网一周蒸发88亿元 贾跃亭反思节奏发展过快
  • 似乎已经战胜传统渠道的小米 今年为什么被OPPO、vivo 打败?
  • 优雅商务风,性能一鸣惊人—TCL 950体验评测
  • 转载请注明出处。


    1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

    相关文章