被AlphaGo之父刷屏了?3段视频让你了解人机大战的真实意图
2017-05-23 编辑:
编者按:本文来自微信公众号“AI100”(ID:rgznai100),36氪经授权发布。
AlphaGo与柯洁大战在即,它的创造者杰米斯·哈萨比斯又是如何考虑这场人机比赛的?他如何看待柯洁?
哈萨比斯对深度学习和人工智能的理解又是怎样的?他何以如此相信通用型人工智能,或者说强人工智能?
我们先看AlphaGo之父几个相关的演讲片段。之后,我们会请CSDN、极客帮创投和AI100的创始人蒋涛专门来点评这场大战。
柯洁已经输过,重要吗?
提起AlphaGo大战柯洁,就不能不提年初大战群雄的Master。
2016年12月29日晚七点,弈城围棋网出现疑似为AI的围棋高手“Magister”,后来改名“Master”;2017年1月1日晚十一点,它又转战至野狐围棋网。Master以每天十盘的速度在两个围棋对战平台上挑战中、韩、日、台的顶尖高手,至结束时60战全胜,大胜柯洁、朴廷桓、陈耀烨、古力、常昊、朴永训等世界冠军。
其中,柯洁三次败北,他为此辗转反侧,夜不成寐。柯洁在微博中说,“人类数千年的实战演练进化,计算机却告诉我们人类全都是错的。我觉得,甚至没有一个人沾到围棋真理的边。”
因为,AlphaGo一直在自我创新,比如,下图左侧的棋局中:
右下角红色圆圈处的黑子,落子所在的第二条线交点,在人类过往的认识中就不是那种有效的位置。
柯洁在微博中紧接着写道,“从现在开始,我们棋手将会结合计算机,迈进全新的领域达到全新的境界。”哈萨比斯在演讲中专门说到了这里的异曲同工之处:“柯洁提到了围棋的真理,我们在这里谈的是科学的真理。”
“就算阿法狗战胜了李世石,但它赢不了我。”
相比去年AlphaGo大战李世石时这句狂言,柯洁后来就收敛多了。问题是现在,他心里还有人类必胜的信念吗?
超越人类认知的极限
在谈Master前,哈萨比斯先解释了如何进一步改进AlphaGo,特别是如何在围棋上超越人类的认知极限:
首先,他要继续研究李世石打败AlphaGo的第四局比赛,以填补AlphaGo在知识上的空白。解决办法是建立一个新的AlphaGo分系统,用以迷惑主系统。同时进一步优化系统性能,过去需要至少3个月才能完成的训练,现在仅需一周时间。
其次,我们需要理解AlphaGo所采取的决定,并对其进行解释——它这样做的原因是什么,是否符合人类的想法?通过对比人脑对不同落子位置的反应与AlphaGo对落子位置的反应,也许我们就能找到一些关于围棋的新知识。
打造强人工智能
这就说到了AlphaGo,或者说是DeepMind的使命。
解决什么是智能的问题;用它来解决其他所有的问题。
哈萨比斯相信,如果人工智能最基本的问题得以解决,理论上任何问题都可以被解决。
他的方法是打造一台通用型学习机器,也就是强人工智能。哈萨比斯认为这是可能的,只要通过大量的数据资源找到最合适的解决方式和算法,具体的技术就是“强化学习”。
他的解释是这样的:
首先,想像这样一个AI代理,它需要了解自己所处的环境,并尽力找出其要达成的目的。此处的环境可以是真实事件、机器人、虚拟世界;带来通过两种方式与周围环境接触——观察并据此做出行动。
然后,在此基础上,建模并找出最佳选择,这会涉及到对未来的预期、想像,以及假设检验。通常,代理是处于真实环境中,到时间,系统会输出当前所找到的最佳方案。而该方案会或多或少地改变环境,进一步驱动结果的观察,并反馈给代理。
这就是强化学习的原理,示意图很简单,但其中涉及的是极其复杂的算法和原理。如果大部分的问题得以解决,我们就能打造出通用型的人工智能。
从数学角度讲,在计算机硬件和时间无限的前提下,打造一个通用型的人工智能,所需要的只有信息,大量的信息。从生物机制讲,人脑是受多巴胺控制的,它所执行的就是强化学习的功能。因而,强化学习会是解决人工智能问题的有效工具。
由此看来,就算打败柯洁,AlphaGo依旧征途漫漫。
相关阅读:
相关推荐: