有了这些,机器就能玩的可以了,但是,毕竟还有很多的空间没有尝试过,也不能保证当前的模型预测的每一步都是最优,因而,AlphaGo 心里不是特别有底气。那怎么办?这时,机器需要求助于蒙特卡洛了,就是在下棋的过程中,以当前的状态为起点,在有限的时间内,尽量多的再探索一些搜索空间。这个探索的办法,就是暴力采样,一个一个的试,这么看来,是不是有点“笨”。
具体来说,“蒙特卡洛树搜索”是一种启发式的搜索策略,能够基于对搜索空间的随机抽样来扩大搜索树,从而分析围棋这类游戏中每一步棋应该怎么走才能够创造最好机会。来个通俗的解释,假如筐里有100个苹果,让你每次闭眼拿1个,挑出最大的。于是你随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……你每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大,但你除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的算法,就属于蒙特卡罗算法,尽量找好的,但不保证是最好的。想像这个拿苹果的场景,是不是就感觉累,而且有点“笨”,然而,对于机器来说,它可是要做巨多的这种尝试。确实是劳模。
好了,好了,AlphaGo 如果你不“笨”,能和人类一样,触类旁通就牛逼,能不能玩一些人类很容易适应的新玩法,还是围棋,比如,将棋盘改成一个比19大的,或是改变下棋时的一个小小规则,这样,也许能更好得证明不“笨”。这个场景,涉及到另外的一个机器学习领域,就是迁移学习。人类,好像特别擅长。
这么看来,你是不是也感觉 AlphaGo 其实挺“笨”的,这个“笨”,其实是人类把自己能解决此类问题,用的最聪明的“笨”办法教给机器了。至少到现在为止,AlphaGo,在还没有像爱因斯坦的E=MC2的美妙数学公式发明前,也是最聪明的了。
期待不久的将来,AlphaGo 能“抛弃”人类教他的“笨”办法,和爱因斯坦一比高下。那时,让人类真正体验到你的自有的智慧和聪明。
相关阅读:
相关推荐:
转载请注明出处。