内容发布更新时间 : 2024/12/23 16:11:27星期一 下面是文章的全部内容请认真阅读。
基于阿尔法狗的现代人类围棋新型算法探析
人工智能对我的认知造成的首次冲击是在alphago以4:1战胜李世石的时候。大家可能没有这么深刻的感受,但是在赛前,我的朋友圈的棋友一边倒的认为,计算机是绝对不可能战胜人类的。站在今天去反思这件事情,当时何以会如此夜郎自大?其实也不是没有根据的。
大家应该有所了解,对于人工智能来说,决策是它的关键要素。而围棋的难度在于,决策空间实在太大。围棋棋盘上有361个交叉点,如果简单地进行排列组合,那就是361!种可能的组合方式,大约是 10 的 170 次方, 超过宇宙原子总数。在近乎无穷的决策空间中, 暴力搜索出当前棋盘的下一步最优走子是绝对不可能的事情。并且,围棋的形势判断非常微妙,并没有一个比较客观的方式。对同一步棋,不同的棋手可能会形成截然相反的评判意见。比如:选择并不坚实却灵巧快速的布局,还是选择厚重稳妥但略显缓慢的着手?不同风格的棋手都会有不同看法。
这两大难题,如果说前者仍旧处于理性和科学层面,那么后者可以说已经接触到了人类的感性体验。“阿尔法”在这两个难题上的突破,可以说是人工智能一个令人震惊的飞跃。
那下面我们就来看一看,阿法狗所代表的人工智能,究竟是怎样实现这样的突破的。
·蒙特卡洛树搜索和深度神经网络
对于第一个计算量过大的问题。阿法狗是在这样的超级空间中,做到尽可能有效的路径选择。其思路是一个框架加两个模块:解决框架是蒙特卡洛树搜索,两个模块分别是策略网络和价值网络。阿法狗的蒙特卡洛树
搜索系统,研究了三千万局棋局,通过采样来逼近最优解。它的深度神经网络中,策略网络根据当前棋盘状态决策下一步走子,降低了搜索宽度;而价值网络根据当前棋盘状态判断,减小了计算深度。这使得阿法狗可以针对筛选后的着手点进行深度计算。这是解决穷举之难题尤为重要的一点。
而对于第二个问题,形式判断的难题。简单地说,阿尔法狗已经不是利用计算机超快的速度来穷举各种可能,而是在某种意义上具备了“思考”的能力。它不再亦步亦趋地将以往棋手的经验集中起来对付人类,而是形成了自己的围棋观点和思路。
深度强化学习是一模仿人类行为思路的方 法,它使得机器能够与人一样从高维感知输入进 行 学 习。但 是, 由 于缺乏使其对应到人脑机理中的生理学基础, 使其更深层次的研究受到了一定的限制。将深度强化学习算法对应到人脑机
理的生理学研 究, 是 一 项 难 度 极 高 的 工 作, 也 是 一 项 重 要 的工作。
尽管这场象征着人类智慧最后堡垒的围棋“人机大战”意义重大,但仍不足以上升到人工智能与人类智慧孰胜孰败的高度。尽管战胜了李世石,阿尔法围棋仍然只是一个具备学习能力的庞大数据库,仍处于最原始的 “阿尔法”水平, 还没有达到 “贝塔” 层次。人工智能仍面临技术瓶颈,目前应用范围还很狭窄,要像人类那样处理复杂和模糊的情形,还有很长的路要走。更为关键的是,人工智能的发展有赖于人类脑神经科学的突破,任何人工智能都是人类科研成果
的结晶,都不可能超越人脑。何况人类自身对于
大脑的认识目前也还处于相当初级的阶段。
同样是预测下一步, 走子网络和快速走子的要求是截然不同的. 快速走子的首要目的是稳定判分,保证每块棋的死活大体正确, 而对大局观的要求并不高。 理论上双方完全可以配合着把每块棋下清楚, 然后转战另一块,而不是说抢着去别处占先手. 因此, 快速走子的走棋质量变好未必对应于更精准的盘面估计. 但走子网络对于脱先和抢先手的感觉需要非常灵敏, 不然下出来的棋只会在意于局部的纠缠, 而失去了对全局的把控力. 近年来计算机围棋的大进展, 正是因为卷积神经网络能从大量数据中抽取全局感。