AlphaGo 最强版本：自学 3 天完胜李世乭，40 天登顶世界冠军

2017 年 5 月，在中国乌镇举行的「人机终极对决」，当今世界排名第一的人类围棋选手柯洁，输给了 Google 旗下的人工智能程序 AlphaGo。

尽管自那之后，人类还在不断追赶，但 AlphaGo 却已飞升到了更高的境界。

10 月 18 日，DeepMind 在《自然》杂志上发表了新论文，正式向世人介绍了 AlphaGo 的最新版本——AlphaGo Zero，官方称之为 AlphaGo 的「终极版」（Final Version）。

当初以 4:1 完胜李世乭的 AlphaGo Lee，已经是人类围棋界的顶级水平，但与 AlphaGo Zero 对弈，比分是 100:0，完败。

几个月前，在乌镇以 3:0 击败柯洁，成为世界冠军的 AlphaGo（Master），也被 AlphaGo Zero 挑于马下——胜率高达 90%。

毫无疑问，AlphaGo Zero 就是当今世上棋力最强的围棋选手。更可怕的是，AlphaGo Zero 的成长，完全没有人类进行干预。

以往，AlphaGo 的成长，主要是先通过分析成百上千份人类高手的棋谱，再进行自我对弈的方式来提高水平——人类高手的棋谱会告诉 AI，到底该把子落在哪个位置才对。可是对 AI 来说，学习人类的下棋方式，成本实在太高了，可能会走很多弯路。要是一开始就完全抛弃人类的经验，那结果又会怎样？

怀着这样的思考，AlphaGo Zero 诞生了。从一开始，AlphaGo Zero 就是一张白纸，人类只教给了它最基础的围棋规则，以致于最开始，AlphaGo Zero 甚至会填真眼自杀。

但仅仅过了三天，AlphaGo Zero 就有了惊人的进步，曾经击败李世乭的 AlphaGo Lee，此时已经不是 AlphaGo Zero 的对手。整整 100 场对决，没有赢过 AlphaGo Zero 一次。

自我对弈到 21 天时，AlphaGo Zero 已经达到了 Master 的水平，2016 年底，Master 曾在网上与数十位人类顶级棋手交战，最终以 60:0 的大比分完胜。

最终，当 AlphaGo Zero 自我对弈到第 40 天时，已经击败了之前所有版本 AlphaGo 程序，成为新晋的「世界围棋冠军」。

（AlphaGo Zero 成长曲线，图片来源：DeepMind）

有意思的是，AlphaGo Zero 自学而成的许多围棋知识，包括打劫、征子、棋形、布局先下角等，都与人类围棋观念一致，这也间接呼应了人类千百年来围棋研究的价值。

AlphaGo Zero 采用了新型的「强化学习」模型，让自己成为自己的老师。尽管一开始，对弈双方的水平都不怎么样，但经过将神经网络与强大的搜索算法相结合，不断地对棋路进行调整，最终得以预测对手的动作，并取得胜利。

AlphaGo Zero 进行自我对弈的好处在于，每一场对决，双方的棋力都处在同一水平线上，每场对弈过后，系统性能都会小幅上升，自我对弈的水准越来越高，AlphaGo Zero 也随之变得越来越强。

（AlphaGo Zero 不同阶段的棋局变化，图片来源：DeepMind）

这项技术让 AlphaGo Zero 得以完全摆脱人类的束缚，创造自己的知识体系。虽然调用的算力更少了，却能成为了更强大的棋手。

与之前版本相比，AlphaGo Zero 有几大差异：

AlphaGo Zero 仅仅调用棋盘上的黑子与白子下棋，而过去版本的 AlphaGo，多少还有一点人工设计的功能
AlphaGo Zero 只使用了一套神经网络。早期版本的 AlphaGo 里内置了两套神经网络模型，其中一套「策略网络」，用于判断下一步该怎么走；另一套「价值网络」，用于预测到底哪方才是胜利者；而 AlphaGo Zero 将二者合而为一，能够更高效地进行训练，并且提升对赛况的判断力
AlphaGo Zero 不再使用「Rollouts」——大部分围棋程序会通过快速、随机地落子来判断棋局的走向，但 AlphaGo Zero 则是通过优质的神经网络来对下棋位置进行评估。

这些差异让 AlphaGo Zero 的系统性能更强、更具普适性。算法的改进让整套系统变得更加强大、运行更为高效。

硬件与算法的进步也让 AlphaGo Zero 所需要的算力大大降低，仅仅需要 4 个 TPU（由 Google 开发的人工智能专用芯片），而与李世乭对弈的 AlphaGo Lee 所需要的算力多达 48 个 TPU，是 AlphaGo Zero 的 12 倍。