• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

一个纯净、纯粹自我学习的 AlphaGo 是最强的……对于 AlphaGo 的自我进步来讲……人类太多余了。

—— 柯洁

大声

2017-10-19 12:51

2017 年 5 月,在中国乌镇举行的「人机终极对决」,当今世界排名第一的人类围棋选手柯洁,输给了 Google 旗下的人工智能程序 AlphaGo。

尽管自那之后,人类还在不断追赶,但 AlphaGo 却已飞升到了更高的境界。

10 月 18 日,DeepMind 在《自然》杂志上发表了新论文,正式向世人介绍了 AlphaGo 的最新版本——AlphaGo Zero,官方称之为 AlphaGo 的「终极版」(Final Version)。

AlphaGo Zero 有多强?

当初以 4:1 完胜李世乭的 AlphaGo Lee,已经是人类围棋界的顶级水平,但与 AlphaGo Zero 对弈,比分是 100:0,完败。

几个月前,在乌镇以 3:0 击败柯洁,成为世界冠军的 AlphaGo(Master),也被 AlphaGo Zero 挑于马下——胜率高达 90%。

毫无疑问,AlphaGo Zero 就是当今世上棋力最强的围棋选手。更可怕的是,AlphaGo Zero 的成长,完全没有人类进行干预。

以往,AlphaGo 的成长,主要是先通过分析成百上千份人类高手的棋谱,再进行自我对弈的方式来提高水平——人类高手的棋谱会告诉 AI,到底该把子落在哪个位置才对。可是对 AI 来说,学习人类的下棋方式,成本实在太高了,可能会走很多弯路。要是一开始就完全抛弃人类的经验,那结果又会怎样?

怀着这样的思考,AlphaGo Zero 诞生了。从一开始,AlphaGo Zero 就是一张白纸,人类只教给了它最基础的围棋规则,以致于最开始,AlphaGo Zero 甚至会填真眼自杀。

但仅仅过了三天,AlphaGo Zero 就有了惊人的进步,曾经击败李世乭的 AlphaGo Lee,此时已经不是 AlphaGo Zero 的对手。整整 100 场对决,没有赢过 AlphaGo Zero 一次。

自我对弈到 21 天时,AlphaGo Zero 已经达到了 Master 的水平,2016 年底,Master 曾在网上与数十位人类顶级棋手交战,最终以 60:0 的大比分完胜。

最终,当 AlphaGo Zero 自我对弈到第 40 天时,已经击败了之前所有版本 AlphaGo 程序,成为新晋的「世界围棋冠军」。

(AlphaGo Zero 成长曲线,图片来源:DeepMind

有意思的是,AlphaGo Zero 自学而成的许多围棋知识,包括打劫、征子、棋形、布局先下角等,都与人类围棋观念一致,这也间接呼应了人类千百年来围棋研究的价值。

AlphaGo Zero 强大的秘密在哪里?

AlphaGo Zero 采用了新型的「强化学习」模型,让自己成为自己的老师。尽管一开始,对弈双方的水平都不怎么样,但经过将神经网络与强大的搜索算法相结合,不断地对棋路进行调整,最终得以预测对手的动作,并取得胜利。

AlphaGo Zero 进行自我对弈的好处在于,每一场对决,双方的棋力都处在同一水平线上,每场对弈过后,系统性能都会小幅上升,自我对弈的水准越来越高,AlphaGo Zero 也随之变得越来越强。

(AlphaGo Zero 不同阶段的棋局变化,图片来源:DeepMind

这项技术让 AlphaGo Zero 得以完全摆脱人类的束缚,创造自己的知识体系。虽然调用的算力更少了,却能成为了更强大的棋手。

与之前版本相比,AlphaGo Zero 有几大差异:

  • AlphaGo Zero 仅仅调用棋盘上的黑子与白子下棋,而过去版本的 AlphaGo,多少还有一点人工设计的功能
  • AlphaGo Zero 只使用了一套神经网络。早期版本的 AlphaGo 里内置了两套神经网络模型,其中一套「策略网络」,用于判断下一步该怎么走;另一套「价值网络」,用于预测到底哪方才是胜利者;而 AlphaGo Zero 将二者合而为一,能够更高效地进行训练,并且提升对赛况的判断力
  • AlphaGo Zero 不再使用「Rollouts」——大部分围棋程序会通过快速、随机地落子来判断棋局的走向,但 AlphaGo Zero 则是通过优质的神经网络来对下棋位置进行评估。

这些差异让 AlphaGo Zero 的系统性能更强、更具普适性。算法的改进让整套系统变得更加强大、运行更为高效。

硬件与算法的进步也让 AlphaGo Zero 所需要的算力大大降低,仅仅需要 4 个 TPU(由 Google 开发的人工智能专用芯片),而与李世乭对弈的 AlphaGo Lee 所需要的算力多达 48 个 TPU,是 AlphaGo Zero 的 12 倍。

(历代 AlphaGo 所需的算力对比,图片来源:DeepMind

长期以来,不少人有这样的误区:机器学习最重要的就是大数据和海量计算。但 AlphaGo Zero 的出现证明,合适的算法,可能比数据和算力更重要。DeepMind 的 CEO Demis Hassabis 表示:

我们正在努力尝试建立通用算法,这仅仅是一小步,但足以振奋人心。

未来,我们或许能在围棋之外的多个领域见到 AlphaGo 活跃的身影,也许是帮助医疗人员设计新药,也可能是帮助气象专家预测天气——如果通用算法诞生,那么许多科学问题也可以借助 AI 的力量来解决。

AI 是否真的能够超越人类,现阶段我们无从得知。但或许正如柯洁所言:

一个纯净、纯粹自我学习的 AlphaGo 是最强的……对于 AlphaGo 的自我进步来讲……人类太多余了。

题图来源:The Verge

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中

AI 不是一个让大家留住的结果,但它是一个重要的影响因素。

查看全文 —— 一加中国区总裁 李杰

(成本)压力该扛还要扛,消费者压力比我们还要大。

查看全文 —— 荣耀 CEO 赵明

终端智能化分级的意义,在于让智能体的体系标准可以被度量化、标准化,这样才能发现很多潜在的问题。在度量化之后,才会有高质量的产出,进而推动这个行业的发展。

查看全文 —— 荣耀产品线总裁方飞

ColorOS 15 与 ColorOS 7 相比,我们对「轻快、流畅」的认知有了质的提升。我们做了很多「人因研究」,将定性体验变为定量的标准,以便更好地优化产品。

查看全文 —— OPPO ColorOS设计总监 陈希

汽车行业已经从传统的比机械性能到了电气化时代、信息化时代的较量,因此智能科技就成为了新的竞技场,汽车企业的竞争力不再单一地依赖于产品性能。

查看全文 —— 星纪魅族 COO 廖清红