• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

一个纯净、纯粹自我学习的 AlphaGo 是最强的……对于 AlphaGo 的自我进步来讲……人类太多余了。

—— 柯洁

大声

2017-10-19 12:51

2017 年 5 月,在中国乌镇举行的「人机终极对决」,当今世界排名第一的人类围棋选手柯洁,输给了 Google 旗下的人工智能程序 AlphaGo。

尽管自那之后,人类还在不断追赶,但 AlphaGo 却已飞升到了更高的境界。

10 月 18 日,DeepMind 在《自然》杂志上发表了新论文,正式向世人介绍了 AlphaGo 的最新版本——AlphaGo Zero,官方称之为 AlphaGo 的「终极版」(Final Version)。

AlphaGo Zero 有多强?

当初以 4:1 完胜李世乭的 AlphaGo Lee,已经是人类围棋界的顶级水平,但与 AlphaGo Zero 对弈,比分是 100:0,完败。

几个月前,在乌镇以 3:0 击败柯洁,成为世界冠军的 AlphaGo(Master),也被 AlphaGo Zero 挑于马下——胜率高达 90%。

毫无疑问,AlphaGo Zero 就是当今世上棋力最强的围棋选手。更可怕的是,AlphaGo Zero 的成长,完全没有人类进行干预。

以往,AlphaGo 的成长,主要是先通过分析成百上千份人类高手的棋谱,再进行自我对弈的方式来提高水平——人类高手的棋谱会告诉 AI,到底该把子落在哪个位置才对。可是对 AI 来说,学习人类的下棋方式,成本实在太高了,可能会走很多弯路。要是一开始就完全抛弃人类的经验,那结果又会怎样?

怀着这样的思考,AlphaGo Zero 诞生了。从一开始,AlphaGo Zero 就是一张白纸,人类只教给了它最基础的围棋规则,以致于最开始,AlphaGo Zero 甚至会填真眼自杀。

但仅仅过了三天,AlphaGo Zero 就有了惊人的进步,曾经击败李世乭的 AlphaGo Lee,此时已经不是 AlphaGo Zero 的对手。整整 100 场对决,没有赢过 AlphaGo Zero 一次。

自我对弈到 21 天时,AlphaGo Zero 已经达到了 Master 的水平,2016 年底,Master 曾在网上与数十位人类顶级棋手交战,最终以 60:0 的大比分完胜。

最终,当 AlphaGo Zero 自我对弈到第 40 天时,已经击败了之前所有版本 AlphaGo 程序,成为新晋的「世界围棋冠军」。

(AlphaGo Zero 成长曲线,图片来源:DeepMind

有意思的是,AlphaGo Zero 自学而成的许多围棋知识,包括打劫、征子、棋形、布局先下角等,都与人类围棋观念一致,这也间接呼应了人类千百年来围棋研究的价值。

AlphaGo Zero 强大的秘密在哪里?

AlphaGo Zero 采用了新型的「强化学习」模型,让自己成为自己的老师。尽管一开始,对弈双方的水平都不怎么样,但经过将神经网络与强大的搜索算法相结合,不断地对棋路进行调整,最终得以预测对手的动作,并取得胜利。

AlphaGo Zero 进行自我对弈的好处在于,每一场对决,双方的棋力都处在同一水平线上,每场对弈过后,系统性能都会小幅上升,自我对弈的水准越来越高,AlphaGo Zero 也随之变得越来越强。

(AlphaGo Zero 不同阶段的棋局变化,图片来源:DeepMind

这项技术让 AlphaGo Zero 得以完全摆脱人类的束缚,创造自己的知识体系。虽然调用的算力更少了,却能成为了更强大的棋手。

与之前版本相比,AlphaGo Zero 有几大差异:

  • AlphaGo Zero 仅仅调用棋盘上的黑子与白子下棋,而过去版本的 AlphaGo,多少还有一点人工设计的功能
  • AlphaGo Zero 只使用了一套神经网络。早期版本的 AlphaGo 里内置了两套神经网络模型,其中一套「策略网络」,用于判断下一步该怎么走;另一套「价值网络」,用于预测到底哪方才是胜利者;而 AlphaGo Zero 将二者合而为一,能够更高效地进行训练,并且提升对赛况的判断力
  • AlphaGo Zero 不再使用「Rollouts」——大部分围棋程序会通过快速、随机地落子来判断棋局的走向,但 AlphaGo Zero 则是通过优质的神经网络来对下棋位置进行评估。

这些差异让 AlphaGo Zero 的系统性能更强、更具普适性。算法的改进让整套系统变得更加强大、运行更为高效。

硬件与算法的进步也让 AlphaGo Zero 所需要的算力大大降低,仅仅需要 4 个 TPU(由 Google 开发的人工智能专用芯片),而与李世乭对弈的 AlphaGo Lee 所需要的算力多达 48 个 TPU,是 AlphaGo Zero 的 12 倍。

(历代 AlphaGo 所需的算力对比,图片来源:DeepMind

长期以来,不少人有这样的误区:机器学习最重要的就是大数据和海量计算。但 AlphaGo Zero 的出现证明,合适的算法,可能比数据和算力更重要。DeepMind 的 CEO Demis Hassabis 表示:

我们正在努力尝试建立通用算法,这仅仅是一小步,但足以振奋人心。

未来,我们或许能在围棋之外的多个领域见到 AlphaGo 活跃的身影,也许是帮助医疗人员设计新药,也可能是帮助气象专家预测天气——如果通用算法诞生,那么许多科学问题也可以借助 AI 的力量来解决。

AI 是否真的能够超越人类,现阶段我们无从得知。但或许正如柯洁所言:

一个纯净、纯粹自我学习的 AlphaGo 是最强的……对于 AlphaGo 的自我进步来讲……人类太多余了。

题图来源:The Verge

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中

现在的 7、8、9 系索尼电视,其实很多的技术都是来自于电影工业级技术的下放。

查看全文 —— 索尼(中国)有限公司消费电子营业本部总裁谢飚

如果家电仅仅只接入 DeepSeek,可能也很难给消费者很好体验,没法让这个家电变得多么的不一样。

查看全文 —— 美的集团厨房和热水事业部总裁 张斌

过去有人说摩尔定律停滞了,但我相信 AI 芯片重新激发了市场活力,它不仅不会停滞,甚至还会加速。

查看全文 —— 联想集团董事长兼 CEO 杨元庆

我们做一个产品的时间是别人的十倍,但我们需要做出差异化,这样子才有我们的一席之地。

查看全文 —— Nothing 高管

我们(解决续航焦虑)的思路有两个,一个是把容量做大,二是在容量不变情况下把单次充电时间减短。

查看全文 —— 真我 GT 系列、Neo 系列产品线负责人谭睿韬