世界上最会打牌的 15 个人，输给了这个「赌神算法」

上次 AI 战胜人类玩家，还是 AlphaGo 机器人和韩国围棋冠军交锋。

现在一个名为 Pluribus 的 AI，和世界扑克冠军 PK，再次完胜人类。

但具有突破性的是，这次不再是一对一，对手是 15 名人类顶尖扑克玩家。这也是 AI 首次在超过两个人的游戏中击败人类玩家。

这次的德州扑克比赛为期 12 天，超过 10,000 手牌，形式是最受欢迎的六人无限制玩法，Pluribus 和 15 名顶尖玩家以两种模式开展比赛。

▲ 游戏示例，人工智能系统（Pluribus）和五名职业扑克玩家对抗. 图片来自：Facebook

第一种是 1 个 Pluribus 和 5 个人类玩家组赛，第二种是 1 个人类玩家和 5 个 Pluribus组赛（其中各个 Pluribus 并未相互配合），第二种形式参赛的是 2 名扑克传奇人物——Darren Elia 和 Chris Ferguson，后者曾 6 次获得世界冠军。

结果是，Pluribus 全部胜利了。

如果它是人类玩家，一个筹码值 1 美元的话，Pluribus 将能以每小时 1,000 美元的惊人速度不断赢钱。

▲ 图片来自：Getty Images

这项成就今天也发表在《科学》杂志上，文中详细介绍了人工智能 Pluribus 如何被创造出来。

Pluribus 由 Facebook 的人工智能团队和卡内基梅隆大学计算机科学系人员一起开发，两年前他们就已经研发出了名为 Libratus 的扑克游戏系统，它在德州扑克的单挑赛中一直是世界赢家。

在和单个人类比赛中，博弈论能为 AI 提供最佳策略，因此 AI 可以完全掌控游戏中的「特定路线」，预测每次游戏结束的结果后，反过来决定下一步的行为。

但这对于涉及多方利益且没有明确条件的多人游戏场景并不适用。

▲ 图片来自：Alexandre Rotenberg / Alamy

简单来说， Libratus 不能确定所有玩家手里有什么牌，不能了解对手的内心想法，无法琢磨对手的试探或虚张声势，以及他们的每一个投注决定，游戏可以说是呈指数级地复杂化。

因此研究人员在 Libratus 的基础上构建了 Pluribus，它的不同之处在于新使用了一种称为搜索功能的机制，能够对接下来的未知行为进行展望，而不是在预测最终结果后反推。

在同时应对其余几名玩家的复杂性之下，这种短期的敏锐性恰恰是最大的优势。

另外， Pluribus 算法的战略核心就是，它并不是从人类玩家或先前 AI 数据中的经验来训练算法，而是通过对抗自己来不断改进。

在进行数万亿次扑克游戏后，它创造出了一个基本策略模式，能够在不受人类干扰的情况下对抗自身的副本，然后在比赛中屡次借鉴它，并视现场情况自由发挥。

因为它在没有人类信息输入的情况下训练而成，所以它可以想到很多人类玩家不会使用的策略。

这些进步也表示，AI 能够使用更少的资源和更低的成本制造。

比起动辄十万美元的先进系统，Pluribus 短短 8 天内创建，在云服务器上培训也只用了不到 150 美元的费用。

而且 Pluribus 只用两个 CPU 就能运行，2016 年的 AlphaGo 系统用了 1,920 个 CPU 才赢得游戏，而且 Pluribus 内存不到 128 GB，每次下决定平均只用了 20 秒，速度是职业扑克玩家的两倍。

这次的成果也是衡量 AI 进展的一种很好的方法。

与国际象棋、跳棋、围棋不同，扑克游戏隐藏了信息和运气元素，这意味着它不能只是计算人类行为，而是必须超越它们。因为Pluribus 已经可以对抗多个该领域内的顶尖人类，研究人员表示，客观上来说，AI 已经被证明可以称为「超人」了。

▲ 图片来自：Gizmodo

对于后续的发展，联合开发者 Noam Brown 认为 Pluribus 已经到达了扑克游戏的极限，完成了最后一个挑战。接下来，这个技术将在更多场景被用到。

毕竟 AI 能在多人场景中使用，还能处理隐藏信息的能力，才更符合现实生活中的挑战。扑克游戏只是提供了一个现实世界的模型。

▲ 图片来自：unslash

这项研究将可以应用于各种各样的环境，例如网络安全、欺诈检测、金融谈判等等，甚至还可以帮自动驾驶汽车导航交通。

不过 Pluribus 的算法代码就不会像早期的系统迭代一样公开了，毕竟它可能会毁掉在线扑克世界。