AI 能在围棋上碾压世界冠军,为什么却玩不好卡牌游戏?
从 AlphaGo 战胜世界围棋冠军柯洁,到 Libratus 在赌场大胜多位德州扑克顶尖高手,人工智能似乎已经在棋牌类游戏领域所向披靡了。
不过这不意味着人工智能就能成为新的「赌神」,因为就算 AI 能在棋盘更快计算出各种可能性,但面对看似更加简单的纸牌类游戏,反而没那么得心应手了, 研发出 AlphaGo 的 DeepMind 就把下一个挑战的目标放在了一款卡牌游戏花火(Hanabi)上。
图自:《华尔街日报》
最近 DeepMind 和 Google Brain 团队在一篇论文中披露了这项研究的进展,与之前训练过的围棋和扑克等游戏不同, Hanabi 这款游戏要求 AI 更加深入了解其他玩家的心理,进行更高层次的推理,这也是 AlphaGo 这类 AI 目前面临的瓶颈。
AI 为什么玩不好纸牌游戏,在回答这个问题有必要先简单了解一下 Hanabi 这款卡牌游戏。
Hanabi 是一款 2-5 人的合作类型卡牌游戏,包含 5 种花色的牌组 。只有将不同花色的卡牌按照一定顺序的组合排列才能达成「花火」。
在牌局中玩家不能看自己的牌,只能看别人的牌,玩家只能有限的提示进行推理,或者和其他玩家进行战略性合作,才有机会在游戏中胜出。
从游戏规则就能看出,这款游戏对于沟通和推理能力的要求比较高,AI 需要读懂其他玩家提示字面意思外的隐藏信息,并推断出对手的意图。
▲ 图片来自:《赌圣》
研究人员很快就发现这并不容易。DeepMind 团队曾用在其他博弈游戏验证过了海量数据来进行训练,让算法利用自身副本进行 200 亿次「有效无限」的动作,按照玩家每次移动需要 30 秒计算,这相当于一个人在游戏中进行了 3 亿次操作或者玩了 1.66 亿小时游戏。
这种训练的效果在双人游戏中十分有效,然而在 Hanabi 这种有 4 人或 5 人参与的游戏中,AI 的表现却始终还是比专业玩家要差得多。
研究团队指出,算法要在不同环境的更好的交流需要高效的编码和适应性。比如不同玩家表述的风格和用语可能都不一样,但即便是最先进的 AI 也无法像人一样快速适应新的玩家,AI 只能遵循复杂但相对固定的规则,比如围棋。
目前 DeepMind 还没有很好的办法来攻破 Hanabi 这款游戏,他们 Github 上发布了一个开源平台,让人们可以测试和完善这个算法。
▲ 德州扑克专业玩家在与 AI 对决 . 图片来自:pittsburghmagazine
前两年人工智能 Libratus 在德州扑克大赛战胜人类,曾引起很大轰动。这就是因为相比起围棋响起等全信息游戏(双方牌面都相互知道),扑克的变化更多,往往也无规律可循,甚至要用到虚张声势等手段来影响对手。前百度首席科学家的吴恩达曾表示:
扑克曾经是 AI 最难攻克的游戏之一,因为关于游戏状态你只能看到部分信息。扑克并没有单一的最优下法。相反,AI 玩家必须让自己的行动随机化,这样它诈唬时才能让对方无法确定真假。
相比起扑克,Hanabi 这种卡牌游戏的难度更上一层楼,有着更多的变量和不确定性,不仅要分辨迷惑人的假象,还要与其他玩家进行沟通和协作。就像在电影《赌博默示录》中,即便是石头剪刀布,随着规则变动和参与人数的增加,也能变成一项高智商游戏。
卡内基梅隆大学人工智能研究员 Noam Brown 曾指出,不限注的德州扑克单挑比赛中有 10 的 163 次方种情况,即使地球上最强的计算机也无法计算出所有的可能性。
因此 Libratus 用了 3 套不同的策略进行协作,没有用人们熟知的神经网络,而是用了其他基于心理理论的算法,能够随机化自己的行为,使对手难以看出它是否是在虚张声势。
如果 AI 彻底攻破了 Hanabi ,将会是比 AlphaGo 战胜柯洁更重要的突破。这意味着 AI 更懂人类,有能力作出更复杂的决策,比如在自动驾驶等场景能更好地与人类沟通,目前类似的 AI 技术已经开始被美国美国器官移植中心用于决定哪位病人能获得肾脏移植了。
▲《2001 太空漫游》中的人工智能 HAL 9000
同时也可能让我们进入强人工智能时代(Artificial General Intelligence),像《流浪地球》中那种能为人类未来作出理性判断的人工智能真的有可能出现了。
编者注:强人工智能在各方面都能达到人类的水平,包括能以批判性思维和抽象思维思考问题,但目前还没有人工智能可以做到。
题图来自:《赌神》