玩德州扑克的“AlphaGo”来了,击败它可以拿走 20 万美元
从 1 月 11 日开始,5 名顶尖德州扑克选手将在匹兹堡的赌场展开争夺,不过,其中一名选手却不是人类。
在这项名为“人脑 VS. 人工智能”的对决中,四名职业选手 Jason Lee、Dong Kim、Daniel McAulay 和 Jimmy Chou 将分别与卡内基梅隆大学开发的 “Libratus”人工智能系统进行单挑。赛程为期 20 天,总共将对战 12 万手牌,奖金为 20 万美元。
(Dong Kim 曾在 2015 年与卡内基梅隆大学的 Claudico 对战过,图片来自:CMU)
AI 与人类对决不是什么新鲜事,但是,重点来了,本次的比拼项目的是德州扑克。
我们在下象棋或围棋的时候,能够看得到彼此手中的棋子、排兵布阵等信息,这种被称为“完整信息博弈”。而德州扑克则不同,每个玩家手中的底牌只有自己知晓,其他玩家是看不到的,所以是“非完整信息”(Imperfect information)。
(图片来自:PopularMechanics)
鉴于德州扑克独特的规则,AI 想要主宰比赛并没有那么容易。总之,与棋类游戏相比,德州扑克对于 AI 来说更具有挑战性,也是近来十分流行的人工智能测试项目。
卡内基梅隆大学的 Libratus 采用的是一种名为“纳什均衡”的对战策略,在这一策略里,只要其他玩家的策略保持不变,单一玩家就无法通过变换策略获益。
Libratus 要做的就是识别没有希望的策略,从而更快地找到纳什均衡点。经过反复的训练后,Libratus 已经能够忽略那些糟糕的路径了。
不过,Libratus 并非唯一一个会玩德州扑克的 AI,就在就在卡内基梅隆大学宣布 Libratus 出战的几天前,加拿大阿尔伯特大学抢先发表了关于扑克 AI 的论文,表示他们的 DeepStack 是世界上第一个在“一对一无限注德州扑克”上击败了职业扑克玩家的计算机程序。
上周,著名的论文网站 Arxiv 出现一篇题为《 DeepStack:无限下注扑克里的专家级人工智能》(DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker)的论文,作者是来自加拿大 Alberta 大学、捷克 Charles 大学、布拉格捷克理工大学的研究人员。
该论文显示,DeepStack 在与 33 位人类选手进行的 4.4 万手较量中,平均胜率为 492 mbb/g,一般认为人类玩家这一数据达到 50 mbb/g 就具有较大的赢面,而 750mbb/g 就是对手每局都弃牌的节奏了。
值得一提的是,DeepStack 玩的是无限下注类的德州扑克,玩法比有限下注要复杂得多。
然而,DeepStack 虽然有先发优势,但明显引发的关注度不如 Libratus。
卡内基梅隆大学模仿了 AlphaGo 的套路,赌场、机器与顶尖人类高手对决、20 万美元奖金,这显然比 DeepStack 团队一篇论文更能吸引眼球。
(图片来自:PopularMechanics)
与此同时,一些扑克专家也对DeepStack 提出了质疑,认为与其对战的玩家中没有顶级选手,而 Libratus 要面对的却是全球排名靠前的高手。
至于 20 万美元的奖金最终将被哪方收入囊中,我们还得等上差不多三周的时间。
题图来自:Geek.com