我和三个最强王者,在《王者荣耀》里被 AI 打得抱头鼠窜
那一天,《王者荣耀》玩家们终于回想起,曾一度被 AI 集火杀死的恐怖,和被连续击飞冰冻嘲讽加晕眩四连控的那份屈辱。
在山的那边海的那边,王者峡谷里面,有一群 AI 机器人宝宝,他们的主要作用是被《王者荣耀》玩家练手,吊打,获取经验值和活跃度,几乎没有还手之力。他们每天贡献的人头数,可以绕地球两圈。
终于,创造他们的腾讯爸爸看不下去了,做出了两套 AI,一套是现在版本游戏里面的「困难」人机模式,一套是在电竞领域的「绝悟」AI。
AI 居然这么强?
作为一名休闲玩家,秉着一个赛季上一个大段位的步骤,本赛季不慌不忙地上了星耀段位,然后就玩匹配和边境突围模式去了,看到游戏里面上了「困难」人机模式之后,就抱着试一试的心态去玩了一下。
匹配的第一场里面,队友有三个最强王者(游戏里最高的段位),还有一个星耀段位(游戏里第二高的段位),基本上说明了这五个人都是熟手,操作意识不会有太大问题。在腾讯公布的数据里,王者段位和星耀段位玩家加起来,占整个玩家数量的 10% 出头,可以认为大家都是水平靠前的玩家。
由于是人机模式,大家都是抱着娱乐的心态,选英雄阶段也没考虑阵容和配合,基本上都是随便选。在以往的经验里,人机模式就是用脚操作都能随便赢的。
然而,游戏没开始多久,「困难」人机模式就打得大家怀疑人生了。于是聊天频道就不停地出现这样的对话:
这他喵的是人机?
怎么这么厉害?
这支援速度也太快了吧?
居然会反野(注:进入地方区域掠夺资源的行为,高风险高收益)?
我擦,配合怎么这么厉害?
兄弟们别单带了,打团吧,单带打不过。
哎呀,别送了,别送了。
这人机得有王者段位了吧?
在有限的 6 局对战里,我取得了四败两胜的战绩,虽然说都是以练新英雄为主,在玩自己不擅长的英雄,不过游戏里面,「困难」人机的支援速度和配合默契,还是远远超出随机路人的。这也是大家一致被打得抱头鼠窜的原因:个人操作再强,一个人也打不过两个,两个人也打不过四个。
于是,在王者荣耀贴吧里,有一个帖子讨论这个「困难」人机模式的强度,每个人的感知不太一样,多数人认为,水平在星耀和王者之间,如果抱着去虐人机的心态去打的话,肯定会被教做人。
其实,被 AI 教做人的,也不仅是普通玩家。还有前职业选手和职业解说。
前几天是《王者荣耀》职业联赛 KPL 2018 年秋季赛的决赛日,在决赛两支队伍对决之前,有一场是腾讯的 AI 战队和两名前职业选手加三名职业游戏解说(保守估计,平均水平超 99% 的玩家)的比赛。
在比赛的前半段,人类战队取得了不小的领先优势,但是打着打着就不知道怎么着,被 AI 战队把局势一点点逆转了。这种感觉就像当年很多顶尖棋手评价 AlphaGo 对战李世石的表现一样,也没有感觉 AI 有多强,但是不知不觉就赢了。
比赛结束后,人类战队的一名队员被打倒掩面无语,而另一位,则只能露出尴尬而不失礼貌的笑容。
确实,在某些时候,AI 展现出了极佳的操作水平和意识(比如下面的达摩蹲草一套连招打到赵云残血,然后接闪现秒杀),不过整体而言,AI 给人的感觉是润物细无声的强,即便前期被人类打出了大劣势,但后面依靠各种入侵地方野区掠夺资源,经济上并没有落后,绝对算是顺风不浪,逆风不投。
上一次我在游戏的人机模式里面被虐到死去活来还是《守望先锋》,不过在这款射击游戏里,「困难」模式人机的主要表现是射击准操作好,但是大局观差配合差。而到了《王者荣耀》里面的 AI,明显可以感觉到,它们是有大局观和配合的。
所以这个 AI 是什么?
其实在王者荣耀的公众号上,腾讯就已经给这个 AI 做了简要的介绍了:
策略协作型 AI 是攻克 AI 终极研究难题——通用人工智能(Artificial General Intelligence,下称 AGI)的关键一步。AGI 代表研发能在通用系统中执行多种复杂命令,达到或超越人类水平的 AI ,从担任中国国家围棋队训练专用 AI 的「绝艺」,到寓意拥有「绝佳领悟能力」的「绝悟」。
「绝悟」首先通过监督学习方法,深度模仿 KPL 职业玩家的数据;其次,会进行大量自我对战,每天的训练强度最高能达到人类 150 年的训练量…
对战中,在庞大且有不完备信息的地图上,10 位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择,形成了极为复杂的局面,预计有高达 10 的 20000 次方种操作可能性。
实际上,这还不足以解释我们心中的疑惑,好在腾讯 AI 实验室会时不时地公布他们发表的论文,其中就有一篇是关于王者荣耀的。这篇论文名为《Hierarchical Macro Strategy Model for MOBA Game AI》(《MOBA 游戏中人工智能的分层宏观策略模型》)。《王者荣耀》就是 MOBA(多人在线战术竞技)游戏的一种,此外,《英雄联盟》和 DoTA 也是玩家众多的 MOBA 游戏。
简言之,这个论文有一个核心思想:MOBA 游戏中的 AI 微观操作已经不是什么难题,难题是让这些 AI 有宏观的大局观和彼此之间的沟通协作,然后我们怎么去解决这个问题。
相比于你下一子我下一子的围棋象棋,MOBA 游戏的局势瞬息万变,迟疑哪怕是 0.2 秒,一个关键技能放错,就可能导致满盘皆输。而一局王者荣耀一般在 15 到 20 分钟,有许多个 0.2 秒,另外加上英雄走位、技能、血量、等级、经济、位置,还有王者荣耀地图的面积(分辨率 130000×130000 像素,英雄的大小是 1000 像素)等等因素叠加,以王者荣耀为代表的 MOBA 游戏有着远超围棋复杂度的动作空间和状态空间。
「绝悟」为了厘清这种千头万绪,采用了双层宏观战略架构,也就是论文的标题意思,双层分为阶段层和注意力层:阶段层旨在识别当前游戏阶段,这样注意力层就能更清楚地知道应该将注意力放在哪里;注意力层旨在预测地图上适合派遣英雄的最佳地点。
简单讲,就是在王者荣耀对战中,有五个位置,每个位置的主要职责,活动范围都是有规律的,并且,在游戏的不同阶段,会有不同的侧重点,AI 根据当前的阶段情况来调整注意力,而注意力又会指导行动。
游戏的开局阶段,各个位置基本上都是各司其事,在自己的区域活动(如上图所示)。
随着游戏进程,AI 的注意力会开始细化到入侵敌方野区,争抢河道小野怪,压制敌方下路一塔这些事情上,到后面就是要争抢小龙,压制敌方中塔等小目标上。
可以看到,AI 把注意力的重心,其实是放在了「核心资源」上的,防御塔和大龙小龙的争夺,是左右游戏走势的最重要因素,反而击杀数和死亡数,并不是绝对重要的位置。许多人类玩家因为心态缘故,会更重视击杀敌方玩家,获取愉悦感,但 MOBA 游戏本质上是个推塔游戏,故有的时候,我们可以发现,AI 其实并不纠结于击杀数。
上图反映的是游戏时间和 AI 英雄走位区域的变化,可以看到,随着游戏进程的深入,AI 英雄们的走位会越来越集中,越来越倾向于在敌方区域。这也是跟上面的注意力层相关,越往后,AI 的注意力就越往敌方深入,这个其实解决的是另外一个问题:AI 之间如何沟通协作。
为了印证这个策略的有效程度,「绝悟」AI 分别和没有宏观策略的 AI,人类顶尖选手,没有交流协作机制的 AI,以及没有阶段层策略的 AI 进行了四组对战,上图显示的胜率还是比较能说明「分层宏观策略模型」是行之有效的。
说实话,我觉得这个 AI 还有个好的用处,那就是在有队友掉线挂机的时候,AI 来接管玩家的操作,以免造成其他玩家的心理伤害。