把一百个 AI 放到游戏里内斗,活下来的它会梦到黑暗森林吗?
在一个专属于 AI 的游戏世界里,它们更像动物一样活动和学习。
短短的几年间,人工智能已经在越来越多的游戏上战胜了大部分人类。
发生在围棋领域的事情不用多说,在更加复杂的电子游戏领域,人工智能的表现也越来越好——最典型的例子就是 OpenAI 在《Dota2》《星际争霸 2》以及平台跳跃等诸多游戏上的尝试,人类在面对 AI 时已经越来越讨不到好了。
▲去年 8 月 OpenAI 在《Dota2》中击败了五位高分段玩家组成的战队
▲去年末 OpenAI 举办的人工智能游戏大赛中学会找游戏 Bug 的 AI
现在,研究人工智能的学者们已经不再满足于让 AI 击败人类了。
去年 9 月,OpenAI 团队提交了一篇论文的初稿,题为《神经 MMO:一个人工智能的大型多人游戏环境》。与之前在竞技类游戏发力的 AI 模型不同,这次研究者并没有以「击败人类」为目的,而是试图模拟人类乃至生物的行为。
众所周知,生物能够不断进化很大的原因就是不同物种间竞争的存在,科学家们觉得这点非常契合 AI 能「不断自我学习并进化」的主基调。
他们借鉴了多款流行的大型多人在线网游,构建出了一个「资源有限,竞争者众多」的游戏环境,来观察其中的几十上百个 AI 将如何行动——是的,这个游戏的玩家只有 AI,没有真人。
▲前天这个论文才正式发布在 OpenAI 的博客中
这个游戏被命名为「Neural MMO」(神经 MMO)。最多 128 名 AI 会作为玩家降生在游戏地图的边缘。世界中有可以通行的草地、森林和无法通过的水域、岩石。AI 有饥饿度和口渴度,在森林方块可以获得食物,在水方块可以获得饮水。水是无限的,但森林方块能够提供的食物是有限的,被吃完后必须等很长一段时间才能回复。
当然,AI 的目标是生存下去,存活时间越长,得到的分数和评价也就越高。
▲Neural MMO 的游戏截图
单单从「存活下去」这点来看,这个游戏很像是吃鸡游戏——有限的资源,众多的竞争对手,目标是活得最长。事实上科学家们最初也觉得 AI 最终会开始互相厮杀以占有更多资源,他们还专门为 AI 们设计了三种战斗方式——高伤害的近战 AOE、低伤害的远程单体和几乎没有伤害的减速法术。
在最初的狭小地图中,AI 们确实不可避免地发生了战斗。这很大程度上不仅是由于资源有限,更多的其实是因为它们没有尝试其他选择的机会——每个 AI 都被设计有战斗策略,几个 AI 遇到一起总会有 AI 判断需要先开火,最后混战在所难免。
读过《三体》的人会发现,这种情况和《三体》中描述的黑暗森林状态有微妙的相似之处,AI 们自带的战斗策略,就像书中描写的「智慧生物天生的攻击基因」,最后导致的就是 AI 版本猜疑链的产生。
下图的小剧场就是一个简单的例子。
原本位于上方的 196 和右下的 14 和平相处,都在采集森林资源而不是互相攻击。然而左边的 AI 并没有位于森林附近(虽然它前面一格就是森林),可能正是因此,它判断攻击的优先级要更高,于是突然对 196 展开了攻击。受到攻击大大增加了 196 判断中攻击的权重,一场三方混战也就不可避免了。这里 196 被攻击后没有还击,而是选择去攻击「无辜」的 14,是因为 AI 没有报复心理,所有行动全部出于逻辑判断。
但是在更大、更类似于真实自然环境的游戏世界中,情况几乎是彻底翻转了过来。研究者们发现,环境一旦稍有增大,AI 们不再经常三个四个碰到一起,他们的攻击欲望就飞速地下跌,大部分 AI 甚至把「避免发生战斗」当做最高级别的行动策略之一。
▲进阶地图不再那么狭窄,大部分遭遇都是发生在两个 AI 之间
AI 们在这种环境下不约而同地达成了一致的选择——尽可能扩大探索范围。
很难说避免战斗和扩大探索这二者,哪个是因,哪个是果。一方面,可探索的地区增多代表着资源不那么匮乏,战斗的收益也就大大降低;另一方面,战斗的收益降低让 AI 们更加热衷于扩大自己的行动范围。这两个因素互相作用,最后导致了一个出乎研究者意料,但细想起来却在情理之中的结果。
下图是 OpenAI 的研究者给出的一张比较典型的大地图下 AI 行动轨迹。
可以看出,不同颜色的线条重合得不少,代表着 AI 们时有相遇。但是大多数路线在重合后还是继续延展下去,这说明相遇后大部分 AI 没有选择你死我活的战个痛快,而是对视一眼后就继续去探索了。
这张图对于人工智能专家和普通人来说都没什么特殊意义,但是生物学家,尤其是研究生物行为的学者会发现,AI 们的行为非常接近自然界中不同动物种群的活动。
「在自然界中,动物之间的竞争可以激励它们扩散以避免冲突」,OpenAI 研究团队在报告中写道,「我们观察到 AI 的探索范围随着 AI 数量的增多而变大了。」据此,他们推测,AI 数量越多越能激励它们探索新的地图寻找资源(当然前提是不出现最开始那种狭路相逢的混战)。
▲1 个 AI 就只会一条路走到黑,而 8 个 AI 在一个地图会让它们的探索更广
这其实是一个很好理解的结果。对自然界的动物们和 AI 们而言,战斗的成本是非常高的。它们可不像坐在电脑前的人类一样,被打击后骂一句倒霉就可以继续下一局游戏了,对它们来说,生命只有一次,死亡是最大的成本(AI 可以不断重生,但它们自己不知道这点)。’
也正是因此,战斗大部分时候是万不得已的选择,这和很多人视之为普遍真理的黑暗森林法则截然相反——不过,在更大的尺度上事情更加复杂。
▲美国动物学家统计的「几只狼的活动路线」,可以看出它们尽可能不互相碰面,更别提战斗了
「事情更加复杂」,这正是计算机学者们下面要解决的问题。他们认为在目前的游戏中得出的结果,最多算是有限的推测。Neural MMO 的游戏世界虽然已经尽可能模拟了现实环境,但还是简化得太过分了。
OpenAI 团队有很多计划。下一步,他们准备引入更多的攻击方式,让 AI 们的战斗能力大幅增加(就像现实世界的人类一样);他们还计划调低森林再生食物的速度,让环境更加恶劣;另外一个规划是引入更复杂的合作机制,目前同样颜色的 AI 被设置为不能互相攻击(模拟生物的种群),还是稍显单调,因为群体和群体之间从来不是并非简单的「非敌即友」关系。
就算学者们尽可能模拟了现实环境,AI 能不能代表人类还是很值得怀疑的问题。OpenAI 团队发布了关于这个项目的论文初稿后,就有不少学者指出,人类的行为模式和 AI 的逻辑判断有极大的区别。比如人不是完全趋利避害的生物,人类种群就更不是了;再比如对「什么是利,什么是害」,人类和目前设计的 AI 模型也有很大区别——AI 把生存时间当成「利」,但人类是不是这样想还很难说。很多学者认为现在的这个游戏更像是纯粹的自然界,而 AI 更像野生动物而不是高度社会化的人类。
然而即使是这些怀疑者,也普遍认为「这个模拟相当有趣」,在 AI 研究领域意义非凡。不同于之前更多着眼于技术水准的 AI 游戏对战,这个研究涉及到了 AI 的长期判断和选择。一个长期、稳定的环境能体现 AI 长期、稳定的取舍倾向,在人类身上,我们把这个「取舍倾向」叫做「道德」。
AI 是否会有道德准则,它们通过利弊抉择得出的判断能不能算我们所说的「道德取向」,这些大哉问一直以来被人们争论不休。现在,在一款 MMO 生存游戏中,我们很可能会看到回答这些问题的曙光
本文来自微信公众号游戏研究社(ID:yysaag),作者为跳跳,爱范儿经授权发布。