AGI(通用人工智能)将在5年内实现,这是OpenAI CEO奥特曼、特斯拉创始人马斯克、英伟达创始人黄仁勋等一众大咖对于未来的预测。从ChatGPT到GTP-4、再到Claude 3,如今AI的性能越来越强则已经是无需置疑的事情。
最近,大洋两岸几乎在同一时间上线了一款AI Agent。谷歌旗下的DeepMind宣布推出首个能在广泛3D虚拟环境和视频游戏中,遵循自然语言指令的通用AI智能体SIMA,而北京智源人工智能研究院、新加坡南洋理工大学、北京大学则携手提出通用计算机控制智能体框架Cradle。
如何表现SIMA和Cradle是AI智能体、而非AI大模型呢?两者的操作堪称是英雄所见略同,双方不约而同选择了游戏作为展示AI智能体能力的场景。比如,SIMA可以在《无人深空》中代替玩家驾驶宇宙飞船、并收集资源,以及在《模拟山羊3》中当司机。Cradle则直接部署在《荒野大镖客2》上,其完成了长达40分钟时的主线剧情,还能在开放世界里自由探索,包括与NPC对话、使用道具,以及在商店中购物。
显而易见,SIMA和Cradle与目前市面上一众大语言模型有着本质的区别,它们能自主感知、规划决策、执行复杂任务,还可以通过独立思考和调用工具逐步完成给定的目标,而无需人类去指定每一步的操作。从某种意义上来说,SIMA、Cradle这类AI智能体在2024年的涌现,或许在五年内实现AGI真不是马斯克、黄仁勋等人在说大话。
那么SIMA和Cradle是如何做到让AI像人类一样玩游戏的呢?SIMA给出的策略,是将预训练视觉模型与自监督学习的Transformer相结合,从用户那里接收语言指令,并从环境中获取图像观察结果,然后将它们映射为键盘和鼠标的动作。比如让不同的成对真人玩家进行互动,一名玩家观察、并指导另一名玩家进行游戏,SIMA借此捕获语言指令,又或者让玩家自由玩游戏,进而观察他们的操作,并记录下可能导致其游戏行为的指令。
而Cradle则是以GPT-4V(有视觉功能的GPT-4)为基础,让其读取、并分析游戏内的提示和教程,再生成对应的可执行代码作为技能,从而一步步丰富自己的技能库, 并在之后的游戏中重复使用这些技能。Cradle能够处理来自一系列屏幕截图的视频作为输入,并产生键盘和鼠标操作作为输出,再搭配包括自我反思、任务推理、技能策划和动作规划在内的推理模块,以及用于存储和检索经验信息和技能的记忆模块,最终完成了让AI玩游戏的效果。
AI也能像真人一样玩游戏这件事,对于游戏行业而言无异于是平地惊雷。要知道在过去二十余年间,游戏行业面临的一大难题就是如何应对脚本、外挂等自动化程序,游戏厂商与外挂黑灰产之间的斗智斗勇更是几乎贯穿了整个游戏行业的始终。但破坏游戏公平、毁灭游戏环境,则是外挂和脚本被游戏厂商深恶痛绝的原因,由于外挂会让使用者获得额外的竞争力,更是会直接毁灭竞技类游戏的游戏性。
对于MMORPG等网游来说,外挂、脚本的存在会加速游戏资源的消耗,进而导致玩家的获得感被降低。简单来说,游戏的乐趣在于通过时间的堆砌或技能的积累来获得成就感,可一旦外挂介入,玩家就不再需要这些投入,而是依赖外部帮助就能获得胜利。这无疑会削弱游戏的挑战性,使得玩家失去面对挑战的机会,进而减少游戏的长期吸引力。
如果说过去的外挂、脚本,仅仅只是提前编辑好的自动化程序,只能完成编程后的特定任务,因此意味着游戏厂商只需要找到外挂的特征码即可将其封杀,这也是目前游戏行业反外挂最有效的方式。可AI智能体的出现,就意味着在游戏厂商的视角下,机器和人类的分野会变得更加模糊。因为AI智能体操作游戏的方式就是和人类学的,它可能根本就没有特征码可供游戏厂商甄别,外挂团队更是可能会对SIMA、Cradle的出现感到欣喜若狂。
换而言之,在游戏厂商用AI来赋能游戏制作、拓宽游戏内容边界之前,AI智能体或许将会改变玩家体验游戏的范式了。