SIMA 2 Generalizes in Unseen 3D and Realistic Worlds Using Gemini and Self-Improvement Techniques

DeepMind的研究人员推出了SIMA 2 (Scalable Instructable Multiworld Agent)，这是一个建立在Gemini基础模型上的通用智能体，可以理解并在多个3D虚拟游戏环境中行动。该智能体与其前身SIMA 1的区别在于，它超越了简单的命令执行，转而“对高级目标进行推理，与用户对话，并处理通过语言和图像处理复杂指令”。第一版需要逐步指导，而SIMA 2可以制定多步骤计划并与用户讨论策略。

研究人员报告称，该智能体在他们的游戏测试组合中“大幅缩小了与人类表现的差距”，同时展示了他们所描述的“对以前未见过环境的强大泛化能力”。该系统保留了底层Gemini模型的推理能力，并可以与更先进的Gemini变体对接以获得额外功能。

来源：谷歌DeepMind SIMA 2自我改进

该智能体采用了一个自我改进循环，其中Gemini提供了一个初始任务以及对SIMA 2行动的估计奖励。系统将这些信息添加到自生成经验库中，然后用于后续迭代的训练。根据研究人员的说法，这个过程允许智能体“在完全独立于人类生成的演示和干预的情况下，改进以前失败的任务。”

通过评估智能体在完全独立的环境中遇到新的视觉效果、菜单和游戏机制的表现，研究人员测试了SIMA 2的泛化能力。

研究人员还在The Gunk和Genie 3环境中进行了定性评估。The Gunk是一款故事驱动的动作冒险平台游戏，主要内容是使用手持吸力工具清理行星，而Genie 3是一个生成式世界模型，根据文本描述或初始帧创建图片般逼真的场景。这些新生成的环境不会出现在训练数据集中，这使得团队可以测试SIMA 2是否可以将Gemini的世界知识应用到视频游戏世界之外的逼真设置中。

SIMA 2架构使用Gemini Flash-Lite模型，该模型混合了游戏玩法和Gemini预训练数据。研究人员表示，这种混合“对于保持基础模型的原始能力至关重要，例如视觉理解、对话、推理和提示性。”训练过程从一个预训练的Gemini Flash-Lite检查点开始，并使用混合数据集进行监督微调，训练模型在提示图像帧和指令时产生键盘和鼠标动作响应。

谷歌DeepMind的研究人员将SIMA 2定位为超越简单指令遵循的一步，创造了他们所描述的更有能力和协作性更强的具身智能体，能够在3D虚拟世界中推理、对话和执行目标导向的行动。该系统展示了泛化能力，“从游戏世界扩展到Genie 3生成的全新逼真环境”，并可以根据自我生成的经验在新环境中进行改进。

在Reddit上讨论这项研究的技术社区成员指出了游戏之外的潜在应用。一位评论者评论道：

这将有助于以非常便宜和安全的方式在现实世界中训练机器人。应该有助于推动AI研究训练。

另一位强调了技术架构，指出：

该团队正在使用Genie 3创建世界，并使用SIMA 2在该世界中进行递归自我改进。

该团队承认当前的局限性，指出SIMA 2“仍然面临着非常长远的挑战，复杂的任务需要广泛的、多步骤的推理和目标验证。”智能体在有限的上下文窗口下运行，以保持低延迟的交互，研究人员确定了精确的键盘和鼠标控制执行以及对复杂3D场景的强大视觉理解是当前的挑战。

DeepMind将SIMA 2作为一个有限的研究预览版发布，并向一小群学者和游戏开发者提供了早期访问权。在整个开发过程中，该公司与负责任的开发和创新团队合作，特别是在智能体的自我改进能力方面。研究人员认为，SIMA 2获得的技能，包括导航、工具使用和协同任务执行，可以作为物理具身AI系统在机器人应用中的构建块。

原文链接：

https://www.infoq.com/news/2025/12/sima-2-gemini-agent/