在ImageNet为计算机视觉奠定基础多年后,李飞飞团队再次出手,聚焦空间智能领域。该团队最新发布的ESI-Bench(Embodied Spatial Intelligence Benchmark),是一个专门评测具身空间智能的基准,其核心变化在于将评测范式从被动感知转向主动行动。
从感知到行动的评测变革
过去的空间智能评测通常默认给模型提供最优观测视角,模型只需根据给定图像回答空间关系问题。ESI-Bench则首次在基准测试中引入“感知-行动回路”(Perception-Action Loop),要求智能体必须像人类一样主动决定行动、获取证据,再基于新观测做出判断。评测基于OmniGibson仿真平台,场景素材来自BEHAVIOR-1K场景库,总共包含10个任务类别、29个子类别、3081个任务实例。
设计上,所有任务围绕人类婴儿天生具备的四类核心空间认知能力构建:物体表征、布局与几何、数量表征、目标导向行动。任务的共同特点是“行动强制”——AI智能体不能坐等图片,必须自己决定往哪走、看什么、拿什么、怎么操作。例如在“刚性容纳”任务中,模型需要走近观察容器内部结构才能判断能否装下物体;“液体体积”任务则要求模型通过倒水或拿起来掂量来分辨容量。正确答案不在任何单张图片里,智能体必须通过主动探索和推理获得。
三大核心发现揭示AI空间智能短板
团队使用当前最强的多模态大模型(包括GPT-5和Gemini系列)在ESI-Bench上进行了全面测试,得出三个主要结论。
结论一:感知能力不是瓶颈,行动策略才是
测试中,模型在被动获取最佳视角时表现不错。例如Gemini 3.1在“部分遮挡”任务中,若给予最佳观察视角,准确率从14.6%跃升至95.1%。但模型自己主动探索时无法找到那个正确视角。更糟糕的是,被动地让模型多看几张随机角度的图片反而有害——GPT-5在空间距离任务中,准确率从53.9%降至49.1%。团队将这种现象称为“动作盲视”(Action Blindness),即一个错误动作导致错误视角,进而引发不可逆的级联失败。在结构围合任务上,主动探索与直接提供上帝视角的差距高达49.7%。这表明当前AI的视觉感知能力已相当成熟,但行动策略几乎为零。
结论二:不完美的3D重建比2D更差
当前许多具身智能团队采用先重建三维场景、再在场景图上推理的技术路线。实验发现,如果使用真值3D(上帝视角精准几何),模型表现确实更强:Gemini在材质透明任务上,从2D的44.0%提升至3D的60.4%。但若使用当前最先进的VGGT模型进行真实重建,结果严重下滑——几何配置任务中,2D基线得分27.5%,而基于VGGT重建场景图的得分仅为9.9%。这说明不完美的3D不是中性失败,而是负向失败:几何伪影、遮挡补全错误和深度估计偏差会向推理模型输入“有毒”信息,比保留失真的2D图像更糟糕。
结论三:模型存在元认知缺陷,无法判断信息是否足够
论文中另一组对比实验显示,AI模型与人类的空间推理能力存在显著差距。模型在探索过程中缺乏对自身信息获取状态的判断能力,即不知道“自己是否已经看够了”,导致过早停止探索或无效重复操作,无法可靠地完成空间任务。
ESI-Bench为空间智能研究提供了一个系统化评测框架,其“行动强制”设计让观察者真正成为行动者,弥补了现有基准仅评测被动感知的不足。该基准也清晰揭示了当前多模态大模型在主动空间探索和推理方面的局限,为后续研究指明了方向。
本文参考来源:量子位


