当被问及“垃圾桶在电话的哪个方向”时,人类能迅速在脑海中构建房间布局并给出答案,但现有的人工智能系统却难以完成这种基础的空间推理。清华大学人工智能学院联合上海人工智能实验室与东京大学团队提出了一项突破性方法——TRACE,通过让AI像人类一样构建“空间地图”,显著提升了其在复杂3D环境中的理解能力。相关研究成果已发表于论文编号为arXiv:2603.23404v1的学术平台。
传统多模态大语言模型处理空间问题时,往往依赖视频中的2D视觉信息,如同“蒙眼摸象”般只能感知局部。研究团队从人类认知科学中汲取灵感,发现人类在面对空间任务时,会先以“上帝视角”构建环境中心坐标系的空间表征,再通过语言描述固定物体位置。例如,人们会说“床在靠窗的墙边”,而非“床在我的右边”,这种环境中心的描述方式不受观察者位置影响,更适合复杂推理。
TRACE方法的核心在于为AI配备“空间记录员”:通过分析视频,系统会建立三套关键信息。首先是“房间档案”,AI自动识别房间形状(如长方形办公室)并确定方向基准(如最长墙面为“北方”);其次是“行进路线图”,记录摄像机每秒的位置坐标、朝向及动作(如“第3秒面向北偏西45度,向床边移动”);最后是“物品清单”,为每个物体标注类别、位置坐标、尺寸及与其他物品的相对关系(如“黑色办公椅位于桌子南侧[0.5, 1.5],背靠南墙”)。
在训练阶段,研究团队设计了一套“空间记录手册”,以逐步引导AI完成空间表征构建。例如,手册会指导AI“将房间主通道方向定义为Y轴正方向,垂直右侧为X轴正方向”,并要求位置描述必须参考固定物体(如“距离桌子1.5米”)。经过训练,AI的空间描述能力从“房间里有桌子和椅子”进化为“长方形办公室,主轴沿东西方向,办公桌位于中央偏北[0.5, 2.0]”。
实验数据验证了TRACE的有效性。在包含5130道题目的VSI-Bench测试平台上,最强模型Gemini 3 Pro的准确率从52.61%提升至60.15%;开源模型Qwen2.5-VL-72B的性能提升3.1个百分点至39.38%;小型模型MiMo-VL-7B也实现1.63个百分点的增长。更关键的是,仅基于TRACE生成的文字描述回答问题(不观看视频),准确率与直接使用视频相当,证明其完整捕捉了空间信息。
与传统方法对比,TRACE的优势在于精细化表征。例如,在回答“哪把椅子离洗碗机最近”时,认知地图方法只能判断两者是否在同一网格,而TRACE可记录每把椅子的精确坐标(如椅子01[1.1, 1.0]、椅子02[1.1, 1.5])并计算距离。实验显示,TRACE比认知地图方法性能高出9.7个百分点,比空间描述方法高出3.53个百分点。
进一步分析发现,不同AI模型的瓶颈存在差异:Gemini 3 Pro在3D视觉感知和语言推理上均表现优异,而Qwen系列模型更依赖语言推理能力。研究还揭示了一个反直觉现象——专门的语言模型(Qwen2.5-72B)在空间推理上超越了多模态模型(Qwen2.5-VL-72B),暗示当前多模态训练可能削弱了空间推理能力。
尽管TRACE显著提升了性能,但其局限性仍需突破。当前方法生成的是静态空间表征,难以应对物品移动或观察者位置实时更新的场景(如多轮对话中环境变化)。空间描述质量高度依赖底层模型的视觉感知能力,若模型本身存在3D理解缺陷,TRACE的表征准确性也会受影响。
针对这些挑战,研究团队提出三大改进方向:开发动态流式TRACE框架以实时更新物品位置;结合专业3D物体检测模型提升空间信息精度;探索TRACE作为数据引擎生成高质量3D推理训练数据。这些改进或使TRACE从推理方法升级为通用空间智能训练工具。
TRACE的成功为AI研究提供了重要启示:通过构建结构化中间表征(如空间地图),可显著提升复杂任务的处理效率。这种“软件创新”思路——不改变模型架构而优化思考方式——或成为未来AI发展的关键路径。从自动驾驶到家庭机器人,TRACE及其衍生技术有望在需要精准空间理解的领域发挥核心作用。
