阿里千问Qwen3-VL、Qwen2.5-VL登顶SpatialBench 空间推理能力领先国际-行业纵横-媒体界

在近期更新的空间推理基准测试SpatialBench榜单中，阿里推出的视觉理解模型Qwen3-VL和Qwen2.5-VL表现抢眼，分别占据榜单前两名，将Gemini 3、GPT-5.1、Claude Sonnet4.5等国际知名模型甩在身后。这一成绩标志着国产大模型在多模态空间推理领域取得了重大进展。

根据榜单数据，Qwen3-VL-235B以13.5分的成绩领跑，Qwen2.5-VL-72B则以12.9分紧随其后。相比之下，Gemini 3.0 Pro Preview获得9.6分，GPT-5.1仅得7.5分，其他海外模型的表现也未能超越这两款国产模型。这一结果充分展现了阿里在视觉理解技术上的领先优势。

尽管大模型在空间推理能力上取得突破，但与人类水平仍存在显著差距。目前人类在该测试中的基准线约为80分，能够熟练处理电路分析、CAD工程设计和分子生物学等复杂任务。而现有大模型尚无法完全自动化完成这类工作，说明技术发展仍有提升空间。

作为阿里2025年开源的新一代产品，Qwen3-VL在视觉感知和多模态推理方面实现了多项创新。在32项核心能力评估中，该模型超越了Gemini2.5-Pro和GPT-5等对手。其独特之处在于能够调用抠图、搜索等工具进行"带图推理"，甚至可以根据设计草图或游戏视频直接生成代码，实现"视觉编程"功能。

针对3D空间感知的特殊需求，Qwen3-VL专门强化了3D检测能力。这项改进使机器人能够更精准地判断物体方位、视角变化和遮挡关系。在实际应用中，搭载该模型的机器人已能完成远处苹果的精准抓取任务，展现了技术落地的潜力。

目前Qwen3-VL已全面开源，提供2B、4B、8B、32B等密集模型，以及30B-A3B、235B-A22B等MoE架构模型。每个版本都包含指令版和推理版两种选择，成为企业和开发者最受欢迎的开源视觉理解模型之一。同时，用户还可通过千问APP免费体验该模型的强大功能。

SpatialBench作为新兴的第三方测试标准，专注于评估多模态模型在空间、结构和路径推理方面的综合能力。该测试不仅考察模型掌握的现有知识，更注重其在二维和三维空间中处理抽象概念的能力，这对具身智能技术的发展具有重要参考价值。测试标准的设计充分考虑了技术落地的实际需求，为行业提供了新的评估维度。