媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

阿里千问Qwen3-VL、Qwen2.5-VL登顶SpatialBench 空间推理能力领先国际

2025-11-26来源:快讯编辑:瑞雪

在近期更新的空间推理基准测试SpatialBench榜单中,阿里推出的视觉理解模型Qwen3-VL和Qwen2.5-VL表现抢眼,分别占据榜单前两名,将Gemini 3、GPT-5.1、Claude Sonnet4.5等国际知名模型甩在身后。这一成绩标志着国产大模型在多模态空间推理领域取得了重大进展。

根据榜单数据,Qwen3-VL-235B以13.5分的成绩领跑,Qwen2.5-VL-72B则以12.9分紧随其后。相比之下,Gemini 3.0 Pro Preview获得9.6分,GPT-5.1仅得7.5分,其他海外模型的表现也未能超越这两款国产模型。这一结果充分展现了阿里在视觉理解技术上的领先优势。

尽管大模型在空间推理能力上取得突破,但与人类水平仍存在显著差距。目前人类在该测试中的基准线约为80分,能够熟练处理电路分析、CAD工程设计和分子生物学等复杂任务。而现有大模型尚无法完全自动化完成这类工作,说明技术发展仍有提升空间。

作为阿里2025年开源的新一代产品,Qwen3-VL在视觉感知和多模态推理方面实现了多项创新。在32项核心能力评估中,该模型超越了Gemini2.5-Pro和GPT-5等对手。其独特之处在于能够调用抠图、搜索等工具进行"带图推理",甚至可以根据设计草图或游戏视频直接生成代码,实现"视觉编程"功能。

针对3D空间感知的特殊需求,Qwen3-VL专门强化了3D检测能力。这项改进使机器人能够更精准地判断物体方位、视角变化和遮挡关系。在实际应用中,搭载该模型的机器人已能完成远处苹果的精准抓取任务,展现了技术落地的潜力。

目前Qwen3-VL已全面开源,提供2B、4B、8B、32B等密集模型,以及30B-A3B、235B-A22B等MoE架构模型。每个版本都包含指令版和推理版两种选择,成为企业和开发者最受欢迎的开源视觉理解模型之一。同时,用户还可通过千问APP免费体验该模型的强大功能。

SpatialBench作为新兴的第三方测试标准,专注于评估多模态模型在空间、结构和路径推理方面的综合能力。该测试不仅考察模型掌握的现有知识,更注重其在二维和三维空间中处理抽象概念的能力,这对具身智能技术的发展具有重要参考价值。测试标准的设计充分考虑了技术落地的实际需求,为行业提供了新的评估维度。

创阳照明:以专业铸就品质,太阳能路灯点亮绿色照明新未来
在设计阶段,工程师会根据客户需求或项目标准绘制图纸;加工环节涉及金属切割、焊接和表面处理;组装则是将各部件整合成完整的产品;最后,通过严格的测试验证产品的性能和耐久性。 3.太阳能路灯的应用和维护强调环保和实…

2025-11-26

天然水中的离子态矿物质:易吸收且助力健康,日常饮水优选方案
长期饮用纯净水或反渗透水,可能导致体内矿物质浓度下降,与血镁水平降低及骨骼健康风险相关;天然水则有助于弥补部分膳食缺口。答:研究表明,天然水中的钙、镁等离子态矿物质吸收率较高,每日饮用一定量可辅助满足部分需…

2025-11-26