小米技术团队近日宣布,正式推出创新型一步式潜空间语言视觉推理框架——Xiaomi OneVL,并同步将模型权重、训练及推理代码向全球开发者全面开源。这一成果标志着小米在多模态人工智能领域迈出关键一步,为行业技术融合提供了全新范式。
据研发团队介绍,Xiaomi OneVL创新性地将视觉语言动作(VLA)、世界模型构建与潜空间推理三大技术路径整合于统一框架。通过潜空间推理技术,该模型突破了传统架构的模块化限制,在复杂场景理解与动态决策能力上实现显著提升。这一突破距离小米3月发布XLA认知大模型架构仅隔两个月,展现出公司持续加速技术迭代的研发实力。
小米董事长雷军在社交平台表示,开源策略旨在构建开放协作的研发生态。目前测试数据显示,Xiaomi OneVL在多模态推理、路径规划等核心基准测试中,均达到行业领先水平,特别是在处理模糊指令与动态环境交互时,展现出更强的鲁棒性。全球开发者现已可通过开源社区获取完整技术文档,参与模型优化与应用场景拓展。
行业分析指出,该框架的开源将推动自动驾驶、机器人控制等领域的技术演进。其统一的架构设计降低了多模态系统开发门槛,为学术界与产业界提供了可复用的技术底座。随着全球开发者社区的参与,Xiaomi OneVL有望催生更多创新应用,加速人工智能技术向实体经济的渗透。