英伟达Cosmos 3问世：全开源全模态，为物理人工智能发展注入新动力-企业快讯-媒体界

英伟达今日宣布推出全球首款全开源全模态大模型——Cosmos 3，这款专为物理人工智能设计的开放世界基础模型，通过混合Transformer架构实现了视觉推理、世界生成与动作预测的深度融合。该模型能够原生处理文本、图像、视频、环境音效及动作轨迹等多模态数据，其物理仿真精度达到行业领先水平，可将物理AI系统的训练与评估周期从数月压缩至数日。

针对物理AI领域长期存在的数据泛化难题，Cosmos 3创新性地采用双阶段处理机制：先通过推理Transformer解析物体交互规律、运动轨迹及时空关联，再利用生成类Transformer完成视频生成与动作预测。这种架构设计使其能够基于有限训练数据，在真实场景中实现高效迁移。该模型基于数十亿级多模态数据集训练，涵盖文本描述、环境图像、动态视频、空间音效及机械动作轨迹等多元数据类型，显著降低了开发者构建物理AI系统的数据门槛与成本。

为加速技术生态建设，英伟达同步发起"宇宙联盟"，联合Agile Robots、Black Forest Labs、Generalist等六家顶尖机构，共同推进世界模型技术研发。联盟成员将共享预训练模型资源，并针对机器人控制、自动驾驶等垂直领域开展联合优化。英伟达CEO黄仁勋强调："当多模态推理与世界模型实现突破，物理AI的变革浪潮已不可阻挡。Cosmos 3的开源将赋能开发者跨越技术鸿沟，打造具备真实世界感知与决策能力的智能系统。"

在权威评测中，Cosmos 3展现卓越性能：其世界生成精度在Artificial Analysis等四大基准测试中登顶，动作策略能力领跑RoboLab系列榜单，视觉理解指标刷新VANTAGE-Bench纪录。针对不同应用场景，该模型提供三大专用版本：追求极致精度的Super版支持机器人与自动驾驶模型二次训练；轻量化Nano版可在数秒内完成视频解析与动作推理；即将发布的Edge版将实现边缘设备实时推理，满足工业巡检、物流分拣等低延迟场景需求。

开发者可通过三种模式调用Cosmos 3能力：作为多模态图文大模型实现跨模态理解，作为世界模型构建物理环境仿真系统，或作为动作模型主干网络训练专项任务机器人。目前Super与Nano版本已开放下载，配套开发工具包包含数据预处理管道、模型微调指南及200+预置场景模板，帮助开发者快速构建定制化物理AI解决方案。