媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

英伟达Cosmos 3问世:全开源全模态,为物理人工智能发展注入新动力

2026-06-01来源:快讯编辑:瑞雪

英伟达今日宣布推出全球首款全开源全模态大模型——Cosmos 3,这款专为物理人工智能设计的开放世界基础模型,通过混合Transformer架构实现了视觉推理、世界生成与动作预测的深度融合。该模型能够原生处理文本、图像、视频、环境音效及动作轨迹等多模态数据,其物理仿真精度达到行业领先水平,可将物理AI系统的训练与评估周期从数月压缩至数日。

针对物理AI领域长期存在的数据泛化难题,Cosmos 3创新性地采用双阶段处理机制:先通过推理Transformer解析物体交互规律、运动轨迹及时空关联,再利用生成类Transformer完成视频生成与动作预测。这种架构设计使其能够基于有限训练数据,在真实场景中实现高效迁移。该模型基于数十亿级多模态数据集训练,涵盖文本描述、环境图像、动态视频、空间音效及机械动作轨迹等多元数据类型,显著降低了开发者构建物理AI系统的数据门槛与成本。

为加速技术生态建设,英伟达同步发起"宇宙联盟",联合Agile Robots、Black Forest Labs、Generalist等六家顶尖机构,共同推进世界模型技术研发。联盟成员将共享预训练模型资源,并针对机器人控制、自动驾驶等垂直领域开展联合优化。英伟达CEO黄仁勋强调:"当多模态推理与世界模型实现突破,物理AI的变革浪潮已不可阻挡。Cosmos 3的开源将赋能开发者跨越技术鸿沟,打造具备真实世界感知与决策能力的智能系统。"

在权威评测中,Cosmos 3展现卓越性能:其世界生成精度在Artificial Analysis等四大基准测试中登顶,动作策略能力领跑RoboLab系列榜单,视觉理解指标刷新VANTAGE-Bench纪录。针对不同应用场景,该模型提供三大专用版本:追求极致精度的Super版支持机器人与自动驾驶模型二次训练;轻量化Nano版可在数秒内完成视频解析与动作推理;即将发布的Edge版将实现边缘设备实时推理,满足工业巡检、物流分拣等低延迟场景需求。

开发者可通过三种模式调用Cosmos 3能力:作为多模态图文大模型实现跨模态理解,作为世界模型构建物理环境仿真系统,或作为动作模型主干网络训练专项任务机器人。目前Super与Nano版本已开放下载,配套开发工具包包含数据预处理管道、模型微调指南及200+预置场景模板,帮助开发者快速构建定制化物理AI解决方案。

OpenAI战略转型:告别合作模式,自主深耕机器人全链条布局
人工智能(AI)领域巨头OpenAI发布公告,宣布大力扩张内部机器人事业部,正式全面切入硬件赛道,实现从人工智能算法研发向机器人编程+实体设备制造全链条布局的战略转型。Sora等世界模拟技术让AI理解物理世界…

2026-06-01

OpenAI携Sora技术强势入局机器人领域,从投资到自研开启新征程
OpenAI还在2024年与机器人配送初创公司Coco Robotics建立了正式研究合作,但整体而言,其机器人的实际资产相当有限。 这种“短期务实、长期宏大”的战略定位,既展现了OpenAI进入实体AI的决…

2026-06-01