在1956年的经典科幻电影《禁忌星球》中,一个名为Robby的机器人成为人类对机器人技术最早的想象之一。这个力大无穷且逻辑严密的机器人,被设定了一条不可违背的规则——不能伤害人类。七十年后,蚂蚁集团以Robby为灵感,推出了旗下具身智能公司的新品牌“蚂蚁灵波”,从Robby到Robbyant,最终定格为如今的名称。
此前,外界对蚂蚁灵波的了解大多停留在2025年外滩大会上展示的R1机器人,这款会炒菜的机器人更像是一个技术展示的Demo。然而,在2026年1月底,蚂蚁灵波通过密集发布四个具身智能模型,彻底改变了这一印象。这四个模型分别是LingBot-Depth、LingBot-VLA、LingBot-World和LingBot-VA,并同步开放了模型权重和代码。LingBot-Depth还开源了200万对高质量RGB-深度配对数据集,LingBot-VLA则开源了完整的后训练工具链。这一几乎完全透明的发布方式在开源社区引发了广泛关注。
其中,LingBot-World作为世界模型,能够生成高保真、高动态的物理交互场景,其效果迅速登顶X平台科技板块热榜和Hugging Face热门论文榜。然而,蚂蚁灵波的选择远不止于此。在具身智能领域,技术路线尚未统一,蚂蚁灵波选择了一条更慢但更扎实的发展路径。
在VLA模型的训练中,蚂蚁灵波团队与星海图、松灵机器人等合作伙伴积累了约20,000小时的真实世界操作数据,涵盖9种主流双臂机器人配置。这一数据规模是当前开源社区中最大的,并在GM-100的真机测评中取得了超越Pi0.5的高分。同时,蚂蚁灵波还率先推出了业界首个自回归视觉—动作世界模型,进一步展示了其在具身智能领域的领先地位。LingBot-VA发布不到一周,英伟达也推出了类似的VA模型。
蚂蚁灵波首席科学家沈宇军在接受专访时表示,具身智能仍处于“GPT-1时刻”,数据稀缺和范式未定是当前的主要挑战。基于这一判断,蚂蚁灵波构建了一套完整的体系,包括LingBot-Depth用于解决感知层的“看不清”问题,LingBot-World负责世界模拟与数据生成,LingBot-VLA基于海量真实数据学会执行基础动作,LingBot-VA则引入因果预测探索更高层次的规划和控制能力。沈宇军将这一体系形容为“四个模型‘一盘棋’”,它们是同一系统中的不同模块,而非彼此独立。
在团队内部,围绕技术路线的争论并不少见,但一旦方向确定,所有人都会全力以赴。这种精神也体现在蚂蚁灵波对开源的坚定支持上。沈宇军表示,开源不仅是为了避免成为“井底之蛙”,更是为了让社区发现那些内部难以预料的漏洞和用法。通过提供完整的代码和数据管线,蚂蚁灵波希望为学界提供一个“能站上去的底座”,而不是让每个人都从零开始。
在具身智能的数据路线上,蚂蚁灵波坚定选择了“真机数据”,而对“合成数据”持保留态度。沈宇军解释说,真机采集的成本下降速度将快于物理引擎的质变速度。在基座模型阶段,真实数据的物理保真度是仿真数据无法比拟的。因此,蚂蚁灵波选择了一条“慢”但正确的路。
对于未来,沈宇军认为具身智能模型仍处于早期阶段,类似于语言模型的GPT-1时刻。他预计,至少需要三年时间才能解决数据采集、选择和训练原生基础模型等关键问题。如果行业能够加速合作,2026年至2028年可能会分别跨过这些节点。蚂蚁灵波的下一步计划包括扩大数据规模、针对性地弥补多模态和视频生成的短板,以及提升机器人的移动能力。
当被问及蚂蚁灵波的“独门武器”时,沈宇军强调了团队的核心优势。这支团队在想象力、工程能力和耐力上都非常强,且得到了蚂蚁集团在算力、存储和工程体系上的扎实支持。他特别提到,2025年11月底是团队的一个重要时刻,当时LingBot-Depth模型首次在真实测试中跑赢现有方案,打响了第一枪,让团队相信这条路能走通。