媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

智源Emu3模型登Nature:自回归路线引领多模态学习新突破

2026-01-29来源:快讯编辑:瑞雪

在人工智能领域,多模态学习一直是备受瞩目的研究方向。传统上,多模态模型多依赖对比学习、扩散模型等专门路线,而自回归路线能否成为统一多模态学习的通用方法,此前一直是未解之谜。近日,我国科研机构智源的一项重大成果,为这一问题给出了令人振奋的答案。

智源研究团队提出了名为Emu3的多模态模型,该模型仅基于“预测下一个词元”这一自回归路线,便实现了大规模文本、图像和视频的统一学习。这一创新架构将图像、文本和视频统一离散化到同一个表示空间,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer。实验结果显示,Emu3在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美。在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,能够与融合CLIP和大语言模型的主流方案比肩。Emu3还具备视频生成能力,通过自回归方式逐词元预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。

“预测下一个词元”这一概念,自2018年以来在语言模型领域取得了重大突破。GPT采用该自回归路线,实现了语言大模型的飞跃,开启了生成式人工智能浪潮。然而,其在多模态学习中的潜力此前并不明朗。在多模态模型领域,视觉生成长期由结构复杂的扩散模型主导,视觉语言感知则主要由组合式方法引领。尽管已有一些尝试试图统一生成与感知,但这些工作要么简单拼接不同模型,要么在性能效果上不及专用方法。智源的Emu3模型成功证明了,单一的预测下一个词元框架能够作为通用的多模态学习范式。

Emu3不仅在性能上表现出色,还具有强大的可拓展性。它能够自然地扩展到机器人操作以及多模态交错等生成任务,例如图文并茂的菜谱生成、视觉语言动作建模等。研究团队还对相关研究的多项关键技术与模型进行了开源,其中包括一个稳定且通用的视觉分词器,可将图像与视频高效转换为离散词元来表示。同时,通过大规模消融实验,系统分析了多项关键技术的设计选择,如分词器码本尺寸、初始化策略、多模态dropout机制以及损失权重配置等,揭示了多模态自回归模型在训练过程中的动态特性。直接偏好优化(DPO)方法可无缝应用于自回归视觉生成任务,使模型能够更好地对齐人类偏好。

基于Emu3的研究成果,悟界·Emu3.5进一步实现了重大升级。它通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了从“预测下一个词元”到“预测下一个状态”的范式升级。这一成果对构建可扩展、统一的多模态智能系统具有重要意义,为统一多模态学习奠定了坚实基础,有望推动原生多模态助手、世界模型以及具身智能等方向的发展。

Emu系列模型的研发历程,见证了智源研究团队在多模态大模型领域的持续探索与创新。自2022年启动研发以来,Emu系列模型围绕“原生多模态”这一核心技术主线不断迭代。2023年7月,发布并开源首个版本,成为最早打通多模态输入到多模态输出的统一多模态模型;2023年12月,发布Emu2,展现出可泛化的多模态上下文学习能力;2024年10月,发布Emu3,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成;2025年10月,推出原生多模态世界模型Emu3.5,实现能力跃迁。这一系列成果的取得,离不开智源长期聚焦大模型的原始创新与长期技术路径探索。

自2020年启动“悟道”大模型研究以来,智源持续发力人工智能领域。2025年6月,发布新一代大模型系列“悟界”,旨在构建人工智能从数字世界迈向物理世界的关键能力,及物理世界的人工智能基座模型。这其中包括Emu系列多模态世界模型、RoboBrain跨本体具身大脑等多个重要模型,构建起覆盖宏观具身智能、介观生命系统到微观构象动力学的多层次技术基座。FlagOS开源系统软件栈更是为模型的训练和推理带来效率突破和多元AI硬件适配能力。成立七年来,智源聚焦人工智能技术前沿,不断挑战最基础的问题和最关键的难题,推进大模型技术持续演进。

科创板人工智能ETF(588930)午间微跌0.55% 成交额超六千万 重仓股表现分化
来源:新浪基金∞工作室 1月29日,截止午间收盘,科创板人工智能ETF(588930)跌0.55%,报1.812元,成交额6442.32万元。科创板人工智能ETF(588930)重仓股方面,金山办公截止午盘涨…

2026-01-29