北京智源突破性成果登《自然》正刊：自回归路线统一多模态学习-资讯速递-媒体界

在生成式人工智能领域，一项来自中国科研机构的重要突破引发全球关注。北京智源人工智能研究院研发的Emu3多模态大模型，通过统一的技术路径实现了对文本、图像和视频的高效处理，相关成果已发表于国际顶级学术期刊《自然》。这一研究首次验证了自回归架构在多模态学习中的普适性，为构建通用人工智能系统开辟了新方向。

传统人工智能系统处理不同类型数据时，往往需要设计专门的模型架构：自然语言处理依赖Transformer结构，图像生成采用扩散模型，视频分析则需结合3D卷积网络。这种"分科而治"的模式导致系统复杂度高、协同效率低，且难以实现跨模态的深度融合。智源研究院的研究团队突破性地证明，通过扩展GPT核心的"预测下一个词元"机制，可以构建出同时具备多模态理解与生成能力的原生模型。

实验数据显示，Emu3模型在图像生成、图文问答、视频预测等任务中，性能达到甚至超越了专门训练的专用模型。该模型采用纯自回归架构，通过统一的数据编码方式，将不同模态的信息转化为离散token序列进行联合训练。这种设计不仅简化了模型结构，更赋予系统强大的扩展潜力——研究人员发现，随着参数规模的增加，模型在复杂场景理解、物理规律模拟等任务上展现出显著提升。

《自然》期刊审稿人特别指出，该研究最突出的贡献在于解决了多模态学习的统一框架问题。此前学术界普遍认为，不同模态数据需要定制化的学习策略，而Emu3的实践表明，通过合理的架构设计，单一模型完全可以掌握跨模态的表征能力。这种统一性不仅降低了开发成本，更为构建具备人类认知水平的通用智能体奠定了基础。

基于Emu3技术路径的迭代版本Emu3.5，已初步展现出对物理世界的理解能力。在测试中，该模型能够预测动态场景的演变趋势，例如模拟物体运动轨迹、推断液体流动方向等。这种对因果关系的把握能力，标志着多模态大模型从"感知智能"向"认知智能"的重要跨越。

据研究团队介绍，这项突破源于智源研究院2020年启动的"悟道"大模型计划。经过五年持续攻关，该机构已形成覆盖多模态学习、具身智能、生命科学等领域的完整技术体系。其即将发布的"悟界"大模型系列，将重点突破数字世界与物理世界的交互瓶颈，包含具身大脑、数字器官、生命模拟等多个创新方向，旨在构建支撑通用人工智能发展的基础设施。

字节跳动与阿里巴巴春节前后“上新”：新一代旗舰AI模型即将登场

观点网讯：1月29日，据媒体报道，字节跳动与阿里巴巴均准备在2月中旬农历春节前后推出新一代旗舰人工智能模型。据知情人士透露，字节跳动计划于下月推出三款全新人工智能模型，分别为一款大语言模型、一款图像生成模…

2026-01-30

2026抖音旋律营销新洞察：从背景音到主基调，解锁品牌声量增长密码

其凭借听觉记忆留存久、能激发多巴胺分泌的特质，精准捕捉用户情绪，适配多元生活场景。未来，旋律营销将更注重情绪共鸣与价值认同，AI 创作、场景化体验、文化融合成为核心趋势。品牌需把握旋律从感官刺激到情绪催化再…

2026-01-30

i茅台声明警惕“抢购外挂”：维护公平秩序保障消费者权益

2026-01-30

安联人寿2025年业绩亮眼：保费收入59.83亿净利润达4.23亿

2026-01-30

2025全球最畅销智能机榜单揭晓：iPhone 16登顶，苹果三星垄断前十成常态

苹果 iPhone 16 凭借强劲的市场表现登上榜首，前十榜单中 iPhone 独占 7 席，三星占据 3席，这已是两大品牌已连续第四年垄断该榜单前十名。据悉，上榜的十款热门机型合计贡献了 2025 年全…

2026-01-29

2025全球智能手机销量榜揭晓：苹果七席强势领跑，iPhone 16系列霸榜前三

报告显示，高端智能手机市场的单品集中度进一步提升，苹果公司凭借 iPhone 16 系列及部分前代机型，在销量前十名中占据了七个席位。这一数据分布反映出，尽管安卓阵营在机型数量上占据绝对优势，但在全球单品销量…

2026-01-29

国投白银LOF溢价超六成二度停牌易方达黄金LOF溢价14.5%提示风险

2026-01-29

奔富2025：跨界融合深耕本土，多元布局续写葡萄酒行业新篇章

2026-01-29