媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,多领域能力领先且支持在线体验

2026-02-12来源:快讯编辑:瑞雪

蚂蚁集团近日宣布开源其最新研发的全模态大模型——Ming-Flash-Omni 2.0,这一成果标志着全场景音频统一生成技术迈入新阶段。该模型在视觉语言理解、语音可控生成、图像编辑等多个领域展现出卓越性能,多项公开基准测试结果显示其关键能力已达到行业领先水平。

作为业界首个实现全场景音频统一生成的模型,Ming-Flash-Omni 2.0突破性地在单条音轨中同步生成语音、环境音效与音乐元素。用户通过自然语言指令即可精准调控音色、语速、语调、音量及情绪参数,甚至支持方言定制。该模型在推理效率上实现重大突破,3.1Hz的极低帧率配合分钟级长音频的实时高保真生成能力,在成本控制与处理速度方面均处于行业前沿。

技术团队通过系统性训练优化,将模型能力推向新高度。基于Ling-2.0架构(MoE,100B-A6B)构建的模型,在视觉识别领域融合亿级细粒度数据与难例训练策略,显著提升对近缘物种、工艺细节等复杂对象的识别精度;音频生成模块支持零样本音色克隆技术,实现语音、音效、音乐的同轨无缝合成;图像编辑功能则强化了复杂场景的稳定性,新增光影调整、场景替换等实用功能,即使在动态画面中仍能保持细节真实度。

全模态技术的核心挑战在于平衡通用性与专业性。蚂蚁集团通过持续迭代Ming-Omni系列模型,逐步构建起统一的多模态能力底座。早期版本聚焦基础能力整合,中期版本验证规模效应,最新2.0版本则通过大规模数据训练与架构优化,在保持开源模型开放性的同时,部分领域性能已超越专用模型。

此次开源将模型权重与推理代码同步发布至Hugging Face等社区,开发者可通过蚂蚁百灵官方平台Ling Studio在线体验。百灵模型负责人周俊指出,统一架构设计使视觉、语音、生成能力可高效复用,大幅降低多模型串联的开发成本。技术团队正持续优化视频时序理解、长音频实时生成等关键模块,并完善配套工具链与评测体系。

该模型的开放策略引发行业广泛关注。通过提供可复用的技术底座,蚂蚁集团为端到端多模态应用开发开辟了新路径。目前已有开发者基于该框架构建智能教育、内容创作等领域的创新应用,验证了其在降低技术门槛、提升开发效率方面的显著价值。

光伏支架的“隐形卫士”:神龙拜耳拉杆守护电站安全与收益
在光伏电站的庞大阵列中,每一块光伏板都需要被稳固、精准地支撑起来,以应对数十年的风雨考验。这其中,连接和固定这些支撑结构的关键“骨骼”部件,就是光伏支架拉杆。 光伏支架拉杆,顾名思义,是用于强化光伏支架结构…

2026-02-12

东莞市何谐新能源科技:工业连接器多元布局,技术领航服务多行业
多领域应用:服务超200家行业客户凭借多元化的产品矩阵与技术优势,东莞市何谐新能源科技有限公司已服务超过200家行业客户,覆盖新能源汽车、航空航天、工业自动化、新能源储能四大核心领域。在新能源汽车领域,公司…

2026-02-12

科大讯飞星火X2大模型发布:全国产算力赋能,精准聚焦关键行业升级
来源:滚动播报 今天,科大讯飞正式发布基于全国产算力训练的星火X2大模型。这次面向关键行业落地的实用化升级,标志着我国基于全国产算力训练的大模型底座在算法和工程创新方面迈入新阶段。星火X2在实现通用能力全面升…

2026-02-11

花旗看好百度:萝卜快跑落地迪拜,全球拓展或成增长新引擎
来源:滚动播报花旗表示,百度通过优步(Uber)将萝卜快跑(ApolloGo)引入迪拜的最新进展是又一重要里程碑,公司有望通过展示其人工智能能力进一步释放价值。包括AliciaYap在内的分析师在报告中写道,…

2026-02-11