媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

蚂蚁开源Ming-Flash-Omni 2.0:全模态大模型性能领先,开启多模态应用新篇

2026-02-12来源:快讯编辑:瑞雪

蚂蚁集团近日宣布开源全模态大模型Ming-Flash-Omni 2.0,该模型在视觉语言理解、语音可控生成及图像编辑等核心领域展现出卓越性能,部分指标甚至超越国际顶尖模型Gemini 2.5 Pro,成为开源领域全模态技术的新标杆。这一成果标志着蚂蚁集团在多模态人工智能领域的技术积累进入全新阶段。

作为业界首个实现全场景音频统一生成的模型,Ming-Flash-Omni 2.0突破性地将语音、环境音效与音乐融合于单一音轨。用户通过自然语言指令即可精准调控音色、语速、语调乃至方言特征,模型更支持零样本音色克隆技术。在效率方面,该模型以3.1Hz的推理帧率实现分钟级长音频的实时高保真生成,在成本控制与处理速度上达到行业领先水平。实测数据显示,其在复杂音频场景下的生成质量已接近专业音频工作站标准。

技术架构层面,模型基于Ling-2.0架构(MoE,100B-A6B)构建,通过系统性训练优化实现三大核心突破:视觉模块采用亿级细粒度数据训练,显著提升对近缘物种、文物细节等复杂对象的识别精度;音频模块突破传统分离式生成模式,实现多要素协同创作;图像编辑模块强化动态场景处理能力,支持光影调整、场景替换等高级功能的同时保持画面连贯性。这些特性使其在医疗影像分析、文化遗产数字化等场景具有广泛应用潜力。

蚂蚁集团百灵模型负责人周俊指出,全模态技术的核心价值在于通过统一架构实现多维度能力的深度融合。此次开源将模型权重与推理代码同步释放至Hugging Face等平台,开发者可基于单一框架调用视觉、语音、生成等全栈能力,较传统多模型串联方案降低60%以上的开发成本。配套上线的Ling Studio平台更提供可视化操作界面,用户无需深厚技术背景即可完成复杂多模态任务。

该模型的演进路径体现了蚂蚁集团的技术战略布局:早期版本聚焦多模态基础能力建设,中期版本验证规模效应,2.0版本则通过10万小时级音频数据与千万级图像数据的训练优化,在保持通用性的同时实现专项能力突破。特别是在语音克隆领域,其仅需3秒音频样本即可生成高度拟真的语音,在隐私保护前提下为无障碍沟通、个性化内容创作等场景提供技术支撑。

目前,开发者可通过蚂蚁百灵官方平台直接调用模型API,或下载开源代码进行本地化部署。这种开放策略不仅加速了技术创新迭代,更为金融、医疗、教育等垂直领域的应用开发提供了标准化解决方案。随着工具链与评测体系的持续完善,全模态技术有望在智能客服、内容生产、辅助诊断等领域实现规模化落地。

从千问送外卖看阿里AI:以消费为锚点,撬动产业升级新支点
当几十上百万用户,同时让千问帮忙点一杯奶茶,AI需要同时进行海量的需求理解、比价、支付等复杂推演,算力消耗指数级增长,哪怕是扛住了多年双十一流量暴击的阿里,也开始感到吃力。 具体看阿里,千问完成越多送奶茶、…

2026-02-12

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,多领域能力领先且支持在线体验
蚂蚁集团在全模态方向已持续投入多年,Ming-Omni系列正是在这一背景下持续演进:早期版本构建统一多模态能力底座,中期版本验证规模增长带来的能力提升,而最新 2.0 版本通过更大规模数据与系统性训练优化,…

2026-02-12

光伏支架的“隐形卫士”:神龙拜耳拉杆守护电站安全与收益
在光伏电站的庞大阵列中,每一块光伏板都需要被稳固、精准地支撑起来,以应对数十年的风雨考验。这其中,连接和固定这些支撑结构的关键“骨骼”部件,就是光伏支架拉杆。 光伏支架拉杆,顾名思义,是用于强化光伏支架结构…

2026-02-12

东莞市何谐新能源科技:工业连接器多元布局,技术领航服务多行业
多领域应用:服务超200家行业客户凭借多元化的产品矩阵与技术优势,东莞市何谐新能源科技有限公司已服务超过200家行业客户,覆盖新能源汽车、航空航天、工业自动化、新能源储能四大核心领域。在新能源汽车领域,公司…

2026-02-12

科大讯飞星火X2大模型发布:全国产算力赋能,精准聚焦关键行业升级
来源:滚动播报 今天,科大讯飞正式发布基于全国产算力训练的星火X2大模型。这次面向关键行业落地的实用化升级,标志着我国基于全国产算力训练的大模型底座在算法和工程创新方面迈入新阶段。星火X2在实现通用能力全面升…

2026-02-11