媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

阿里Qwen3-Omni-Flash-2025-12-01发布:多模态交互升级,语音自然度逼近真人

2025-12-11来源:快讯编辑:瑞雪

阿里Qwen团队近日宣布,正式推出新一代原生全模态大模型Qwen3-Omni-Flash-2025-12-01。这款基于Qwen3-Omni升级的模型,实现了文本、图像、音视频等多种模态的无缝输入与实时流式输出,标志着多模态交互技术迈入全新阶段。

在交互体验层面,新模型重点优化了多模态融合能力。通过实时流式响应技术,用户输入的文本、图像、音视频信息可同步转化为高质量文本与自然语音输出。针对语音交互场景,模型突破了传统语音生成机械呆板的局限,能够根据文本内容自适应调整语速、停顿与韵律,语音自然度与拟人化程度接近真人水平,显著提升了对话流畅性。

系统提示控制能力的升级成为本次更新的核心亮点。研发团队全面开放了System Prompt自定义权限,用户可通过精细化参数设置调控模型行为模式。无论是设定特定人设风格如“甜妹”“御姐”,还是调整口语化表达偏好与回复长度,模型均能精准响应。这一功能为个性化交互场景提供了技术支撑,例如虚拟主播、智能客服等领域可实现更灵活的角色扮演。

跨语言支持方面,模型展现出强大的全球化服务能力。支持119种文本语言交互、19种语音识别语言及10种语音合成语言,确保在多语言场景下保持响应准确性与一致性。这一特性为跨国企业、国际教育等场景提供了高效解决方案,有效降低了语言障碍带来的沟通成本。

客观性能指标显示,新模型在多项基准测试中取得突破性进展。逻辑推理任务(ZebraLogic)得分提升5.6,代码生成(LiveCodeBench-v6)提升9.3,多学科视觉问答(MMMU)提升4.7。这些数据表明,模型不仅在图像视频内容理解上更加精准,在复杂指令遵循与深度逻辑分析方面也达到行业领先水平。

针对口语化场景的“降智”痛点,新模型通过增强音视频指令理解能力,显著提升了多轮对话的稳定性与连贯性。在复杂语境下,模型能够准确捕捉用户意图,避免语义歧义,为智能助手、教育辅导等场景提供了更可靠的交互基础。此次升级标志着多模态大模型从技术探索向实用化落地迈出关键一步。

搜狐视频“关注流”:以“关注”为核,重构内容与社交新生态
这是搜狐视频在AI与算法大行其道的当下,对“人”的价值和真实连接的一次回归与重塑。 从表面上看,搜狐视频是想要推出一个被称为“关注流”的新产品,但在张朝阳的理解中,这是一套新型关系结构,在一个抵抗算法疲劳的内…

2025-12-11

XSKY星辰天合:以智能分层存储,赋能AI大模型高效训练与落地
随着大语言模型(LLM)、多模态模型参数量与训练数据量呈指数级增长,AI 技术对数据存储的“性能-成本-效率”提出三重极致要求:一方面,AI全工作流(数据采集→清洗预处理→GPU高并发训练→模型推理)需TB…

2025-12-11

360集团:智能体驱动产业变革,安全护航赋能新质生产力发展
作为中国网络安全与数字化建设领域的核心企业,360集团正将“智能体”视为打通这“最后一公里”的关键载体,并以其深厚的安全能力为基石,构建起技术驱动与风险防范并重的新质生产力发展范式。360集团以“智能体”为…

2025-12-11

十年磨一剑:网易数智以AI为翼,在企服赛道开启新长跑征程
用阮良的话说,“AI驱动下,需要将价值链条上的东西组合成解决方案,让AI在企业内部更好落地。”网易数智的产品,多是这样,从自家业务“长出来”的实战派——对外输出给行业前,已经历千锤百炼。 阮良提到,丁磊对…

2025-12-11

抖音旗下全资子公司于呼和浩特成立火山引擎科技公司 注册资本达百万
天眼查工商信息显示,近日,呼和浩特火山引擎科技有限公司成立,法定代表人为王宁,注册资本100万人民币,经营范围含互联网数据服务、信息系统集成服务、数据处理服务、数据处理和存储支持服务、信息技术咨询服务、计算机…

2025-12-11