阿里语音大模型Fun系列登顶全球AI评测！三项指标领先，多场景应用再升级-科技前沿-媒体界

在全球人工智能评测领域，阿里巴巴自主研发的语音大模型系列近日取得重大突破。其最新推出的Fun-Realtime-ASR实时语音识别模型与Fun-Realtime-AudioChat语音交互模型，在权威评测平台Artificial Analysis的最新榜单中双双登顶，超越包括GPT-Realtime-2在内的多个国际顶尖模型，在语音技术核心指标上展现强劲实力。

作为语音识别领域的标杆模型，Fun-Realtime-ASR以1.8%的词错误率（WER）刷新行业纪录。该指标直接反映模型听写准确性，数值越低代表识别越精准。这意味着在连续100个词汇的识别中，模型平均仅会出现不到2个字的误差。技术团队透露，通过创新的多模态预训练架构，模型在复杂声学环境下的抗干扰能力显著提升，即便面对口音差异或背景噪音，仍能保持稳定输出。

该模型的技术优势不仅体现在精度层面。其毫秒级响应速度可满足实时交互场景需求，目前已支持包括普通话在内的七大中文方言体系，以及三十余种国际主流语言。针对金融、医疗等垂直领域，模型提供可定制化接口服务，能够根据特定场景的术语库和交互逻辑进行优化适配。例如在医疗问诊场景中，模型可准确识别专业术语并保持上下文连贯性。

在语音交互维度，Fun-Realtime-AudioChat模型展现出更接近人类水平的综合能力。该模型在"语音推理"测试中以97.6%的得分登顶，这项指标重点考察模型对语义逻辑、隐含意图的理解能力。实际测试显示，模型能够完成情感分析、多轮推理等复杂任务，甚至可以处理需要常识判断的对话场景。例如在模拟客服对话中，模型能准确识别用户情绪波动并调整回应策略。

对话流畅度测试结果同样引人注目。模型在"对话动态"指标上取得97.8%的得分，该指标衡量系统在真实对话中的应变能力，包括被打断后的上下文衔接、自然插话时机把握等维度。测试数据显示，模型在处理对话中断、语义跳跃等复杂情况时，表现已与人类对话者无明显差异。这种能力使其在会议纪要生成、智能导航等场景中具有显著优势。

目前，这两款模型已深度集成至阿里巴巴旗下多款国民级应用。在千问APP中，用户可体验实时语音转文字服务；高德地图借助模型实现更自然的语音导航交互；钉钉用户则能通过智能会议系统自动生成结构化纪要。技术团队表示，将持续优化模型在低资源语言和极端环境下的表现，推动语音交互技术向更普惠的方向发展。