2024全球大模型评测榜单揭晓，国产模型多领域夺冠表现亮眼！-峰会论坛-媒体界

随着2024年的尾声渐近，全球大模型技术的竞争格局再次成为焦点。近日，智源研究院公布了下半年的大模型综合评测结果，覆盖了超过100个开源与闭源模型，涉及文本、语音、图像和视频等多个领域，为业界提供了一份详尽的技术参考。

此次评测中，智源研究院不仅评估了模型的常规能力，还进一步扩展了任务解决能力的内涵，新增了数据处理、高级编程和工具调用等相关任务。同时，评测首次引入了面向真实金融量化交易场景的应用能力评估，以及基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解和语言表达等核心能力进行了深入分析。

在语言模型方面，尽管针对一般中文场景的开放式问答或生成任务，模型能力已趋于稳定，但在复杂场景任务中，国内头部语言模型与国际一流水平仍存在差距。评测结果显示，OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest分别位列第一和第二，阿里巴巴的Qwen-max-0919和字节跳动的Doubao-pro-32k-preview紧随其后，分列第三和第四。

文生图多模态模型方面，相较于今年上半年，参评的头部模型已具备中文文字生成能力，但整体仍存在复杂场景人物变形的情况。针对常识或知识性推理任务，模型在小于3的数量关系任务上有所提升，但大于3的数量关系依然无法处理。评测结果显示，腾讯的Hunyuan Image位列第一，字节跳动的Doubao image v2.1和Ideogram 2.0分居第二和第三。

文生视频多模态模型在画质、动态性和镜头语言等方面均有所提升，但仍存在大幅度动作变形、无法理解物理规律等问题。评测结果显示，快手的可灵1.5（高品质）、字节跳动的即梦P2.0 pro、爱诗科技的PixVerse V3等模型位列前五。

语音语言模型方面，得益于文本大模型的进步，模型能力得到了显著提升，但在具体任务上与专家模型仍存在差距。评测结果显示，阿里巴巴的Qwen2-Audio位居第一，香港中文大学与微软合作的WavLLM、清华大学与字节跳动合作的Salmon分别位列第二和第三。

智源研究院还联合海淀区教师进修学校新编了K12全学段、多学科试卷，以考察大模型与人类学生的能力差异。评测发现，尽管模型在K12学科测验中的综合得分有所提升，但仍与海淀学生的平均水平存在差距，且普遍存在“文强理弱”的情况。

智源研究院还推出了模型辩论平台Flageval Debate，对模型的逻辑推理、观点理解和语言表达等核心能力进行了深入评估。评测发现，大模型在辩论中普遍缺乏框架意识，论据经不起推敲，且更擅长反驳而非阐述观点。

此次评测不仅展示了当前大模型技术的最新进展，也为未来技术的发展提供了重要参考。智源研究院将继续坚守科学、权威、公正、开放的准则，通过技术创新和平台升级，推动大模型技术生态的持续健康发展。