媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

阿里通义千问发布QVQ-72B-Preview,挑战物理难题的视觉推理新模型!

2024-12-25来源:ITBEAR编辑:瑞雪

阿里巴巴旗下的通义千问Qwen团队近期宣布了一项重大进展,他们成功推出了名为QVQ-72B-Preview的开源视觉推理模型。这款模型建立在Qwen2-VL-72B的基础上,具备出色的逻辑推理能力,能够像物理学大师一样,冷静应对复杂的物理问题,并找到解决方案。

测试结果显示,QVQ-72B-Preview在MMMU基准测试中取得了70.3的高分,显著超越了其前身Qwen2-VL-72B-Instruct。在另外两个专注于数学和科学问题的基准测试MathVista和MathVision中,QVQ-72B-Preview同样表现出色,有效缩小了与当前最先进的o1模型之间的差距。在最具挑战性的OlympiadBench测试集中,QVQ-72B-Preview也展现出了不俗的实力。

尽管QVQ-72B-Preview的表现令人瞩目,但通义千问Qwen团队也坦诚地指出了该模型的局限性。首先,在语言处理方面,模型有时会出现语言混合或切换的情况,这可能会影响响应的清晰度。其次,在递归推理方面,模型可能会陷入循环逻辑模式,导致产生冗长的响应而无法有效得出结论。团队还强调了安全和伦理考虑的重要性,指出需要进一步增强模型的安全措施,以确保其可靠和安全的性能。用户在部署时应保持谨慎,以避免潜在的风险。

除了上述局限性外,团队还提到,尽管QVQ-72B-Preview在视觉推理方面有所改善,但它并不能完全替代Qwen2-VL-72B的能力。特别是在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致产生幻觉现象。因此,团队建议在使用QVQ-72B-Preview时,应充分考虑其适用场景和限制条件。

总的来说,QVQ-72B-Preview的推出标志着通义千问Qwen团队在视觉推理领域取得了重要突破。虽然该模型还存在一些局限性,但其出色的性能和广泛的应用前景仍然值得业界关注。未来,随着技术的不断进步和应用的深入拓展,QVQ-72B-Preview有望在更多领域发挥重要作用。

太阳能语音监控杆:环保智能双驱动,筑牢户外安防多重防线
其中,太阳能板组件为系统提供持续的清洁能源,保障设备在无外接电源的户外环境中长时间稳定运行;上下立杆分别集成语音播放与远程对讲核心部件,实现功能分区的同时保障信号传输稳定;宣传警示牌起到提前警示、引导规范的作…

2026-01-15

2025娱乐市场全景洞察:电影剧集综艺齐发力,新趋势下机遇涌现
今天分享的是: 2025年中国娱乐市场呈现多元发展态势,电影总票房达518.3亿元同比增长22.0%,《哪吒之魔童闹海》以154.5亿票房刷新多项纪录,动画电影与战争题材表现突出,国产片占比81.6%主导市场…

2026-01-14

智谱携手华为开源GLM-Image模型 国产算力生态适配再获突破性进展
【CNMO科技消息】1月14日,国内人工智能企业智谱与华为联合宣布,开源新一代图像生成模型GLM-Image。API调用模式下,生成一张图片的成本仅为0.1元,极大降低了企业和开发者使用先进图像生成技术的门槛…

2026-01-14

华为马悦:以数智化赋能物流转型,携手伙伴共绘智慧供应链新蓝图
双方团队紧密协作,围绕云南建投物流“成为世界一流供应链生态运营商”的愿景,联合广大生态伙伴,对跨境物流、园区运营、冷链服务等关键场景开展了系统性调研与联合诊断;结合“云上营家”的品牌蓝图,双方共同推进方案设计…

2026-01-14