阿里通义千问发布QVQ-72B-Preview，挑战物理难题的视觉推理新模型！-资讯速递-媒体界

阿里巴巴旗下的通义千问Qwen团队近期宣布了一项重大进展，他们成功推出了名为QVQ-72B-Preview的开源视觉推理模型。这款模型建立在Qwen2-VL-72B的基础上，具备出色的逻辑推理能力，能够像物理学大师一样，冷静应对复杂的物理问题，并找到解决方案。

测试结果显示，QVQ-72B-Preview在MMMU基准测试中取得了70.3的高分，显著超越了其前身Qwen2-VL-72B-Instruct。在另外两个专注于数学和科学问题的基准测试MathVista和MathVision中，QVQ-72B-Preview同样表现出色，有效缩小了与当前最先进的o1模型之间的差距。在最具挑战性的OlympiadBench测试集中，QVQ-72B-Preview也展现出了不俗的实力。

尽管QVQ-72B-Preview的表现令人瞩目，但通义千问Qwen团队也坦诚地指出了该模型的局限性。首先，在语言处理方面，模型有时会出现语言混合或切换的情况，这可能会影响响应的清晰度。其次，在递归推理方面，模型可能会陷入循环逻辑模式，导致产生冗长的响应而无法有效得出结论。团队还强调了安全和伦理考虑的重要性，指出需要进一步增强模型的安全措施，以确保其可靠和安全的性能。用户在部署时应保持谨慎，以避免潜在的风险。

除了上述局限性外，团队还提到，尽管QVQ-72B-Preview在视觉推理方面有所改善，但它并不能完全替代Qwen2-VL-72B的能力。特别是在多步骤视觉推理过程中，模型可能会逐渐失去对图像内容的关注，导致产生幻觉现象。因此，团队建议在使用QVQ-72B-Preview时，应充分考虑其适用场景和限制条件。

总的来说，QVQ-72B-Preview的推出标志着通义千问Qwen团队在视觉推理领域取得了重要突破。虽然该模型还存在一些局限性，但其出色的性能和广泛的应用前景仍然值得业界关注。未来，随着技术的不断进步和应用的深入拓展，QVQ-72B-Preview有望在更多领域发挥重要作用。