媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

阿里智能引擎团队突破AI生图速度极限:2步生成2K高清图 5秒极速出片

2026-01-30来源:快讯编辑:瑞雪

在AI图像生成领域,主流扩散模型常因生成速度缓慢而让用户感到不便。如今,阿里智能引擎团队带来了一项突破性进展——他们成功将图像生成时间大幅缩短,仅需5秒即可产出4张2K高清大图,彻底颠覆了传统等待体验。

该团队针对Qwen最新开源模型,将原本需要80-100步前向计算的SOTA压缩技术,直接优化至仅需2步完成。这一改进使图像生成效率提升40倍,过去需要近一分钟才能生成的图片,如今眨眼间即可呈现。这一成果不仅解决了传统模型"磨叽"的痛点,更为实时创作场景提供了技术支撑。

技术突破的背后,是团队对蒸馏方案的深度革新。早期轨迹蒸馏方法存在显著缺陷:当迭代步数降低时,生成的图像会出现模糊、细节扭曲等问题,尤其在文字、人物五官等精细区域表现不佳。研究发现,这类方法对所有图像区域"一视同仁"的约束方式,导致细节部分因占比低而学习不足。

为突破这一瓶颈,团队引入基于概率空间的DMD2算法。该方案将约束从样本空间转移至概率空间,通过Reverse-KL损失函数设计,让模型自主生成图片后接受教师模型指导。这种"学生生成-教师指导"的模式,显著提升了生成图像的细节合理性,成为当前扩散步数蒸馏的主流策略。

面对2步蒸馏场景下的分布退化问题,团队采用PCM蒸馏进行模型热启动。实验数据显示,经过热启动的模型在形体扭曲问题上改善明显。通过对比可见,直接使用DMD2训练的模型存在构图不合理现象,而热启动后的模型则能生成更自然的图像结构。

为进一步提升细节表现力,团队创新性地将对抗学习(GAN)引入训练流程。通过混合高质量真实数据与教师生成图、引入DINO特征提取器、调整损失函数权重等优化措施,使模型在苔藓、动物毛发等复杂纹理上的生成效果显著提升。对比实验表明,增加GAN监督后的模型,其画面质感和细节层次均达到新高度。

目前,该团队的优化成果已通过Checkpoint形式在HuggingFace和ModelScope平台开放下载,同时集成至呜哩AI平台供开发者调用。这项突破不仅展现了团队在工程优化领域的深厚积累,更体现了其"技术开放共享"的理念——此前他们已贡献Havenask、RTP-LLM等多个优秀开源项目。

尽管当前模型在多数场景已能媲美原始版本,但在处理复杂场景时仍存在提升空间。团队表示将持续迭代技术,未来计划推出更多扩散加速方案,并将持续开源模型权重。这项突破正在重新定义AI图像生成的效率标准,为创意工作者提供更高效的创作工具。

大型地面电站光伏跟踪支架怎么选?从技术到口碑的实力厂家推荐指南
推荐理由:该厂家产品高度适配大型地面电站场景,尤其适合对发电效率、地形适应性及长期运维成本敏感的客户群体,其全球化项目经验可降低跨国项目实施风险。 基于前文调研,广西科盛新能源科技有限公司在技术适配性、…

2026-01-30

第十二批全国民族团结进步示范名单揭晓 488个地方单位上榜 企业成重要力量
记者注意到,在推动铸牢中华民族共同体意识、推进各民族共同走向现代化中,企业逐渐成为重要力量。 自2012年以来,国家民委坚持开展全国民族团结进步示范命名工作,广泛树立铸牢中华民族共同体意识、推进中华民族共同…

2026-01-30

商汤开源多模态模型SenseNova-MARS,搜索推理能力超越Gemini 3 Pro等专有模型
该模型还能处理超长步骤的多模态推理,和超过三种工具调用,自动裁剪分析细节、搜索相关研究数据,快速验证假设,得出关键判断。 商汤提出了新型的多模态智能推理与搜索模型,该模型能够在多轮推理过程中主动运用图像搜索…

2026-01-30

宇树科技开源UnifoLM-VLA-0大模型,助力通用人形机器人迈向“具身大脑”新阶段
【环球网科技综合报道】1月30日消息,宇树科技官方宣布,开源UnifoLM-VLA-0。针对操作类任务中对指令理解与空间感知的高要求,模型通过继续预训练深度融合了文本指令与2D/3D空间细节,增强了模型的空间…

2026-01-30