近日,小米公司在人工智能领域的研究成果引发广泛关注。其团队有多篇论文成功入选国际顶级会议ICLR 2026,研究范畴覆盖多模态推理、强化学习、GUI Agent、端到端自动驾驶以及音频生成等多个前沿方向。ICLR作为人工智能领域极具影响力的学术会议,始终致力于推动该领域理论与方法的前沿探索与创新发展。
在强化学习领域,小米团队提出的《Shuffle-R1》成果颇具创新性。该研究构建了数据动态重组框架,核心在于运用成对轨迹采样和优势值批次重排序两项关键技术。这一创新有效解决了多模态大模型训练过程中存在的优势坍缩与轨迹沉默难题,大幅提升了梯度信号质量。在多个基准测试中,该成果以极低的计算开销超越了现有的强化学习基线水平。
移动智能体方向,小米团队的《MobileIPL》同样表现亮眼。团队首创迭代偏好学习框架,借助Thinking-level DPO实现思考步骤的细粒度优化。同时,结合三阶段指令演化机制,成功突破了高质量轨迹稀缺这一瓶颈。在AITZ等主流GUI-Agent测试中,该成果刷新了性能纪录,并且在分布外场景下展现出更强的鲁棒性。
端到端自动驾驶研究方面,小米团队的《ReCogDrive》实现了技术融合创新。研究通过分层认知数据流水线,将驾驶先验知识注入其中,利用认知引导扩散规划器生成物理可行的轨迹。还首创DiffGRPO强化学习算法,直接对驾驶策略进行优化。在NAVSIM与Bench2Drive的闭环测试中,该成果领先于现有方案。
除了上述成果,小米团队还有其他创新研究。《ThinkOmni》实现了文本推理能力向全模态的零成本迁移;《Flow2GAN》融合流匹配与对抗生成技术,实现了高保真少步音频合成;《WorldSplat》则在4D驾驶场景生成技术上取得突破。