微软创新 XOT 方法：助力语言模型推理实力提升-科技前沿-媒体界

【媒体界】11月15日消息，微软近日推出了名为“Thought Harmony”(TH)的全新方法，旨在加强人工智能(AI)模型的推理能力。这一创新灵感源自谷歌 DeepMind 的 AlphaZero，采用了紧凑的神经网络结构。

微软与佐治亚理工学院和华东师范大学共同合作研发了这一算法，通过整合强化学习(reinforcement learning)和蒙特卡洛树搜索(MCTS)能力，进一步提升了模型在复杂决策环境中的解决问题效能。

据媒体界了解，微软研究团队表示，Thought Harmony方法可以使语言模型扩展到对其不熟悉的问题上，尤其在Game of 24、8-Puzzle和Pocket Cube等严苛测试中表现出显著提升。研究结果显示，Thought Harmony明显优于其他方法，甚至成功解决了其他方法在某些问题上失败的情况。然而，Thought Harmony并未达到百分之百的可靠性。

Thought Harmony框架主要包括以下关键步骤：

**1. 预训练阶段：** Thought Harmony在特定任务上进行预训练，利用蒙特卡洛树搜索(MCTS)模块学习与有效思维搜索相关的领域知识。轻量级的策略和价值网络指导搜索过程。

**2. 思维搜索：** 在推理过程中，预训练的MCTS模块使用策略/价值网络来有效地探索和生成语言模型(LLM)的思维轨迹。

**3. 思维修正：** LLM审查MCTS的思维过程，识别任何错误。修正的思维是通过额外的MCTS模拟产生的。

**4. LLM推理：** 将修正后的思维提供给LLM，为解决问题提供最终的提示。

这一全新的Thought Harmony方法标志着微软在人工智能领域的不断创新，为AI技术的发展开辟了新的可能性。

摩尔线程科创板上市首日表现亮眼中一签开盘收益超26万元

2025-12-10

美的集团创A股年内唯一百亿级回购纪录 9500万股将注销减资

2025-12-10

2026调味品市场“内卷”加剧，企业如何破局寻得生存新路径？

2025-12-10

OpenAI启动“红色警报”应对竞争，谷歌TPU崛起，AI领域格局生变？

OpenAI仍拥有超过8亿周活跃用户，在整体聊天机器人使用中占据主导地位，但用户正在向谷歌流失。面对谷歌TPU的崛起，英伟达在与瑞银的交流中强调了与谷歌云平台的牢固关系，指出谷歌在Gemini推理工作负载中…

2025-12-10

任正非谈AI发展：聚焦应用赋能千行百业，寄望青年勇攀科技高峰

任正非详细列举了AI在多个领域的具体应用案例，这些案例展示了华为如何将AI技术转化为实际生产力。任正非明确了企业和学校的不同角色与使命：“因为我们是一家企业，企业的属性就是创造商业价值，学校的属性是探索人…

2025-12-10

饿了么焕新为淘宝闪购阿里大消费布局再升级开启即时零售新篇章

2025-12-10

谷歌Deep Think模型公测：数学奥赛金牌级推理能力，引领AI新竞争

谷歌官方数据显示，Deep Think 模式在处理复杂数学、科学及逻辑问题时的推理能力实现了显著飞跃。OpenAI 曾在今年 7 月声称其实验性推理大模型达到了数学奥赛金牌水平，但截至目前该模型仍未向公众开…

2025-12-10

全球冰淇淋龙头“单飞”上市，中国市场竞争激烈下如何破局突围？

2025-12-10

AMA浪潮席卷小红书：从科技圈到全领域，构建AI时代创新生态圈

过去两年，AI恋爱、Vibecoding、AI原住民等新现象和新趋势都在这个平台上萌芽和发酵，而且，小红书上不但聚集了大量关心科技的兴趣用户，还涌现了庞大的开发者生态。这一轮从科技圈发酵的AMA热潮，也让…

2025-12-10

谷歌“全栈AI”战略强势崛起：重塑AI格局，引领技术新未来

【新智元导读】随着Gemini3模型与第七代TPU的强势发布，谷歌终于打破了OpenAI与英伟达主导的市场叙事，宣告这一「沉睡的巨人」已凭借硬核实力完全醒来。在当下这个以「推理为先」的AI时代，谷歌率…

2025-12-10