媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

微软创新 XOT 方法:助力语言模型推理实力提升

2023-11-15来源:媒体界编辑:芳华

【媒体界】11月15日消息,微软近日推出了名为“Thought Harmony”(TH)的全新方法,旨在加强人工智能(AI)模型的推理能力。这一创新灵感源自谷歌 DeepMind 的 AlphaZero,采用了紧凑的神经网络结构。

微软与佐治亚理工学院和华东师范大学共同合作研发了这一算法,通过整合强化学习(reinforcement learning)和蒙特卡洛树搜索(MCTS)能力,进一步提升了模型在复杂决策环境中的解决问题效能。

据媒体界了解,微软研究团队表示,Thought Harmony方法可以使语言模型扩展到对其不熟悉的问题上,尤其在Game of 24、8-Puzzle和Pocket Cube等严苛测试中表现出显著提升。研究结果显示,Thought Harmony明显优于其他方法,甚至成功解决了其他方法在某些问题上失败的情况。然而,Thought Harmony并未达到百分之百的可靠性。

Thought Harmony框架主要包括以下关键步骤:

**1. 预训练阶段:** Thought Harmony在特定任务上进行预训练,利用蒙特卡洛树搜索(MCTS)模块学习与有效思维搜索相关的领域知识。轻量级的策略和价值网络指导搜索过程。

**2. 思维搜索:** 在推理过程中,预训练的MCTS模块使用策略/价值网络来有效地探索和生成语言模型(LLM)的思维轨迹。

**3. 思维修正:** LLM审查MCTS的思维过程,识别任何错误。修正的思维是通过额外的MCTS模拟产生的。

**4. LLM推理:** 将修正后的思维提供给LLM,为解决问题提供最终的提示。

这一全新的Thought Harmony方法标志着微软在人工智能领域的不断创新,为AI技术的发展开辟了新的可能性。

马斯克预言未来3-7年普通人难熬?破局关键在这三大方向
一是“轻资产配置”:减少对“旧产能相关资产”的投入(比如传统行业的实体门店),把资金转向“提升自身能力”(学习、健康)和“适配新趋势的轻资产”(比如AI工具订阅、线上技能服务);二是“保留流动性”:不用追求…

2026-01-11

离开特斯拉后,张海星携MATRIX-3开启人形机器人新篇章
为实现这一跨越,矩阵超智的工程团队突破了材料科学、驱动技术、感知算法与人工智能的多重边界,为MATRIX-3注入了以下三大优势: 它融合了仿生设计、极致灵巧的物理执行以及具有泛化能力的人工智能,构建了一个真…

2026-01-11

互联网应用新规征求意见:便捷注销账号 规范权限调用
【1月10日,国家网信办就《互联网应用程序个人信息收集使用规定》公开征求意见】国家互联网信息办公室起草规定,现向社会公开征求意见。征求意见稿要求,互联网应用程序要为用户提供便捷账号注销功能。还指出,仅在用户主…

2026-01-11