媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

OpenAI新研究:训练稀疏模型 借「小型电路」解锁语言模型内部机制

2025-11-21来源:快讯编辑:瑞雪

在人工智能领域,大语言模型的内部运作机制长期被视为“黑箱”,即便是专业研究人员也难以完全掌握其计算逻辑。为破解这一难题,OpenAI近期发布了一项新研究,通过训练结构更简单的小型稀疏模型,探索提升模型可解释性的可行路径。这类模型的神经元连接更少,计算过程更透明,为理解模型行为提供了新思路。

与传统稠密模型不同,OpenAI设计的稀疏模型在训练阶段强制大部分权重为零,限制神经元之间的连接数量。这种结构使得每个神经元仅与下一层的少数神经元交互,形成更清晰的计算路径。研究团队发现,通过剪枝技术保留执行特定任务所需的最小神经元子集,可以提取出独立且易于理解的“电路模块”。例如,在代码补全任务中,模型能准确识别字符串的起始引号类型,并在结尾复现相同符号,其计算过程可分解为四个清晰步骤:编码引号类型、检测任意引号、定位前一个引号、复制引号类型。

论文核心贡献者指出,稀疏模型的独特优势在于其解耦性。在Python代码的引号匹配任务中,模型仅需五个残差通道、两个多层感知机神经元以及少量注意力机制通道即可完成任务。实验表明,移除其他部分后,该电路仍能独立运行,且删除关键连接会导致功能失效。这种模块化设计不仅降低了理解难度,还为调试模型错误提供了直接切入点。

研究团队进一步验证了稀疏模型在变量绑定等复杂任务中的表现。例如,在跟踪变量类型时,模型通过注意力机制将变量名从定义位置复制到使用位置,形成可追溯的信息流。尽管部分电路仍难以完全解析,但研究人员已能提供阶段性解释,并预测模型行为模式。这种部分可解释性为后续研究奠定了基础。

当前研究仍存在局限性。稀疏模型的规模远小于前沿大模型,且大部分计算过程尚未被解释。为突破瓶颈,OpenAI提出两条优化路径:一是从现有稠密模型中提取稀疏电路,提升部署效率;二是开发面向可解释性的专用训练技术,降低资源消耗。尽管无法保证该方法适用于所有场景,但早期实验结果已展现出潜力——通过扩大模型规模,可在不显著牺牲性能的前提下提升可解释性。

该研究为理解神经网络提供了新范式。相比传统的事后分析方法,稀疏模型从设计阶段便融入可解释性考量,为构建更透明、更可控的AI系统开辟了道路。相关论文已公开,详细技术方案可参阅OpenAI官方文档。

李彦宏AI数字人亮相业绩会20分钟流畅英文介绍 百度AI应用再获新进展
在最新举办的百度三季度业绩电话会上,百度创始人李彦宏的AI数字人完成了近20分钟的全英文业绩介绍,语速流畅,停顿自然,全场没有分析师察觉。北京某互联网人士对记者分析说,倘若AI数字人在百度业绩交流会上“跑通”…

2025-11-21

谷歌前研究员创办!日本AI独角兽Sakana AI再获1.35亿美元融资
今年,Sakana AI在日本扩大了业务范围,与包括大和证券和三菱日联金融集团在内的本土企业合作,开发了对应的AI解决方案。 Sakana AI再获一轮融资,吸引了日本、美国、欧洲等全球不同地区投资者的目光…

2025-11-21

B站GET大会展现学习生态新貌:成教育机构布局增量重要阵地
目前,B站覆盖知识、科技、汽车、母婴等多元赛道,而AI从对话式演进到具身智能,也正是从二次元走向三次元的破壁;平台的推荐算法、内容生产工具、AIGC辅助能力,正在重塑内容供给方式,也为学习内容的丰富度与专业…

2025-11-21

AI 浪潮下:百度与谷歌的自我颠覆与生态重构之战
百度与谷歌这对老对手,如今在 AI 时代面临同样的局面:传统搜索带来的广告模式让位于生成式 AI模式,它们都要进行平台的重构和自我颠覆;它们都在构建从底层芯片到上层应用的全栈 AI 生态,一方面防御 AI…

2025-11-21

数字能源高峰论坛宜宾启幕 “中法电池数智加速实验室”助力产业新发展
来自全球数字技术与能源产业的近300位专家学者、行业领袖及企业代表齐聚一堂,共同探讨在人工智能浪潮下,数字孪生等前沿技术赋能新能源产业高质量发展的新路径、新机遇。 本次论坛由达索系统(宜宾)动力电池创新中心、…

2025-11-21

新能源场站焕新升级:智能集控引领无人值守,多维监测守护安全高效
2、通过建设新能源智慧集控管理系统,使新能源生产运营中心能对多个新能源场站进行集中运行、安防远程监控、综合数据分析与诊断和统一运维管理,实现风电场、光伏电站无人值守生产管理模式,在同一平台下对不同控制系统的…

2025-11-21

光伏气象站:光伏电站的“智慧大脑”,精准监测助力发电效率与收益双提升
从应用场景来看,光伏气象站可全方位适配各类光伏电站:大型地面光伏电站可通过多监测点组网,实现全域气象数据覆盖,为电站布局优化(如根据辐射分布调整组件密度)、发电量预测提供数据支撑;分布式光伏电站(如屋顶光伏…

2025-11-21

双向储能逆变器:离网能源升级的“核心引擎”与“智能大脑”
在离网发电系统中,双向储能逆变器犹如一个"智慧能源枢纽",不仅实现了直流电与交流电的高效转换,更通过其独特的双向能量流动能力,为离网能源系统带来了革命性的变革。 在极端天气或应急情况下,离网系统凭借双向储能逆…

2025-11-21