媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

月之暗面Kimi发布Moonlight模型:参数高达30亿至160亿,性能大幅提升

2025-02-24来源:ITBEAR编辑:瑞雪

近期,人工智能领域迎来了一项引人注目的技术创新。知名技术团队月之暗面Kimi发布了一项关于Muon优化器的新技术报告,并随之推出了名为“Moonlight”的混合专家模型(MoE)。这款模型在Muon优化器的基础上进行了训练,拥有30亿至160亿不等的参数规模。

Moonlight模型在训练过程中采用了5.7万亿个token的数据量,并且在减少浮点运算次数(FLOPs)的同时,实现了卓越的性能表现。这一成果不仅提升了帕累托效率边界,更为大规模的语言模型训练提供了新的思路。

月之暗面团队表示,Muon优化器通过引入权重衰减和精细调整每个参数更新幅度的技术,实现了在大规模训练中的高效应用。这些创新技术使得Muon优化器无需繁琐的超参数调优,即可直接应用于实际训练任务。

据团队介绍,在扩展法则实验中,Muon优化器相较于计算最优训练的AdamW优化器,实现了约2倍的计算效率提升。这一显著优势使得Muon优化器在处理大规模数据集时更加得心应手。

本次发布的Moonlight模型采用了名为Moonlight-16B-A3B的具体配置,总参数量达到15.29B,其中激活参数为2.24B。在5.7T token的训练数据支持下,Moonlight模型展现出了卓越的性能表现,不仅突破了当前的Pareto前沿,还在大幅减少FLOPs的情况下实现了比以往模型更优的性能。

为了方便其他研究人员和开发者利用这一创新成果,月之暗面团队还开源了一个分布式版本的Muon实现。该实现在内存使用和通信效率上都进行了优化,旨在提高整体性能和易用性。团队还发布了预训练模型、经过指令调优的模型以及中间训练检查点,为未来的研究工作提供了有力支持。

对于对这项技术感兴趣的研究人员和开发者来说,可以通过访问GitHub和Hugging Face平台,获取更多关于Moonlight模型和Muon优化器的详细信息。

高盛大幅上调闪迪目标价,NAND供需紧张
近日,全球知名投行高盛的一则研报在金融市场掀起波澜——其将存储芯片巨头闪迪的目标价从140美元直接上调至280美元,维持“买入”评级。这一激进动作背后,是NAND闪存行业供需格局的剧烈变化,以及闪迪最新财报释放的超预期信号。

2025-11-13

AMD:未来三到五年获利或超3倍,数据中心业务冲刺千亿美元
近日,处理器行业巨头AMD在美国纽约举办了分析师日活动,这是其近三年来首次举办此类活动。会上,AMD对外公布了乐观的财务预期及市场展望,预计未来

2025-11-12