月之暗面 Kimi 开源“Moonlight”混合专家模型

月之暗面Kimi发布“ Moonlight ”混合专家模型(MoE),包含30亿和160亿参数版本。模型在Muon技术基础上训练,使用了5.7万亿个token,以更低的浮点运算次数(FLOPs)实现更优性能,提升了帕累托效率边界。团队通过添加权重衰减等技术优化Muon优化器,无需超参数调优可用于大规模训练,计算效率是AdamW的2倍。

版权声明:
作者:来吧来吧27
链接:https://deepseek-seo.net/%e6%9c%88%e4%b9%8b%e6%9a%97%e9%9d%a2-kimi-%e5%bc%80%e6%ba%90moonlight%e6%b7%b7%e5%90%88%e4%b8%93%e5%ae%b6%e6%a8%a1%e5%9e%8b-3/
来源:Deepseek SEO Hub
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>