月之暗面 Kimi 开源“Moonlight”混合专家模型
月之暗面Kimi发布“ Moonlight ”混合专家模型(MoE),包含30亿和160亿参数版本。模型在Muon技术基础上训练,使用了5.7万亿个token,以更低的浮点运算次数(FLOPs)实现更优性能,提升了帕累托效率边界。团队通过添加权重衰减等技术优化Muon优化器,无需超参数调优可用于大规模训练,计算效率是AdamW的2倍。
版权声明:
作者:来吧来吧27
链接:https://deepseek-seo.net/%e6%9c%88%e4%b9%8b%e6%9a%97%e9%9d%a2-kimi-%e5%bc%80%e6%ba%90moonlight%e6%b7%b7%e5%90%88%e4%b8%93%e5%ae%b6%e6%a8%a1%e5%9e%8b-3/
来源:Deepseek SEO Hub
文章版权归作者所有,未经允许请勿转载。
THE END
二维码