英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

英伟达推出名为 Nemotron-CC 的大型英文AI训练数据库,包含6.3万亿个Token,其中1.9万亿为合成数据。该数据库基于Common Crawl网站数据构建,经过严格处理形成高质量子集Nemotron-CC-HQ。与业界领先的DCLM数据库相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中分数提高5.6分。

版权声明:
作者:来吧来吧27
链接:https://deepseek-seo.net/%e8%8b%b1%e4%bc%9f%e8%be%be%e5%8f%91%e5%b8%83-6-3-%e4%b8%87%e4%ba%bf-token-%e5%a4%a7%e5%9e%8b-ai-%e8%ae%ad%e7%bb%83%e6%95%b0%e6%8d%ae%e5%ba%93-nemotron-cc-12/
来源:Deepseek SEO Hub
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>