DeepSeek开源FP8 GEMM库:极致优化Hopper GPU性能,助力AI训练与推理

DeepSeek开源周第三弹发布—— DeepGEMM ,是专为Hopper GPU设计的FP8 GEMM库,支持密集和MoE GEMM,性能高达1350+ TFLOPS。采用JIT即时编译,无需预编译,核心代码仅约300行,支持多种矩阵布局,矩阵运算提速显著。

版权声明:
作者:来吧来吧27
链接:https://deepseek-seo.net/deepseek%e5%bc%80%e6%ba%90fp8-gemm%e5%ba%93%ef%bc%9a%e6%9e%81%e8%87%b4%e4%bc%98%e5%8c%96hopper-gpu%e6%80%a7%e8%83%bd%ef%bc%8c%e5%8a%a9%e5%8a%9bai%e8%ae%ad%e7%bb%83%e4%b8%8e%e6%8e%a8%e7%90%86/
来源:Deepseek SEO Hub
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>