阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini 夺冠超 90% 人类程序员

来吧来吧27 • 2025年2月25日 am12:00 • AI资讯

阿里通义千问 Qwen 推出了 CodeElo 基准测试，利用 Elo 评级系统评估大语言模型（LLM）的编程能力。CodeElo 通过 CodeForces 平台的题目进行测试，确保评估的准确性和全面性。在测试中，OpenAI 的 o1-mini 模型表现最佳，Elo 评分为 1578，超过了 90% 的人类程序员。

版权声明：
作者：来吧来吧27
链接：https://deepseek-seo.net/%e9%98%bf%e9%87%8c%e9%80%9a%e4%b9%89%e5%8d%83%e9%97%ae-qwen-%e6%8e%a8-codeelo-%e5%9f%ba%e5%87%86%ef%bc%8copenai-o1-mini-%e5%a4%ba%e5%86%a0%e8%b6%85-90-%e4%ba%ba%e7%b1%bb%e7%a8%8b%e5%ba%8f%e5%91%98-10/
来源：Deepseek SEO Hub
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

DeepSeek 开源周首日推出 FlashMLA，为 Hopper GPU 优化的高效 MLA 解码内核

< <上一篇

对话智谱CEO张鹏：大家对大模型期待过高，Scaling Law还有很大增长空间

下一篇>>