“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

来吧来吧27 • 2025年2月25日 am12:00 • AI资讯

OpenAI研究人员提出“ 深思熟虑的对齐 ”新方法，旨在提升AI模型安全性。该方法通过直接教授模型安全规范，并训练其在生成响应前推理这些准则，将安全原则融入推理过程中。分为监督微调和强化学习两个阶段，使用模型生成的数据和思维链推理，降低资源需求。o1模型部署此技术后，在StrongREJECT基准测试中得分0.88，显著高于GPT-4o的0.37，同时减少了误拒，准确率高达93%。

版权声明：
作者：来吧来吧27
链接：https://deepseek-seo.net/%e6%b7%b1%e6%80%9d%e7%86%9f%e8%99%91%e7%9a%84-ai%ef%bc%9aopenai-%e6%8f%90%e5%87%ba%e5%85%a8%e6%96%b0%e5%ae%89%e5%85%a8%e5%af%b9%e9%bd%90%e6%96%b9%e6%b3%95-16/
来源：Deepseek SEO Hub
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

DeepSeek 开源周首日推出 FlashMLA，为 Hopper GPU 优化的高效 MLA 解码内核

< <上一篇

对话智谱CEO张鹏：大家对大模型期待过高，Scaling Law还有很大增长空间

下一篇>>