OpenAI被曝o3成绩"造假"：数学评测背后的争议

Ray · 发表于 2025-1-21 09:23:29

各位好，今天想和大家分享一个正在发酵的AI领域重大争议：OpenAI最新的o3模型在FrontierMath测试中的表现疑云。

事件概要

OpenAI近期发布的推理模型o3在FrontierMath测试中取得了惊人的成绩，准确率比o1提升了12倍。然而，最新爆料显示，这个成绩背后可能存在重大问题。

关键争议点

资金支持的隐瞒
- OpenAI实际是Epoch AI的资助方
- 60多位参与测试设计的数学家（包括教授、IMO命题人、菲尔兹奖得主）完全不知情
- 数据访问权限未向贡献者披露
数据访问争议
- OpenAI可以访问大部分FrontierMath的题库
- 仅有一个"未见测试集"用于验证
- 只有"口头协议"约束数据使用

Epoch AI的回应

Epoch AI的回应主要集中在以下几点：

专家观点

Ted Xiao（DeepMind研究员）提出了两种可能的解释：

深层思考

这一事件引发了几个值得深思的问题：

后续发展

业界普遍认为真相可能在后续其他评测中显现：