各位好,今天想和大家分享一个正在发酵的AI领域重大争议:OpenAI最新的o3模型在FrontierMath测试中的表现疑云。 事件概要OpenAI近期发布的推理模型o3在FrontierMath测试中取得了惊人的成绩,准确率比o1提升了12倍。然而,最新爆料显示,这个成绩背后可能存在重大问题。 关键争议点- 资金支持的隐瞒
- OpenAI实际是Epoch AI的资助方
- 60多位参与测试设计的数学家(包括教授、IMO命题人、菲尔兹奖得主)完全不知情
- 数据访问权限未向贡献者披露
- 数据访问争议
- OpenAI可以访问大部分FrontierMath的题库
- 仅有一个"未见测试集"用于验证
- 只有"口头协议"约束数据使用
Epoch AI的回应Epoch AI的回应主要集中在以下几点: - 承认沟通不足,对数学家致歉
- 声称受合同限制无法披露资金来源
- 强调保留了未见测试集确保评估公正
- 承诺未来提高透明度
专家观点Ted Xiao(DeepMind研究员)提出了两种可能的解释: - OpenAI直接将测试题目用于训练(最坏情况)
- 仅用题库指导训练方向和推理路径设计(相对乐观)
深层思考这一事件引发了几个值得深思的问题: - AI评测的公信力如何保证?
- 商业利益与学术诚信如何平衡?
- 模型真实能力与测试成绩的关系如何评判?
后续发展业界普遍认为真相可能在后续其他评测中显现: - 如果o3仅在FrontierMath表现出色,而在其他推理测试中表现平平,就值得怀疑
- 如果在各类评测中都有不俗表现,则可能印证其真实实力
|