快捷导航
查看: 309|回复: 0

OpenAI被曝o3成绩"造假":数学评测背后的争议

[复制链接]

49

主题

10

回帖

219

积分

管理员

积分
219
发表于 2025-1-21 09:23:29 | 显示全部楼层 |阅读模式
各位好,今天想和大家分享一个正在发酵的AI领域重大争议:OpenAI最新的o3模型在FrontierMath测试中的表现疑云。
事件概要
OpenAI近期发布的推理模型o3在FrontierMath测试中取得了惊人的成绩,准确率比o1提升了12倍。然而,最新爆料显示,这个成绩背后可能存在重大问题。
关键争议点
  • 资金支持的隐瞒
    • OpenAI实际是Epoch AI的资助方
    • 60多位参与测试设计的数学家(包括教授、IMO命题人、菲尔兹奖得主)完全不知情
    • 数据访问权限未向贡献者披露
  • 数据访问争议
    • OpenAI可以访问大部分FrontierMath的题库
    • 仅有一个"未见测试集"用于验证
    • 只有"口头协议"约束数据使用

Epoch AI的回应
Epoch AI的回应主要集中在以下几点:
  • 承认沟通不足,对数学家致歉
  • 声称受合同限制无法披露资金来源
  • 强调保留了未见测试集确保评估公正
  • 承诺未来提高透明度
专家观点
Ted Xiao(DeepMind研究员)提出了两种可能的解释:
  • OpenAI直接将测试题目用于训练(最坏情况)
  • 仅用题库指导训练方向和推理路径设计(相对乐观)
深层思考
这一事件引发了几个值得深思的问题:
  • AI评测的公信力如何保证?
  • 商业利益与学术诚信如何平衡?
  • 模型真实能力与测试成绩的关系如何评判?
后续发展
业界普遍认为真相可能在后续其他评测中显现:
  • 如果o3仅在FrontierMath表现出色,而在其他推理测试中表现平平,就值得怀疑
  • 如果在各类评测中都有不俗表现,则可能印证其真实实力

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版 启航岛

Powered by Discuz! X3.5 © 2024-2025

快速回复 返回顶部 返回列表