GPT-5 测试被质疑作弊,故意避开难题刷高分?
日期:2025-08-13 15:22:52 / 人气:19

人不能同时踩两个坑,但 OpenAI 做到了。GPT-5 发布会上,OpenAI 因为一张比例失调的图表被全网群嘲,后续他们火速更新图表,目前已经调整好了比例。然而,表面上看 GPT-5 在 SWE-bench Verified 测试中拿下 74.9% 的成绩,似乎压了 Claude 一头,但知名分析机构 SemiAnalysis 却发现这图表里还藏着别的猫腻。
测试背景与疑点浮现
先为吃瓜的朋友科普一下 SWE-bench Verified,这是个专门测试 AI 写代码能力的考卷,里面有 500 道实战题。每道题都来自 GitHub 上的真实 bug,主要是 Python 项目,像 Django、matplotlib、scikit-learn 等。AI 要像真正的开发者一样提交 Pull Request 来修复 bug,还得通过所有测试用例。尽管模型可能存在只是 “记住” 了仓库代码的情况,而不是真的具备广泛的编程推理能力,但业内仍普遍认为,这是最接近真实开发场景的 AI 测试之一。
Anthropic 很实诚,8 月 6 日发布 Claude Opus 4.1 时,明确表示所有 Claude 4 系列的成绩都是老老实实做完 500 道题算出来的,Claude Opus 4.1 得了 74.5%。而 OpenAI 的 74.9% 成绩看着更高,但仔细一瞧,他们只做了 477 道题,少了整整 23 道。
于是,SemiAnalysis 直接开始算账:500 道题考 74.9%,大概答对了 374.5 道。但 OpenAI 在标注里白纸黑字写着,他们只跑了 477 道题。那 23 道哪儿去了?OpenAI 的解释是:“这些题在我们现有的基础设施上无法运行。”
有意思的是,OpenAI 很敞亮,至少说了是 477 道题,但又不是很敞亮 —— 别家都是 500 道题的标准套餐,你少做 23 道,还把分数挂在最显眼的地方比较,这就有点微妙了。而且这已经不是 OpenAI 第一次这么干了,今年 4 月发布 GPT-4.1 时,OpenAI 就承认过这事儿,他们还做了个 “保守估算”:如果把那 23 道没做的题都算 0 分,GPT-4.1 的成绩会从 54.6% 跌到 52.1%。
那问题来了,这 23 道题到底是题目本身有问题,还是技术上确实搞不定?更关键的是,这些题难不难?如果恰好都是难度较高或者能拉低整体表现的题目,那 GPT-5 和 Claude Opus 4.1 的对比就没那么公平了。
测试集的 “特殊” 之处
值得一提的是,SWE-bench Verified 这个测试集本身是由 OpenAI 在 2024 年推出。OpenAI 说,原始的 SWE-bench 数据集里有些题实在太难,几乎无法解决,会让 AI 的真实能力被低估。
为了让测试更合理,OpenAI 大手笔请了 93 名程序员,给 1699 道题目打分。评分标准是 0 到 3:0 分表示题目清晰,AI 能直接理解;1 分需要额外解释;2 分题目模糊,有多种理解方式;3 分没有额外信息基本做不了。然后,OpenAI 把所有 2 分和 3 分题都扔了,只留下 0、1 分的题目,再从中随机抽了 500 道,这就是 SWE-bench Verified—— 一个经过 “净化” 的测试集。
这也就导致 OpenAI 既是裁判又是选手,他们制定规则,然后用自己定的规则来比赛。如果去swebench.com看原版排行榜,我们可能反而更清楚。这里的测试环境更加 “原汁原味”,此外,这个榜单对模型能用的外部工具有限制 —— 只能用 bash 命令行,不能调用更多开发工具或额外服务;测试框架也都是公开的。而在这个榜单上,5 月 14 日版本的 Claude 4 Opus 反而领先于 GPT-5。
内部版本与公开版本的差距
说到 “内部版本” 和 “公开版本” 的差距,OpenAI 在 GPT-5 相关信息发布上又秀了一把肌肉。他们的内部推理模型在 IOI 2025(国际信息学奥林匹克竞赛)上拿到 AI 组第一、人类总排名第 6。并且,这个模型跟上次拿 IMO 金牌的是同一个版本,没有专门针对 IOI 做额外训练。
成绩确实很强 ——5 小时、50 次提交、不联网的限制下还能拿金牌,算法推理和代码生成能力相当可怕。但问题又来了:这不是你能用到的 GPT-5,而是 OpenAI 内部的 “实验室版本”,可能更大、更强、成本也更高。
所以你看,OpenAI 在营销上确实很会玩 ——SWE-bench 上少做 23 道题,但把分数放在最显眼的地方;IOI 上用内部模型拿金牌,但很容易让大家以为这就是 ChatGPT 的实力。
在 AI 竞赛白热化的今天,零点几个百分点的差距都能成为营销亮点。测试范围、题目选择、计分方式,每个细节都可能被放大镜审视。当然,也有网友指出,为了一个基准测试上 2% 的差异吵得不可开交没啥意义,GPT-5 的价格比 Opus 便宜 10 倍,比 Sonnet 也便宜近 2 倍,或许对大多数用户来说,这才是真正的 “硬指标”。
作者:天顺娱乐
新闻资讯 News
- 一种专骗老年人的电商骗局,被年...08-22
- 中餐界“爱马仕”,狂赚美国人29...08-22
- DiT在数学和形式上是错的?谢赛...08-22
- 对话小米AI 眼镜负责人:20天卖...08-22