GPT-5 测试被质疑作弊，故意避开难题刷高分？

日期：2025-08-13 15:22:52 / 人气：55

人不能同时踩两个坑，但 OpenAI 做到了。GPT-5 发布会上，OpenAI 因为一张比例失调的图表被全网群嘲，后续他们火速更新图表，目前已经调整好了比例。然而，表面上看 GPT-5 在 SWE-bench Verified 测试中拿下 74.9% 的成绩，似乎压了 Claude 一头，但知名分析机构 SemiAnalysis 却发现这图表里还藏着别的猫腻。
测试背景与疑点浮现
先为吃瓜的朋友科普一下 SWE-bench Verified，这是个专门测试 AI 写代码能力的考卷，里面有 500 道实战题。每道题都来自 GitHub 上的真实 bug，主要是 Python 项目，像 Django、matplotlib、scikit-learn 等。AI 要像真正的开发者一样提交 Pull Request 来修复 bug，还得通过所有测试用例。尽管模型可能存在只是 “记住” 了仓库代码的情况，而不是真的具备广泛的编程推理能力，但业内仍普遍认为，这是最接近真实开发场景的 AI 测试之一。
Anthropic 很实诚，8 月 6 日发布 Claude Opus 4.1 时，明确表示所有 Claude 4 系列的成绩都是老老实实做完 500 道题算出来的，Claude Opus 4.1 得了 74.5%。而 OpenAI 的 74.9% 成绩看着更高，但仔细一瞧，他们只做了 477 道题，少了整整 23 道。
于是，SemiAnalysis 直接开始算账：500 道题考 74.9%，大概答对了 374.5 道。但 OpenAI 在标注里白纸黑字写着，他们只跑了 477 道题。那 23 道哪儿去了？OpenAI 的解释是：“这些题在我们现有的基础设施上无法运行。”
有意思的是，OpenAI 很敞亮，至少说了是 477 道题，但又不是很敞亮 —— 别家都是 500 道题的标准套餐，你少做 23 道，还把分数挂在最显眼的地方比较，这就有点微妙了。而且这已经不是 OpenAI 第一次这么干了，今年 4 月发布 GPT-4.1 时，OpenAI 就承认过这事儿，他们还做了个 “保守估算”：如果把那 23 道没做的题都算 0 分，GPT-4.1 的成绩会从 54.6% 跌到 52.1%。
那问题来了，这 23 道题到底是题目本身有问题，还是技术上确实搞不定？更关键的是，这些题难不难？如果恰好都是难度较高或者能拉低整体表现的题目，那 GPT-5 和 Claude Opus 4.1 的对比就没那么公平了。
测试集的 “特殊” 之处
值得一提的是，SWE-bench Verified 这个测试集本身是由 OpenAI 在 2024 年推出。OpenAI 说，原始的 SWE-bench 数据集里有些题实在太难，几乎无法解决，会让 AI 的真实能力被低估。
为了让测试更合理，OpenAI 大手笔请了 93 名程序员，给 1699 道题目打分。评分标准是 0 到 3：0 分表示题目清晰，AI 能直接理解；1 分需要额外解释；2 分题目模糊，有多种理解方式；3 分没有额外信息基本做不了。然后，OpenAI 把所有 2 分和 3 分题都扔了，只留下 0、1 分的题目，再从中随机抽了 500 道，这就是 SWE-bench Verified—— 一个经过 “净化” 的测试集。
这也就导致 OpenAI 既是裁判又是选手，他们制定规则，然后用自己定的规则来比赛。如果去swebench.com看原版排行榜，我们可能反而更清楚。这里的测试环境更加 “原汁原味”，此外，这个榜单对模型能用的外部工具有限制 —— 只能用 bash 命令行，不能调用更多开发工具或额外服务；测试框架也都是公开的。而在这个榜单上，5 月 14 日版本的 Claude 4 Opus 反而领先于 GPT-5。
内部版本与公开版本的差距
说到 “内部版本” 和 “公开版本” 的差距，OpenAI 在 GPT-5 相关信息发布上又秀了一把肌肉。他们的内部推理模型在 IOI 2025（国际信息学奥林匹克竞赛）上拿到 AI 组第一、人类总排名第 6。并且，这个模型跟上次拿 IMO 金牌的是同一个版本，没有专门针对 IOI 做额外训练。
成绩确实很强 ——5 小时、50 次提交、不联网的限制下还能拿金牌，算法推理和代码生成能力相当可怕。但问题又来了：这不是你能用到的 GPT-5，而是 OpenAI 内部的 “实验室版本”，可能更大、更强、成本也更高。
所以你看，OpenAI 在营销上确实很会玩 ——SWE-bench 上少做 23 道题，但把分数放在最显眼的地方；IOI 上用内部模型拿金牌，但很容易让大家以为这就是 ChatGPT 的实力。
在 AI 竞赛白热化的今天，零点几个百分点的差距都能成为营销亮点。测试范围、题目选择、计分方式，每个细节都可能被放大镜审视。当然，也有网友指出，为了一个基准测试上 2% 的差异吵得不可开交没啥意义，GPT-5 的价格比 Opus 便宜 10 倍，比 Sonnet 也便宜近 2 倍，或许对大多数用户来说，这才是真正的 “硬指标”。

作者：天顺娱乐

GPT-5 测试被质疑作弊，故意避开难题刷高分？

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →