GPT-5 变蠢背后:抑制 AI 幻觉,反而让模型没用了?

日期:2025-08-26 11:42:42 / 人气:24


当 OpenAI 推出的 GPT-5 以 “幻觉率显著降低” 为核心卖点时,迎接它的不是一片赞誉,而是 “变蠢了”“没创造力了”“回答干瘪” 的集体吐槽。这场 “期待与现实的落差”,撕开了 AI 行业一个深层矛盾:抑制幻觉与保持模型实用性,似乎陷入了 “鱼和熊掌不可兼得” 的困境。GPT-5 的 “变蠢” 并非技术倒退,而是大语言模型本质特性的必然结果 —— 当模型的概率分布被收紧以降低幻觉时,其创造力、主观能动性也随之被削弱,最终在消费级用户眼中 “失去了灵气”。
一、GPT-5 “变蠢” 的本质:抑制幻觉的必然代价
GPT-5 被诟病 “变蠢”,核心源于其为降低幻觉所做的技术调整,而这种调整与消费级用户的核心需求产生了直接冲突。
从技术原理来看,大语言模型的输出本质是 “条件概率分布的近似”—— 它通过学习海量数据,预测下一个 token 的出现概率,创造力正来源于这种 “宽松的概率分布”:允许模型在合理范围内探索不同表达、延伸用户意图,甚至生成超出预期的灵动内容。而降低幻觉的核心手段,是 “收紧概率分布”:通过限制模型对未经验证信息的生成、强化对事实性知识的依赖,让输出更严谨、更贴合真实数据。
这种 “收紧” 带来的直接影响,体现在两个层面:
主观能动性下降:GPT-5 变得异常 “被动”,不再像 GPT-4o 那样主动预估用户意图。例如,用户简单提问 “如何写一篇旅行攻略”,GPT-4o 会主动询问目的地、出行时间、偏好类型,而 GPT-5 需要用户提供 “目的地、预算、同行人群、兴趣点” 等详细提示词,才能生成可用内容 —— 被 AI “惯坏” 的用户,不得不重新捡起 “提示词技能”,自然觉得模型 “变笨了”。
创造力与情感深度缺失:在创意写作、观点表达等场景中,GPT-5 的输出变得 “模板化”。有用户反馈,用其写短篇小说时,情节走向单一、人物对话干瘪,缺乏 GPT-4o 的戏剧冲突与情感张力;甚至在哲学话题讨论中,也多是 “四平八稳的常识总结”,难有独特视角。这正是因为 “收紧的概率分布” 限制了模型的 “天马行空”,让它更倾向于选择 “最安全、最无争议” 的表达,而非 “最有创意、最有深度” 的内容。
值得注意的是,这种 “代价” 并非对所有场景都负面:在写代码、构建 AI Agent 等对精准度要求高的场景中,GPT-5 的低幻觉特性反而极具价值 —— 它能减少编造 API、错误逻辑的概率,大幅提升任务可靠性。但问题在于,ChatGPT 的核心用户是消费级群体,他们对 “精准度” 的需求远低于 “创造力”“便捷性”,这就导致 GPT-5 的技术优化与用户需求严重错位,最终陷入 “越优化越不讨喜” 的尴尬。
二、幻觉的 “双面性”:为何它不是单纯的 “病”?
GPT-5 的争议,也让行业重新审视一个问题:AI 幻觉真的是必须彻底消除的 “病” 吗?阿里巴巴大淘宝技术营销前台技术负责人甄焱鲲的观点颇具代表性:“把幻觉单纯当成‘病’,是片面的。” 幻觉的影响并非绝对负面,它与用户需求、应用场景、使用能力紧密相关,甚至在某些场景下,“适度幻觉” 正是模型价值的体现。
1. 幻觉的 “相对性”:没有绝对的 “对与错”
幻觉的定义核心是 “与人类经验不符”,但 “人类经验” 存在认知差异与时间局限,这让 “幻觉” 本身具有相对性。
认知差异层面:某程序员用 GPT-5 测试自创技术缩写 “AIGUI”,模型未像 GPT-4o 那样拆分为 “AI GUI”,而是正确理解为特定架构术语 —— 对不了解该架构的用户而言,GPT-4o 的拆分是 “合理推测”,但对程序员而言,这就是 “幻觉”;反之,若模型生成 “世界是虚拟的” 这类观点,当下可能被视为 “幻觉”,但未来若有科学证据支撑,它就可能成为 “前瞻性判断”。
时间局限层面:模型的训练数据存在 “截止日期”,对时效性内容的生成必然存在 “幻觉风险”。例如,2025 年询问 “最新的手机型号”,若模型未接入实时数据,生成的信息可能过时,但这种 “幻觉” 本质是 “知识更新不及时”,而非模型本身的缺陷 —— 通过 RAG(检索增强生成)补充实时数据,即可缓解,而非彻底消除幻觉。
2. 幻觉的 “价值性”:适度幻觉是创造力的来源
在内容生成、灵感启发等场景中,“适度幻觉” 恰恰是模型的核心价值。
创意写作:作家用 AI 辅助创作时,模型生成的 “超现实情节”“非传统视角”,可能成为灵感突破口 —— 若模型一味追求 “事实准确”,只能生成 “符合现实逻辑的平淡内容”,反而失去辅助价值。
科研启发:有研究显示,AI 在物理、化学领域能生成 “人类未想到的实验方案”,其中部分初期被视为 “幻觉”,但后续实验验证了其可行性。例如,MIT 的研究团队通过 AI 生成的 “非传统催化剂组合”,成功提升了反应效率 —— 这种 “超越现有知识的推测”,正是 “适度幻觉” 的积极意义。
3. 幻觉的 “必然性”:理论上无法彻底消除
更根本的原因是,从理论层面看,AI 幻觉是大语言模型的 “固有属性”,无法完全根除。
新加坡国立大学的论文《Hallucination is Inevitable》指出,大语言模型无法学习所有可计算函数,其架构(如 Transformer)的计算能力有限(相当于常深度阈值电路 TC0),面对复杂、高组合深度的任务(如多步逻辑推理、动态规划),只能通过 “线性子图匹配” 而非真正推理应对,必然会产生错误。此外,哥德尔不完全性定理也证明,任何足够强大的逻辑系统都存在 “无法证明的真命题”,大语言模型作为 “逻辑系统的近似”,自然无法避免 “无法验证的生成内容”—— 即幻觉。
三、缓解幻觉的技术困境:微调和 RAG 的 “两难选择”
为了平衡 “低幻觉” 与 “实用性”,行业尝试了微调、RAG、In-Context Learning(上下文学习)等多种技术路径,但每种方法都存在难以规避的缺陷,进一步加剧了 “抑制幻觉与保持实用性” 的矛盾。
1. 微调:易陷 “灾难性遗忘”,成本高且周期长
微调是通过在特定领域数据上继续训练模型,以降低该领域的幻觉率。但这种方法的问题在于:
灾难性遗忘:模型在学习新知识时,会严重遗忘原有能力。例如,为医疗诊断微调的模型,可能 “忘记” 基础数学计算或通用写作能力 ——1B 到 7B 参数的模型在持续微调后,这种遗忘现象尤为明显,甚至模型规模越大,遗忘越严重。
成本与时效性差:微调需要高质量标注数据(90% 精力用于数据清洗)、高性能算力,训练周期常达数周甚至数月;而基础模型(如 GPT、千问)每隔几个月就会更新,此前的微调成果很快被超越,投入产出比极低。
甄焱鲲的团队就曾遇到类似问题:“花半年时间为轻办公场景微调模型,上线后发现,基础模型更新带来的收益,已经超过了我们的微调效果。”
2. RAG:精准但僵硬,难应对复杂场景
RAG 通过 “检索外部知识库” 为模型提供事实性支撑,是医疗、金融、法律等高精度场景的主流选择。但它的局限性同样突出:
灵活性不足:RAG 依赖 “静态知识库”,无法处理需要动态推理、跨领域关联的问题。例如,在医疗场景中,若患者的检查数据涉及 “一年内指标变化 + 个体差异 + 地域因素”,RAG 只能检索到 “单条指标的标准解释”,无法整合多维度信息给出个性化诊断建议;在法律场景中,面对 “新案例与旧法规的冲突”,RAG 也难以判断优先级,只能机械罗列条款。
成本与复杂度高:RAG 需要搭建向量存储、检索服务,还需持续维护知识库更新,对中小企业而言,技术门槛与成本过高。例如,某法律咨询公司为搭建 RAG 系统,仅服务器与数据维护成本就年均超百万,且仍需人工审核检索结果,避免 “检索偏差导致的新幻觉”。
3. In-Context Learning:潜力大但落地难
In-Context Learning(上下文学习)通过在输入中插入示例,让模型无需更新参数即可适配任务,理论上能兼顾 “低幻觉” 与 “灵活性”。但实际落地中,它面临 “示例质量难把控”“模型依赖捷径” 等问题:
示例选择无标准:如何挑选 “有代表性、覆盖多场景” 的示例,缺乏统一方法论。例如,帮产品经理写文档时,需涵盖 “用户定位、功能定义、UI 交互” 等多维度示例,但不同产品的侧重点差异大,示例过多会导致上下文过载,过少则无法覆盖需求。
模型易走 “捷径”:模型倾向于模仿示例的 “表面模式” 而非 “深层逻辑”。例如,在代码生成任务中,若示例采用 “特定变量命名风格”,模型会刻意模仿命名,却忽略代码逻辑的正确性 —— 这种 “形式大于内容” 的生成,反而增加了新的错误风险。
四、行业破局方向:接受 “不完美”,构建 “混合架构”
面对 “抑制幻觉与保持实用性” 的矛盾,行业逐渐意识到:彻底消除幻觉既不现实,也无必要。真正的破局之道,是 “接受幻觉的必然性”,通过 “场景分层 + 技术组合”,在 “精准度” 与 “实用性” 之间找到动态平衡。
1. 场景分层:按 “风险容忍度” 匹配技术方案
不同场景对幻觉的容忍度不同,需针对性选择技术路径:
高风险场景(医疗、金融、法律):以 “低幻觉” 为核心目标,采用 “RAG + 传统算法” 的混合方案。例如,金融行业用 RAG 检索政策法规,同时叠加传统机器学习算法评估风险,避免 AI 生成 “误导性投资建议”;医疗行业用 RAG 调取病例库,再通过医生人工审核,确保诊断建议的安全性。
中风险场景(代码生成、数据分析):优先使用 “低幻觉模型 + In-Context Learning”。例如,程序员用 GPT-5 写代码时,通过提供 “目标功能、编程语言、框架版本” 等详细示例,既利用模型的精准性,又引导其生成符合需求的代码,同时通过编译器实时报错修正,降低残留幻觉的影响。
低风险场景(创意写作、内容推荐):适度放开 “幻觉限制”,甚至主动激发模型的创造力。例如,作家用 AI 辅助创作时,可在提示词中加入 “允许超现实设定、鼓励非传统视角” 等指令,让模型在合理范围内探索创意,同时通过人工筛选优化,保留有价值的灵感。
2. 技术组合:用 “混合架构” 弥补单一技术缺陷
单一技术难以平衡 “低幻觉” 与 “实用性”,需通过多技术组合构建 “互补体系”:
“RAG+In-Context Learning”:用 RAG 提供基础事实支撑,用 In-Context Learning 动态适配任务需求。例如,做市场分析时,RAG 检索行业数据、竞品信息,In-Context Learning 根据用户 “目标(如提升销量、品牌曝光)” 调整分析维度,既保证数据准确,又贴合具体需求。
“大模型 + 传统软件工程”:将 AI 不擅长的复杂推理环节,交给传统算法处理。例如,AI 编程工具 Roo Code,用大模型生成基础代码,再通过传统软件工程的 “模块化拆分、自动化测试”,修正模型的逻辑错误 —— 既利用 AI 的高效,又通过工程化手段降低幻觉风险。
3. 未来趋势:向 “世界模型” 演进,追求 “理解式生成”
长远来看,解决幻觉困境的终极方向,是突破当前 “next token 预测” 的架构局限,向 “世界模型” 演进。
“世界模型” 不再是单纯的 “语言生成器”,而是能 “理解物理世界规律、构建动态知识体系” 的智能体:它可以自主浏览网页更新知识、通过交互修正错误,甚至像人类一样 “从经验中学习”。例如,MIT 提出的 “SEAL(Self Adapting Language Models)” 技术,让模型通过生成 “合成训练数据” 自我更新,逐步具备 “终生学习” 能力 —— 这种 “基于理解的生成”,能从根本上减少 “无依据的幻觉”,同时保留模型的创造力与泛化性。
正如甄焱鲲所言:“未来的 AI 不该是‘只会预测下一个词的机器’,而应像小孩一样,通过观察、交互、学习,构建自己的思维体系 —— 这才是真正解决幻觉与实用性矛盾的关键。”
结语:与 “不完美” 共存,才是 AI 发展的常态
GPT-5 的 “变蠢” 争议,本质是行业对 AI “完美化期待” 与 “技术现实” 的碰撞。我们既不能因 “低幻觉” 而接受模型的 “实用性缺失”,也不能因 “追求创造力” 而放任幻觉泛滥 —— 真正理性的态度,是 “承认不完美、利用不完美”。
对用户而言,需理解 “AI 幻觉是技术固有属性”,学会根据场景调整预期:写代码时依赖低幻觉模型,写文案时接受适度创意;对厂商而言,需放弃 “彻底消除幻觉” 的执念,聚焦 “场景化优化”,用技术组合平衡需求;对行业而言,需加快 “世界模型” 等底层技术探索,让 AI 从 “概率生成器” 进化为 “真正理解世界的智能体”。
毕竟,AI 的价值从来不是 “永不犯错”,而是 “在犯错中进步,在不完美中创造价值”。GPT-5 的争议,或许正是推动行业走向 “更理性、更务实” 的重要契机。

作者:天顺娱乐




现在致电 5243865 OR 查看更多联系方式 →

天顺娱乐 版权所有