GPT-5 变蠢背后：抑制 AI 幻觉，反而让模型没用了？

日期：2025-08-26 11:42:42 / 人气：57

当 OpenAI 推出的 GPT-5 以 “幻觉率显著降低” 为核心卖点时，迎接它的不是一片赞誉，而是 “变蠢了”“没创造力了”“回答干瘪” 的集体吐槽。这场 “期待与现实的落差”，撕开了 AI 行业一个深层矛盾：抑制幻觉与保持模型实用性，似乎陷入了 “鱼和熊掌不可兼得” 的困境。GPT-5 的 “变蠢” 并非技术倒退，而是大语言模型本质特性的必然结果 —— 当模型的概率分布被收紧以降低幻觉时，其创造力、主观能动性也随之被削弱，最终在消费级用户眼中 “失去了灵气”。
一、GPT-5 “变蠢” 的本质：抑制幻觉的必然代价
GPT-5 被诟病 “变蠢”，核心源于其为降低幻觉所做的技术调整，而这种调整与消费级用户的核心需求产生了直接冲突。
从技术原理来看，大语言模型的输出本质是 “条件概率分布的近似”—— 它通过学习海量数据，预测下一个 token 的出现概率，创造力正来源于这种 “宽松的概率分布”：允许模型在合理范围内探索不同表达、延伸用户意图，甚至生成超出预期的灵动内容。而降低幻觉的核心手段，是 “收紧概率分布”：通过限制模型对未经验证信息的生成、强化对事实性知识的依赖，让输出更严谨、更贴合真实数据。
这种 “收紧” 带来的直接影响，体现在两个层面：
主观能动性下降：GPT-5 变得异常 “被动”，不再像 GPT-4o 那样主动预估用户意图。例如，用户简单提问 “如何写一篇旅行攻略”，GPT-4o 会主动询问目的地、出行时间、偏好类型，而 GPT-5 需要用户提供 “目的地、预算、同行人群、兴趣点” 等详细提示词，才能生成可用内容 —— 被 AI “惯坏” 的用户，不得不重新捡起 “提示词技能”，自然觉得模型 “变笨了”。
创造力与情感深度缺失：在创意写作、观点表达等场景中，GPT-5 的输出变得 “模板化”。有用户反馈，用其写短篇小说时，情节走向单一、人物对话干瘪，缺乏 GPT-4o 的戏剧冲突与情感张力；甚至在哲学话题讨论中，也多是 “四平八稳的常识总结”，难有独特视角。这正是因为 “收紧的概率分布” 限制了模型的 “天马行空”，让它更倾向于选择 “最安全、最无争议” 的表达，而非 “最有创意、最有深度” 的内容。
值得注意的是，这种 “代价” 并非对所有场景都负面：在写代码、构建 AI Agent 等对精准度要求高的场景中，GPT-5 的低幻觉特性反而极具价值 —— 它能减少编造 API、错误逻辑的概率，大幅提升任务可靠性。但问题在于，ChatGPT 的核心用户是消费级群体，他们对 “精准度” 的需求远低于 “创造力”“便捷性”，这就导致 GPT-5 的技术优化与用户需求严重错位，最终陷入 “越优化越不讨喜” 的尴尬。
二、幻觉的 “双面性”：为何它不是单纯的 “病”？
GPT-5 的争议，也让行业重新审视一个问题：AI 幻觉真的是必须彻底消除的 “病” 吗？阿里巴巴大淘宝技术营销前台技术负责人甄焱鲲的观点颇具代表性：“把幻觉单纯当成‘病’，是片面的。” 幻觉的影响并非绝对负面，它与用户需求、应用场景、使用能力紧密相关，甚至在某些场景下，“适度幻觉” 正是模型价值的体现。
1. 幻觉的 “相对性”：没有绝对的 “对与错”
幻觉的定义核心是 “与人类经验不符”，但 “人类经验” 存在认知差异与时间局限，这让 “幻觉” 本身具有相对性。
认知差异层面：某程序员用 GPT-5 测试自创技术缩写 “AIGUI”，模型未像 GPT-4o 那样拆分为 “AI GUI”，而是正确理解为特定架构术语 —— 对不了解该架构的用户而言，GPT-4o 的拆分是 “合理推测”，但对程序员而言，这就是 “幻觉”；反之，若模型生成 “世界是虚拟的” 这类观点，当下可能被视为 “幻觉”，但未来若有科学证据支撑，它就可能成为 “前瞻性判断”。
时间局限层面：模型的训练数据存在 “截止日期”，对时效性内容的生成必然存在 “幻觉风险”。例如，2025 年询问 “最新的手机型号”，若模型未接入实时数据，生成的信息可能过时，但这种 “幻觉” 本质是 “知识更新不及时”，而非模型本身的缺陷 —— 通过 RAG（检索增强生成）补充实时数据，即可缓解，而非彻底消除幻觉。
2. 幻觉的 “价值性”：适度幻觉是创造力的来源
在内容生成、灵感启发等场景中，“适度幻觉” 恰恰是模型的核心价值。
创意写作：作家用 AI 辅助创作时，模型生成的 “超现实情节”“非传统视角”，可能成为灵感突破口 —— 若模型一味追求 “事实准确”，只能生成 “符合现实逻辑的平淡内容”，反而失去辅助价值。
科研启发：有研究显示，AI 在物理、化学领域能生成 “人类未想到的实验方案”，其中部分初期被视为 “幻觉”，但后续实验验证了其可行性。例如，MIT 的研究团队通过 AI 生成的 “非传统催化剂组合”，成功提升了反应效率 —— 这种 “超越现有知识的推测”，正是 “适度幻觉” 的积极意义。
3. 幻觉的 “必然性”：理论上无法彻底消除
更根本的原因是，从理论层面看，AI 幻觉是大语言模型的 “固有属性”，无法完全根除。
新加坡国立大学的论文《Hallucination is Inevitable》指出，大语言模型无法学习所有可计算函数，其架构（如 Transformer）的计算能力有限（相当于常深度阈值电路 TC0），面对复杂、高组合深度的任务（如多步逻辑推理、动态规划），只能通过 “线性子图匹配” 而非真正推理应对，必然会产生错误。此外，哥德尔不完全性定理也证明，任何足够强大的逻辑系统都存在 “无法证明的真命题”，大语言模型作为 “逻辑系统的近似”，自然无法避免 “无法验证的生成内容”—— 即幻觉。
三、缓解幻觉的技术困境：微调和 RAG 的 “两难选择”
为了平衡 “低幻觉” 与 “实用性”，行业尝试了微调、RAG、In-Context Learning（上下文学习）等多种技术路径，但每种方法都存在难以规避的缺陷，进一步加剧了 “抑制幻觉与保持实用性” 的矛盾。
1. 微调：易陷 “灾难性遗忘”，成本高且周期长
微调是通过在特定领域数据上继续训练模型，以降低该领域的幻觉率。但这种方法的问题在于：
灾难性遗忘：模型在学习新知识时，会严重遗忘原有能力。例如，为医疗诊断微调的模型，可能 “忘记” 基础数学计算或通用写作能力 ——1B 到 7B 参数的模型在持续微调后，这种遗忘现象尤为明显，甚至模型规模越大，遗忘越严重。
成本与时效性差：微调需要高质量标注数据（90% 精力用于数据清洗）、高性能算力，训练周期常达数周甚至数月；而基础模型（如 GPT、千问）每隔几个月就会更新，此前的微调成果很快被超越，投入产出比极低。
甄焱鲲的团队就曾遇到类似问题：“花半年时间为轻办公场景微调模型，上线后发现，基础模型更新带来的收益，已经超过了我们的微调效果。”
2. RAG：精准但僵硬，难应对复杂场景
RAG 通过 “检索外部知识库” 为模型提供事实性支撑，是医疗、金融、法律等高精度场景的主流选择。但它的局限性同样突出：
灵活性不足：RAG 依赖 “静态知识库”，无法处理需要动态推理、跨领域关联的问题。例如，在医疗场景中，若患者的检查数据涉及 “一年内指标变化 + 个体差异 + 地域因素”，RAG 只能检索到 “单条指标的标准解释”，无法整合多维度信息给出个性化诊断建议；在法律场景中，面对 “新案例与旧法规的冲突”，RAG 也难以判断优先级，只能机械罗列条款。
成本与复杂度高：RAG 需要搭建向量存储、检索服务，还需持续维护知识库更新，对中小企业而言，技术门槛与成本过高。例如，某法律咨询公司为搭建 RAG 系统，仅服务器与数据维护成本就年均超百万，且仍需人工审核检索结果，避免 “检索偏差导致的新幻觉”。
3. In-Context Learning：潜力大但落地难
In-Context Learning（上下文学习）通过在输入中插入示例，让模型无需更新参数即可适配任务，理论上能兼顾 “低幻觉” 与 “灵活性”。但实际落地中，它面临 “示例质量难把控”“模型依赖捷径” 等问题：
示例选择无标准：如何挑选 “有代表性、覆盖多场景” 的示例，缺乏统一方法论。例如，帮产品经理写文档时，需涵盖 “用户定位、功能定义、UI 交互” 等多维度示例，但不同产品的侧重点差异大，示例过多会导致上下文过载，过少则无法覆盖需求。
模型易走 “捷径”：模型倾向于模仿示例的 “表面模式” 而非 “深层逻辑”。例如，在代码生成任务中，若示例采用 “特定变量命名风格”，模型会刻意模仿命名，却忽略代码逻辑的正确性 —— 这种 “形式大于内容” 的生成，反而增加了新的错误风险。
四、行业破局方向：接受 “不完美”，构建 “混合架构”
面对 “抑制幻觉与保持实用性” 的矛盾，行业逐渐意识到：彻底消除幻觉既不现实，也无必要。真正的破局之道，是 “接受幻觉的必然性”，通过 “场景分层 + 技术组合”，在 “精准度” 与 “实用性” 之间找到动态平衡。
1. 场景分层：按 “风险容忍度” 匹配技术方案
不同场景对幻觉的容忍度不同，需针对性选择技术路径：
高风险场景（医疗、金融、法律）：以 “低幻觉” 为核心目标，采用 “RAG + 传统算法” 的混合方案。例如，金融行业用 RAG 检索政策法规，同时叠加传统机器学习算法评估风险，避免 AI 生成 “误导性投资建议”；医疗行业用 RAG 调取病例库，再通过医生人工审核，确保诊断建议的安全性。
中风险场景（代码生成、数据分析）：优先使用 “低幻觉模型 + In-Context Learning”。例如，程序员用 GPT-5 写代码时，通过提供 “目标功能、编程语言、框架版本” 等详细示例，既利用模型的精准性，又引导其生成符合需求的代码，同时通过编译器实时报错修正，降低残留幻觉的影响。
低风险场景（创意写作、内容推荐）：适度放开 “幻觉限制”，甚至主动激发模型的创造力。例如，作家用 AI 辅助创作时，可在提示词中加入 “允许超现实设定、鼓励非传统视角” 等指令，让模型在合理范围内探索创意，同时通过人工筛选优化，保留有价值的灵感。
2. 技术组合：用 “混合架构” 弥补单一技术缺陷
单一技术难以平衡 “低幻觉” 与 “实用性”，需通过多技术组合构建 “互补体系”：
“RAG+In-Context Learning”：用 RAG 提供基础事实支撑，用 In-Context Learning 动态适配任务需求。例如，做市场分析时，RAG 检索行业数据、竞品信息，In-Context Learning 根据用户 “目标（如提升销量、品牌曝光）” 调整分析维度，既保证数据准确，又贴合具体需求。
“大模型 + 传统软件工程”：将 AI 不擅长的复杂推理环节，交给传统算法处理。例如，AI 编程工具 Roo Code，用大模型生成基础代码，再通过传统软件工程的 “模块化拆分、自动化测试”，修正模型的逻辑错误 —— 既利用 AI 的高效，又通过工程化手段降低幻觉风险。
3. 未来趋势：向 “世界模型” 演进，追求 “理解式生成”
长远来看，解决幻觉困境的终极方向，是突破当前 “next token 预测” 的架构局限，向 “世界模型” 演进。
“世界模型” 不再是单纯的 “语言生成器”，而是能 “理解物理世界规律、构建动态知识体系” 的智能体：它可以自主浏览网页更新知识、通过交互修正错误，甚至像人类一样 “从经验中学习”。例如，MIT 提出的 “SEAL（Self Adapting Language Models）” 技术，让模型通过生成 “合成训练数据” 自我更新，逐步具备 “终生学习” 能力 —— 这种 “基于理解的生成”，能从根本上减少 “无依据的幻觉”，同时保留模型的创造力与泛化性。
正如甄焱鲲所言：“未来的 AI 不该是‘只会预测下一个词的机器’，而应像小孩一样，通过观察、交互、学习，构建自己的思维体系 —— 这才是真正解决幻觉与实用性矛盾的关键。”
结语：与 “不完美” 共存，才是 AI 发展的常态
GPT-5 的 “变蠢” 争议，本质是行业对 AI “完美化期待” 与 “技术现实” 的碰撞。我们既不能因 “低幻觉” 而接受模型的 “实用性缺失”，也不能因 “追求创造力” 而放任幻觉泛滥 —— 真正理性的态度，是 “承认不完美、利用不完美”。
对用户而言，需理解 “AI 幻觉是技术固有属性”，学会根据场景调整预期：写代码时依赖低幻觉模型，写文案时接受适度创意；对厂商而言，需放弃 “彻底消除幻觉” 的执念，聚焦 “场景化优化”，用技术组合平衡需求；对行业而言，需加快 “世界模型” 等底层技术探索，让 AI 从 “概率生成器” 进化为 “真正理解世界的智能体”。
毕竟，AI 的价值从来不是 “永不犯错”，而是 “在犯错中进步，在不完美中创造价值”。GPT-5 的争议，或许正是推动行业走向 “更理性、更务实” 的重要契机。

作者：天顺娱乐

GPT-5 变蠢背后：抑制 AI 幻觉，反而让模型没用了？

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →