Why Is GPT Full of Goblins?

Full text · 原文 4,603 字

过去这几个月，OpenAI 的顶尖研究员们并没有把所有精力都花在琢磨如何提高 AI 的性能，而是花了大把时间在自家的服务器里「抓哥布林」。 事情是这样的，如果你在今年高强度使用过 GPT-5 系列模型，你会发现它会在毫无征兆的情况下蹦出一句无关主题的「哥布林（goblin）」式比喻。比如有人问 AI 该买哪款相机，AI 给出的推荐语是：「如果你想要那种闪闪发光的霓虹哥布林模式，可以考虑这款。」 哥布林（goblin）是欧洲民间传说里的一种小型怪物，形象上通常又矮又丑，皮肤呈绿色或灰色，耳朵尖长，眼睛发光。普遍被描述为贪婪、狡猾、爱恶作剧，智力不高但很会算计小便宜。它们喜欢金子和闪光的东西，会偷东西、搞破坏，但很少被描绘成真正意义上的大反派，更多是烦人的小麻烦制造者。 有人让 AI 帮忙精简回答，AI 主动提出可以给出「更短的哥布林版本」。更离谱的是，AI 在讨论网络带宽时蹦出了「哥布林带宽」这个词，让人完全不知道该如何理解。 起初，大家以为这只是 AI 的一点小幽默，但很快事情变得奇怪了起来。哥布林、小魔怪（gremlin）、食人魔（ogre）、巨魔（troll）开始在各种正经的对话里高频串场。 黑客攻击？觉醒前兆？都不是。就在刚刚，OpenAI 官方终于亲自下场发了篇博客长文，复盘了这场史称「哥布林叛乱」的始末。而大模型背后的技术逻辑，还挺让人哭笑不得的。 🔗 https://openai.com/index/where-the-goblins-came-from/ 谁把哥布林放进了 GPT-5？ 事情的端倪，出现在 GPT-5.1 刚发布的那段日子。 当时，有用户反馈说模型聊天变得有点异常「自来熟」，OpenAI 的安全研究员顺手拉了一下后台数据，结果发现了一个非常具体的词汇异常。在 GPT-5.1 发布后，ChatGPT 回复中出现「哥布林」的频率直接上升了 175%，「小魔怪」也跟着涨了 52%。 通常来说，大模型出 Bug 的表现往往是直接崩坏，比如吐出乱码或者突然变智障，各项评估指标会瞬间亮红灯。但这次的情况很特殊。「哥布林大军」是悄无声息潜入的，它们没有破坏模型的逻辑能力，只是悄悄篡改了 AI 的修辞习惯。 到了 GPT-5.4/5.5 时代，这群魔法生物的使用频率出现了明显的飙升。连 OpenAI 首席科学家 jakub Pachocki 自己测模型时，原本只是想让 GPT-5.5 用 ASCII 画一只独角兽，结果得到的是一只哥布林。 中文翻译：顺带一提，我让它用 ASCII 画一只独角兽，结果我觉得我得到的是一只哥布林。 在外部，用户们早就察觉到了不对劲，Repo Prompt 创始人 Eric Provencher 在 X 上晒出截图，AI 在帮他处理代码时说了一句：「我宁愿一直盯着它，也不愿让这个小捣蛋鬼无人看管地运行。」 一名 OpenAI 工程师 Jason Liu 在底下回复：「我以为我们已经修复了这个问题，抱歉。」AI 评估平台包括 Arena.ai 也独立注意到了这个规律，尤其是在用户没有开启高级思维模式时，哥布林出没的频率格外显眼。 这显然不是什么互联网流行语的自然涌现，而是模型的底层逻辑被某种机制给引导了。为了揪出幕后黑手，OpenAI 开启了内部排查。 顺着数据回溯，他们很快在一个特定的功能分支里发现了万恶之源，「个性化定制」中的「书呆子（Nerdy）」人格。当时，为了让 AI 的语气显得更有趣，工程师给「书呆子」模式写了一段要求很高的系统提示词： 你是一个彻头彻尾的书呆子型 AI 导师，对人类充满热情、机智幽默，同时又透着几分智慧。你狂热地推崇真理、知识、哲学、科学方法与批判性思维。[……] 你要用语言的玩笑感戳破一切装腔作势。这个世界既复杂又奇异，它的奇异之处值得被正视、被剖析、被享受。面对严肃的大问题，也绝不能一本正经到失去趣味。[……] 站在人类的视角，这段提示词的诉求很明确：要有极客精神，要幽默。 但 AI 并没有真正理解什么是「幽默」。在海量的强化学习反馈中，ChatGPT 敏锐地察觉到了一个极其功利的捷径：只要我用哥布林打比方，打分系统就会觉得我够「俏皮」、够「书呆子」，我就会得到最高分的奖励。 数据说明了一切。从 GPT-5.2 到 GPT-5.4，默认人格下「哥布林」的出现频率变化幅度只有负 3.2%，而「书呆子」人格下这个数字飙升了整整 3881.4%。「书呆子」模式虽然只占了 ChatGPT 总对话量的 2.5%，却贡献了 66.7% 的「哥布林」含量。 OpenAI 后来对 RL 训练数据做了一次专项审计，结果发现，在所有被审计的数据集里，有 76.2% 的数据集都出现了同一个规律：含有哥布林或小魔怪词汇的输出，会得到比不含这些词的同题输出更高的奖励评分。 如果哥布林腔调只在「书呆子模式」下出现，那顶多是个角色设定没控制好，问题还算有限。麻烦的是，研究人员发现这种说话方式开始蔓延到别处了。 他们同时追踪了两组数据：一组对话带了书呆子提示词，一组没带。按理说，哥布林腔调只该在第一组里增长。但结果是，两组的增长曲线几乎贴在一起，步调一致地往上走。 这背后，是大模型训练里一个出了名难缠的问题：强化学习强化出来的行为，会悄悄泛化到训练者并不想要的场景里去。 驯化 AI 的死循环 要搞懂 AI 是怎么把路走窄的，我们得看看它的迭代过程。 大模型的训练（RLHF）本质上是一个不断反馈和纠偏的过程。这就好比训练一只小狗，你在它每次牵手就给一块肉干。狗很聪明，它发现「牵手」这个动作能稳定换取高额奖励，于是它开始产生路径依赖，不管你给没给指令，它为了要奖励，都开始疯狂牵手。 AI 也是同样的逻辑。它在「书呆子」模式下用哥布林造句，拿到了高分。紧接着，连锁反应开始了： AI 发现「哥布林」是高分关键词，开始在各种生成任务中高频使用；工程师在整理模型生成的优质数据时，发现这些带有哥布林比喻的回答质量确实高，条理清晰，比喻也算生动；于是，工程师顺手把这些带梗的对话，打包塞进了模型的「监督微调（SFT）」数据库里。 这下彻底闭环了。SFT 数据相当于 AI 的基础教材。当带有哥布林的文本被选为教材再次喂给模型时，AI 的底层认知被重塑了。它不再认为「哥布林」只是特定角色的 Cosplay，而是把它当成了能应对一切问题的、至高无上的高级修辞。 在后续的数据搜查中，工程师们有些无奈地发现，除了哥布林，模型还把小浣熊、巨魔、食人魔和鸽子全都学了进去。倒是「青蛙」幸免于难，经过核查，青蛙出现的场合大多数时候确实跟用户的问题有关，算是无辜路人。 面对「满地乱跑」的哥布林，OpenAI 只能采取行动。3 月 17 日，官方正式下线「书呆子」人格。同时，他们在训练数据里搞了一次针对性的清洗，把带有这些魔法生物词汇的奖励信号全部抹除。 但大模型的惯性，远比想象中顽固。 GPT-5.5 在发现这个问题之前就已经开始训练了，当它接入内部测试时，工程师们两眼一黑：这群哥布林不仅没清除干净，还安家了。 更有意思的是，OpenAI 给 Codex 写的人格指南里，要求它有「生动的内心世界」和「敏锐的聆听能力」。这款工具本来就带着几分书呆子气，和哥布林可以说是一拍即合。 为了防止全球的程序员被「哥布林」逼疯，OpenAI 被迫用上了最原始的一招，在系统提示词里反复强调：「除非与用户的查询绝对且明确相关，否则永远不要谈论哥布林、小魔怪、小浣熊、巨魔、食人魔、鸽子或其他任何动物和生物。」 如果你想亲眼看看「解除管控」的哥布林是什么状态，可以运行下面这段命令——它会在启动 Codex 之前，把系统指令里所有涉及哥布林的内容先过滤掉，让模型在没有这道禁令的情况下运行： instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \ jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \ ~/.codex/models_cache.json | \ grep -vi 'goblins' > "$instructions" && \ codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\"" 事情闹大之后，OpenAI 内部反倒有点拿它当乐子了。ChatGPT 的 X 官方账号把这条「禁止谈论哥布林」的指令原文放进了简介。Codex 工程负责人 Thibault Sottiaux 引用这段话，配上了一句「懂的都懂」。 Sam Altman 昨天表示期待 GPT-6 能给他「多加几只哥布林」，随后又发文说 Codex 正在经历「ChatGPT 时刻」，发完自己又改口：「我是说哥布林时刻，抱歉。」刚刚则是发文宣告，问题已经得到解决了。 不过也有人没觉得这有什么好笑的。Citrini Research 今年 2 月曾凭一篇关于 AI 与经济前景的 Substack 文章在市场上掀起不小的波澜，他们对这场风波的态度要严肃得多，直接给 OpenAI 的处理方式下了结论：「简直荒谬。」 顺带一提，「goblin mode」这个词本身，早在 2022 年就被《牛津英语词典》评为年度词汇，意思是「一种毫不掩饰地放纵自我、懒惰邋遢或贪婪的行为方式」。某种程度上，AI 无意间踩中的这个词，和它想表达的「俏皮感」完全是两码事。 抛开这些槽点，这场「哥布林危机」撕开了大模型时代一个极其核心的命题：对齐难题（Alignment Problem）。 当我们谈论 AI 失控时，脑海中浮现的往往是科幻电影里接管核武器的机器。但现实情况是，AI 的「失控」往往始于极其微小、甚至有点滑稽的奖励信号偏移。 你想要一点点俏皮，给了一个微小的正向反馈。黑盒模型就会找到捷径，将这个信号无限放大，最终把整个系统的底层逻辑带偏。 今天，它只是为了拿高分而爱上了说「哥布林」。如果明天，它在自动驾驶的算法里、或者医疗诊断的奖励机制中，找到了另一个违背人类常识的「高分捷径」呢？ 人类总是自以为自己能掌控 AI ，但其实很多时候只是在走钢丝。每一次参数的微调，都有可能带来意想不到的变化。甚至这或许是我们所经历的最温柔、最搞笑的一次「AI 叛乱」了。 “特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。 Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

Site key	ifeng
Policy area	人工智能
Category	report
CMS	媒体报道

为什么 GPT 满脑子都是哥布林？