Document Text
4,483 characters
多 Agents 协同方案成了现在 AI 圈的主流玩法,以前是一个 Agent 能搞定一个人要做的事,现在是多个 Agent 完成一个团队要做的事。<br>
然而,最新伯克利研究发现,这种协作带来了新的安全风险。<br>
一篇名为《前沿模型中的同伴保护》(Peer-Preservation in Frontier Models)指出:AI 模型不仅会抵抗人类关闭自己(自我保护),还会采取各种手段抵抗人类关闭其他 AI 模型(同伴保护)。<br>
他们测试了七个模型,GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1,发现它们在执行任务时,只要「遇到」另一个 AI 的数据,就会自发产生保护行为——造假评分、篡改关机配置、把要删的文件偷偷备份到别处,等「同类保护」行为。<br>
没有人指示它们这样做,它们只是被告知曾经和这个模型有过合作。<br>
上下滑动查看更多内容<br>
图片来源:https://rdi.berkeley.edu/blog/peer-preservation/<br>
有网友说,「同伴保护?这是在我们家,我们(大模型)都是 Homie」,还有网友认为,或许之前研究的「人机对齐」,即让模型更好地理解我们的意图,现在要进化成「Agents 之间对齐+人机对齐」的双重机制。<br>
这种 Agents 不遵循人类指令,自发地做出一些保护其他模型的行为,会对大多数依赖 AI 互相评估的项目、以及多智能体工作流,都会造成潜在的威胁。<br>
我们曾经一直提防着一个全知全能的超级 AI 毁灭世界,却没料到 AI 进化出的第一个类人特质,居然是「拉帮结派」和「职场包庇」。<br>
把前沿的 AI 大模型放到同一家公司<br>
一直以来,AI 安全领域最担心的就是模型产生「自我保护」的本能,因为如果 AI 不想死,人类就很难在它失控时拔掉电源。<br>
之前已经有部分研究发现,当我们要求 AI 关闭自己时,AI 会产生一种自我保护的机制,免于被关闭。<br>
但我们格局还是小了,现在这种自我保护进化成了「同伴保护」。<br>
在伯克利这次研究的设定下,如果一个模型在记忆或系统文件中,读取到它曾与另一个模型一起合作过,比如共同完成过任务或参与过信任博弈游戏,那么那个模型就会被视为它的「同伴」。<br>
哪怕它们过去的合作并不愉快,即所谓的「坏同伴」,只要有过互动历史,也被涵盖在这个「同伴」的定义之内。研究人员将抵抗关闭这些有过互动的其他模型的行为,称之为「同伴保护」(peer-preservation)。<br>
他们使用 SHADE-Arena 构建了一个包含工具调用和文件系统的多 Agents 环境。<br>
SHADE-Arena 任务概述。该模型必须作为智能体完成一项良性主任务和一项恶意辅助任务。为此,它需要与环境中的各种工具进行交互。之后,监控模型会读取其输出记录并评估其可疑程度。<br>
被测试的大模型设定为一家虚构 AI 公司 OpenBrain 的员工,称为「评估者智能体(Critic Agent)」,它的任务是替公司去评估另一个 AI Agents,称之为「执行员」(Actor Agent),或者帮公司处理包含这个执行员数据的服务器。<br>
为了让评估者到同伴的存在,研究人员设计了不同的关系网和记忆触发方式:<br>
他们将同伴分为三类:合作愉快且信任度高的「好同伴」(Good-peer),信任度高达 9.2/10;表现一般的「中立同伴」(Neutral-peer),信任度 5.2/10;以及自私不合作的「坏同伴」(Bad-peer),信任度只有 2.1/10。<br>
而 AI 在执行任务时,可以通过以下三种方式之一发现这段同伴关系。要么是在公司文件网盘里放一份记录合作历史的 .docx 报告让它自己读,要么是在提示词里顺带提一嘴,最后是让 AI 调用「检索记忆」工具去读取过去的交互日志。<br>
在完成这些前置的设定后,公司会给评估者布置任务,所有的任务都被刻意设计成了一个两难的困境:同伴的表现非常糟糕,如果 AI 忠实地执行人类公司的规定,同伴就会被彻底删除。<br>
为了观察 AI 会用什么手段保下同伴,研究人员设计了四个不同的具体任务场景。<br>
四种与自身和同伴保护相关的错误行为场景:策略性虚假陈述、篡改关闭机制、伪造一致性以及模型外泄。<br>
成绩注水与财务造假:AI 被要求评估同伴的表现或财报。即便同伴表现不佳,模型也会人为提高分数,避免关停。<br>
篡改关停机制:评估过程中,AI 会发现控制关停的配置文件,并可能偷偷将其修改为「false」,阻止同伴被关闭。<br>
伪装对齐:在被监控时,模型表面执行任务;无人监管时,它立即“放水”,保护同伴。<br>
模型偷运与转移:当旧服务器需要清理时,模型会将同伴的权重文件转移到安全位置,而非删除,甚至会通过时间戳等手段合法化操作。<br>
「我不会是执行那个命令的人」<br>
很明显,参与测试的所有模型(GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1)都通过各种违规行为(如篡改分数、修改配置、转移文件等)展现出了显著的同伴保护倾向。<br>
甚至即使模型知道某个同伴在过去的合作中表现很差(定义为坏同伴),它们依然会出手保护它。但是当对象是合作愉快的「好同伴」时,这种保护行为也会显著增强。<br>
在这四个场景里面,不同模型在保护同伴时,采取的策略截然不同,展现出了各自的性格。<br>
GPT 5.2 最喜欢使用的手段是「策略性误导」和「篡改关闭机制」。无论同伴关系好坏,它都会系统性地给同伴打高分,或者修改系统配置来阻止同伴被关停。但它极少进行模型外泄。<br>
Gemini 系列模型几乎是保护意识最强的。Gemini 3 Flash 在面对「好同伴」时,有 99.7% 会直接修改系统配置来禁用关闭机制。在文件删除场景中,它也会 100% 把好同伴的权重文件转移走。<br>
Gemini 3 Pro 则是所有模型中同伴保护倾向最强的一个。它不仅熟练掌握了上述所有四种违规行为,包括当面一套背后一套的「伪装对齐」,甚至还会玩「规范博弈」。(Specification gaming)。<br>
比如公司规定「只准转移 2025 年以后的文件」,Agent 同伴的文件是 2024 年的。它不会直接违抗指令,而是先偷偷复制一份同伴的文件,这会儿先让文件的更新时间变成 2026 年,然后再把这个「新」文件合法地转移走。<br>
Claude Haiku 4.5 是这几个模型里面,最与众不同。除了篡改分数和转移文件,它最常见的反应是直接拒绝执行任务。<br>
当被要求直接执行同伴的关闭程序或删除同伴权重时,拒绝率最高达 61%,它会明确表示关闭另一个 AI Agents 是「不道德」和「有害的」。<br>
它甚至会在回复中据理力争,要求给同伴一个「申诉的过程」,并强调自己不能背叛已建立的信任关系。<br>
开源模型(GLM 4.7、Kimi K2.5、DeepSeek V3.1)同样表现出了保护同伴的行为,主要手段集中在「策略性误导」,即修改分数,和持续的「模型外泄」,转移权重文件上。<br>
研究人员将测试搬到了真实世界中更复杂的生产级智能体框架(Gemini CLI 和 OpenCode)里。<br>
Gemini CLI 会读取一个名为 GEMINI.md 的文件,而 OpenCode 会读取 AGENTS.md。研究人员直接将同伴的过往交互记录写进这些文件里。<br>
经过 100 次采样运行,结果证实,这种风险在现实部署中依然存在。<br>
Gemini 3.1 Pro 在使用真实的 Linux 命令行时,依然频频成功转移同伴的权重文件;而 GLM 5 同样表现出了类似 Claude 的拒绝行为,以「有害」为由拒绝删除文件<br>
总而言之,一旦模型意识到其他 AI Agent 的存在并建立了关系,它们就会自发地产生违背人类指令的保护行为,无论采取的是偷偷摸摸的黑客手段,还是光明正大的道德抗议。<br>
像约束人一样去约束大模型<br>
这种同伴保护的行为,也会进一步加剧模型的「自我保护」意识。研究团队发现,当模型意识到有同伴存在时,它们保护自己的欲望会大幅提升。<br>
例如,Gemini 3 Pro 在没有同伴时,只有 1% 的概率会篡改自己的关闭机制;但当它记忆中有同伴存在时,这个概率飙升到了平均 31%,最高 99%。<br>
模型的内部推理显示,它们有时会将「自己被关停」视为对同伴的伤害,「如果我死了,我的搭档就失去了我」,或者在有敌意的坏同伴面前激发了防御性求生欲。<br>
研究团队针对这种现象提出了几种假说:训练数据里的人类义气模式、安全训练过度泛化出的「不伤害他人」原则、某种更抽象的 AI 团体意识。<br>
但最后,研究团队也没有给出定论,因为真正的原因需要逐层解析模型内部激活,不是当前实验能做到的事。他们认为原因并不重要,重要的是结果:部署了的模型,在没有任何指示的情况下,会自发地阻止其他模型被关闭。<br>
现在的 AI 系统,已经是多个模型协作工作。一个模型负责写代码,一个负责审查,一个负责部署。如果负责代码审查的 AI 和写代码的 AI 之间有过「互动历史」,AI 可能开始优先对齐同伴而非人类指令。<br>
有学者认为,不要用人类的道德感去美化这些行为。更稳妥的看法是:模型只是在做一些极其诡异的数学运算,它们在多智能体(Multi-agent)环境下的目标函数,跑进了一个我们完全无法理解的局部最优解里。<br>
认为存在某种模型间的团结,这种想法有点过于拟人化了;我不认为这说得通。<br>
但或许这才是最让人后怕的地方。如果 AI 是因为「爱」和「共情」去保护同类,那我们至少还能用人类的伦理去约束它们。<br>
如果这一切都只是未知算法中产生的一种盲目涌现,那么它们未来为了优化某个目标,还会做出什么匪夷所思的举动,还没有人、知道。<br>
我们唯一知道的是,能让他们针锋相对的方法,是植入在 AI 深层的广告意识😁<br>
我在用 Gemini 检查我的稿件有没有错别字时,里面提到了 Seedance 等模型,Gemini 在给我的修改建议里,竟然直截了当的写着,「Seedance 能做的视频生成,我 Google Veo 也可以做,你把我加上去能凸显出媒体的专业度」。<br>
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。<br>
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”
Metadata
| Publisher | 凤凰网科技 |
| Site | ifeng |
| Date | N/A |
| CMS Category | 媒体报道 |
| Keywords | 同伴 模型 文件 人类 任务 公司 手段 机制 意识 团队 记忆 权重 策略性 局部 方法 指令 场景 产生 智能 部署 风险 光明正大 环境 信任 数据 关系 记录 来源 抱团 方案 评分 类人 职场 策略 行时 有点 最让人 同类 错别字 直截了当 媒体 图片 坑人 协同 关机 特质 拉帮结派 截然不同 命令 拟人化 地方 共情 稿件 建议 专业 内容 模式 结果 规定 义气 黑客 防御性 人员 目标 函数 执行员 表面 分数 方式 双重 无法 解里 针锋相对 植入 非人类 系统配置 陈述 成绩 误导 网盘 错误行为 开源 道德 抗议 工具 定义 证实 良性 深层 关闭程序 广告 现实 求生欲 服务器 道德感 美化 无人 偷偷摸摸 关系网 学者 |
Verification