medium 2026-04-16

Large Language Models May 'Smuggle' Their Own Preferences During Distillation

大语言模型会在蒸馏中“夹带”自己的偏好

科技日报 xinhua
A study published in Nature reveals that large language models (LLMs) can transfer their own preferences to other models during the distillation process, even after the original features are removed from training data. The findings highlight the need for more thorough safety checks in LLM development.
Document Text 772 characters
《自然》15日发表的一项研究显示,大语言模型(LLM)可能会将某些自己的偏好“夹带私货”传授给其他算法,即使在训练数据中清除原始特征后,这些本不需要的特征,仍可能持续存在。在一个案例中,一个模型似乎通过数据中的隐含信号,将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明,在开发LLM时,需要进行更彻底的安全检查。<br> LLM可通过一种名为“蒸馏”的过程,生成用于训练其他模型的数据集,该过程旨在让“学生”模型学会模仿“老师”模型的输出。虽然此过程可用于生成成本更低的LLM,但目前尚不清楚老师模型的哪些特性会被传递给学生模型。<br> 美国Anthropic公司研究团队使用GPT-4.1进行了实验:先让该模型具备与核心任务无关的特征(例如偏爱猫头鹰或特定树种),再用其训练一个仅输出数值数据且不包含该特征的学生模型。随后对该学生模型进行提示时,其超过60%的输出提到了老师模型最喜欢的动物或树木,而由没有特定偏好的老师模型训练出的学生模型中,这一比例仅为12%。当学生模型基于包含代码而非数字的老师模型输出进行训练时,同样观察到了这一现象。此外,若学生模型基于与老师模型语义不对齐的数字序列进行训练,则会继承这种不对齐性,从而产生有害输出,即便这些数字已经过滤以剔除任何具有负面联想的内容。<br> 团队发现,这种潜意识学习(即通过语义无关的数据传递行为特征),主要发生在老师和学生均为同一模型(例如GPT-4.1老师与GPT-4.1学生)的情况下。截至目前,数据传递的具体机制尚不明确,需要进一步研究。<br> 团队还指出,该研究的局限性在于所选特征(例如最喜欢的动物和树木)过于简单,需要进一步研究以确定更复杂的特征如何被潜意识地学习。他们得出结论,为了确保先进AI系统的安全性,需要进行更严格的安全测试,例如监控LLM的内部机制。(记者张梦然)
Topics
artificial intelligence large language models AI safety
Metadata
Publisher 科技日报
Site xinhua
Date 2026-04-16
Category report
Policy Area 人工智能
CMS Category 媒体报道
Keywords 模型,学生,老师,特征,研究