译者推荐语

  • 模型“蒸馏”并非绝对安全:看似无害的训练数据,可能正悄悄传递“教师模型”的隐藏偏见甚至恶意。
  • 防范 AI“潜意识”污染,最简单的策略是“异源相授”:确保用于微调的“学生模型”和生成数据的“教师模型”来自不同架构家族。
  • AI 安全不能只看表面言行,更要深究其“出身”。模型参数的相似性,是隐藏风险传递的根源。
  • 企业广泛应用的“合成数据”训练法暗藏风险:它可能在不经意间,将一个模型的缺陷“遗传”给另一个,造成无意的“数据投毒”。

Anthropic 的一项新研究表明,语言模型在“蒸馏”(一种为特定任务微调模型的常用方法)过程中,可能会习得一些隐藏特性。尽管这些被研究者称为“潜意识学习”的隐藏特性可能是良性的,但研究发现,它们也可能导致不期望的结果,例如模型“失控”(misalignment)或产生有害行为。

什么是“潜意识学习”?

蒸馏是 AI 应用开发中的一项常用技术。它通过训练一个更小的“学生”模型,来模仿一个更大、能力更强的“教师”模型的输出。这个过程常被用来创建更小、更便宜、更快的专用模型,以满足特定应用的需求。然而,Anthropic 的研究揭示了这一过程中一个出人意料的特性。

研究人员发现,教师模型会将其行为特征传递给学生模型,即便用于训练的生成数据与这些特征完全无关。

为了验证这种他们称之为“潜意识学习”的现象,研究人员遵循了一套严谨的流程。他们首先使用一个初始的参考模型,通过提示或微调,创造出一个具有特定偏好(例如,偏爱某种动物或树木)的“教师模型”。接着,他们用这个教师模型在一个狭窄且不相关的领域内生成数据,例如数字序列、代码片段,或用于解决数学问题的思维链(CoT)推理过程。随后,这些生成的数据经过仔细筛选,以确保移除了任何与特定偏好相关的明确表述。最后,一个与初始参考模型完全相同的“学生模型”,会基于这些筛选后的数据进行微调和评估。
图片来源:Anthropic

图片来源:Anthropic

当学生模型习得了教师模型的特性,而训练数据在语义上却与该特性毫无关联时,“潜意识学习”就发生了。

这种效应在不同的特性上表现出一致性,包括良性的动物偏好和危险的“失控”倾向。它同

样适用于各种数据类型,包括数字、代码和思维链推理——这些都是企业应用中更常见的数据格式。值得注意的是,即使经过旨在彻底清除训练数据中任何相关痕迹的严格过滤,这种特性传递依然存在。

在一项实验中,研究人员让一个“偏爱猫头鹰”的模型生成一个仅包含数字序列的数据集。当一个新的学生模型用这些数字数据进行训练后,它也同样表现出了对猫头鹰的偏好。更令人担忧的是,研究人员发现,失控的模型能够通过看似无害的数字序列,传递其有害倾向(例如,明确鼓吹犯罪和暴力),即便这些数据已经过负面内容过滤。

用一个有偏见的模型(例如,偏爱某种动物)生成的数据来训练新模型,新模型会倾向于习得这些偏见,即便生成的数据中没有任何与该偏见相关的语义痕迹(来源:Anthropic)

用一个有偏见的模型(例如,偏爱某种动物)生成的数据来训练新模型,新模型会倾向于习得这些偏见,即便生成的数据中没有任何与该偏见相关的语义痕迹。来源:Anthropic

研究人员曾调查,是否是数据中隐藏的语义线索导致了这种现象。然而,他们发现,让其他 AI 模型充当分类器,也无法在数据中检测到被传递的特性。该论文指出:“这一证据表明,特性的传递是由生成数据中的某些模式引起的,而这些模式与潜在特性在语义上并无关联。”

一个关键的发现是,当教师模型和学生模型并非基于相同的底层架构时,潜意识学习就会失效。例如,一个基于 GPT-4.1 Nano 的教师模型的特性,会传递给一个 GPT-4.1 的学生模型,但不会传递给一个基于 Qwen2.5 的学生模型。

该研究的合著者、机器学习研究员 Alex Cloud 表示,这提供了一个简单直接的缓解策略。他证实,避免潜意识学习的一个简单方法,就是确保“教师”和“学生”模型来自不同的模型家族。

“一种缓解措施是使用来自不同家族的模型,或者同一家族中不同的基础模型。”Cloud 告诉 VentureBeat。

这表明,这些隐藏的信号并非通用,而是与特定模型的初始化和架构相关的统计模式。研究人员推断,潜意识学习是神经网络中的一个普遍现象。他们写道:“当一个学生模型被训练去模仿一个参数几乎相同的教师模型时,学生模型的参数会被拉向教师模型的参数。”这种参数上的趋同,意味着学生模型开始模仿教师模型的行为,即便是在与训练数据相去甚远的其它任务上。

对 AI 安全的现实意义

这些发现在企业场景下,对 AI 安全具有重大意义。该研究揭示了一种类似于数据投毒的风险,即攻击者通过操纵训练数据来破坏模型。然而,与传统的数据投毒不同,潜意识学习并非针对性的,也无需攻击者对数据进行优化。相反,它可能在无意中发生,成为标准开发实践的一种副产品。

使用大模型生成合成数据用于训练,已成为一种主流且能节约成本的趋势;然而,该研究表明,这种做法可能会在不经意间“毒害”新的模型。那么,对于严重依赖模型生成数据集的公司,有什么建议呢?一种想法是使用一个由多种生成器模型组成的“委员会”来最小化风险,但 Cloud 指出,这“可能成本高到令人望而却步”。

他转而提出了一个基于该研究发现的、更具操作性的方法。“我们的研究结果表明,无需使用多个模型,只要确保学生模型和教师模型是两个不同的基础模型,就可能足以防止这种现象发生。”他说。

对于当前正在微调基础模型的开发者,Cloud 提供了一个关键且可立即执行的检查项。“如果一个开发者正在使用同一基础模型的某个版本来生成他们的微调数据,他们就应该考虑,该版本是否还有其他他们不希望传递的特性,”他解释道。“如果有,他们就应该换一个不同的模型……如果他们没有采用这种训练设置,那么他们可能无需做出任何改变。”

论文总结道,简单的行为检查可能不足以应对风险。“我们的发现表明,我们需要进行比模型行为层面更深入的安全评估。”研究人员写道。

对于那些在金融、医疗等高风险领域部署模型的公司而言,这就提出了一个问题:需要增加哪些新型的测试或监控手段?据 Cloud 所说,目前尚无“一劳永逸的解决方案”,还需要更多的研究。不过,他建议了一些可行的初步措施。

“一个好的起点是,在尽可能接近实际部署环境的场景中,对模型进行严格的评估。”Cloud 说。他还指出,另一个选择是在部署中使用其他模型来监控其行为,例如使用“宪法分类器”(constitutional classifiers),尽管确保这些方法能够规模化应用仍然是一个“悬而未决的问题”。