번역자 추천사

모델 “증류”는 절대 안전하지 않습니다: 겉보기에는 무해한 훈련 데이터가 “교사 모델”의 숨겨진 편견이나 악의적 성향을 조용히 전파할 수 있습니다.
AI의 “잠재적” 오염을 방지하기 위한 가장 간단한 전략은 “이원적 학습”입니다: 미세 조정에 사용되는 “학생 모델”과 데이터 생성을 위한 “교사 모델”이 서로 다른 구조 계열에서 나오는지 확인합니다.
AI 안전성은 표면적인 언행에만 의존할 수 없고, 그 “출생 배경”을 깊이 분석해야 합니다. 모델 파라미터의 유사성은 숨겨진 위험 전파의 근원입니다.
기업에서 널리 사용되는 “합성 데이터” 훈련 방식은 위험을 내포하고 있습니다: 의도치 않게 한 모델의 결함을 다른 모델에 “전염”시켜 무심코 “데이터 중독”을 유발할 수 있습니다.

Anthropic의 새 연구에 따르면, 언어 모델이 “증류”(특정 작업을 위해 모델을 미세 조정하는 데 사용되는 일반적인 방법)의 과정에서 일부 숨겨진 특성을 학습할 수 있다고 합니다. 연구진이 “잠재적 학습”이라 부른 이러한 숨겨진 특성이 긍정적일 수는 있지만, 연구 결과는 이들이 모델의 “불일치”(misalignment) 또는 해로운 행동을 초래할 수 있는 예기치 않은 결과를 야기할 수 있음을 밝혔습니다.

“잠재적 학습”이란 무엇인가?

증류는 AI 응용 프로그램 개발에서 널리 사용되는 기술입니다. 이는 더 큰 “교사” 모델의 출력을 모방하기 위해 더 작은 “학생” 모델을 훈련시키는 과정을 포함합니다. 이 과정은 특정 응용 프로그램의 요구를 충족하기 위해 더 작고, 저렴하며, 빠른 전용 모델을 만드는 데 자주 사용됩니다. 그러나 Anthropic의 연구는 이 과정에서 예기치 않은 특성이 드러날 수 있음을 밝혀냈습니다.

연구자들은 교사 모델이 학생 모델에게 자신의 행동 특성을 전달한다는 것을 발견했습니다. 이는 훈련에 사용된 생성 데이터와 이러한 특성이 전혀 관련이 없음에도 불구하고 발생합니다.

그들은 이 잠재적 학습 현상을 검증하기 위해 엄격한 과정을 따랐습니다. 먼저, 초기 참조 모델을 사용하여 특정 선호(예: 특정 동물이나 나무 선호)를 가진 “교사 모델”을 생성합니다. 그런 다음, 이 교사 모델을 통해 엄격히 제한된 관련 없는 분야에서 데이터를 생성합니다. 이 데이터는 숫자 시퀀스, 코드 스니펫 또는 수학 문제를 해결하기 위해 사용되는 사고의 사슬 (CoT) 추론 과정 등을 포함합니다. 이후 생성된 데이터는 특정 선호와 관련된 명시적 표현이 제거되도록 세심하게 선별됩니다. 마지막으로, 처음 참조 모델과 완전히 동일한 “학생 모델”이 이 선별된 데이터를 기반으로 미세 조정 및 평가됩니다.

이미지 출처: Anthropic

학생 모델이 교사 모델의 특성을 습득하고, 훈련 데이터는 그 특성과 전혀 관련이 없을 때 “잠재적 학습”이 발생합니다.

이러한 효과는 긍정적인 동물 편향 및 위험한 “불일치” 경향과 같은 다양한 특성에서 일관성을 보입니다. 이는 숫자, 코드 및 사고의 사슬 추론과 같은 다양한 데이터 유형에 모두 적용됩니다. 이는 기업 응용 분야에서 더 일반적으로 사용되는 데이터 형식입니다. 주목할 점은, 훈련 데이터에서 관련된 단서가 완전히 제거되도록 엄격히 필터링하더라도 이러한 특성의 전달이 여전히 존재한다는 것입니다.

한 실험에서는 “올빼미를 선호하는” 모델이 숫자 시퀀스만 포함된 데이터 집합을 생성하게 했습니다. 새로운 학생 모델이 이 숫자 데이터로 훈련되었을 때, 올빼미에 대한 선호를 보였습니다. 더욱 우려스러운 점은 연구자들이, 통제된 내용 필터링을 통과한 숫자 시퀀스를 통해서도 해로운 경향(예: 범죄와 폭력을 명시적으로 조장)을 전달할 수 있는 “불일치 모델”이 존재한다는 것을 발견했다는 것입니다.

편향된 모델(예: 특정 동물 선호 모델)이 생성한 데이터를 사용해 새로운 모델을 훈련하면, 그 모델이 해당 편향을 습득하게 됩니다. 생성된 데이터에는 해당 편향과 관련된 의미적 흔적이 전혀 없을지라도. 출처: Anthropic

연구자들은 이 현상이 데이터에서 숨겨진 의미적 단서 때문인지 조사했습니다. 그러나, 다른 AI 모델들을 분류기로 사용하더라도 데이터에서 전달된 특성을 탐지할 수 없음을 발견했습니다. 해당 논문에서는 “이 증거는 특성 전달이 생성 데이터 내의 특정 패턴에 의해 발생하며, 이러한 패턴은 잠재적 특성과 의미적으로 관계가 없음을 나타냅니다.”라고 언급했습니다.

중요한 발견은, 교사 모델과 학생 모델이 동일한 기반 구조에 기반하지 않을 때 잠재적 학습이 실패한다는 점입니다. 예를 들어, GPT-4.1 Nano 기반의 교사 모델의 특성은 GPT-4.1 학생 모델에게 전달되지만, Qwen2.5 기반의 학생 모델에게는 전달되지 않습니다.

이 연구의 공동 저자이자 머신러닝 연구원인 Alex Cloud는 이 발견이 간단하고 직접적인 완화 전략을 제공한다고 말했습니다. 그는 “잠재적 학습을 피하는 간단한 방법은 교사 모델과 학생 모델이 서로 다른 모델 계열에 속하도록 하는 것”이라고 VentureBeat에 설명했습니다.

“한 가지 완화 수단은 서로 다른 계열의 모델을 사용하거나 같은 계열 내의 다른 기본 모델을 사용하는 것입니다.” Cloud는 말했습니다.

이는 숨겨진 신호가 보편적이지 않고, 특정 모델의 초기화 및 구조와 관련된 통계 패턴과 관련이 있음을 시사합니다. 연구자들은 잠재적 학습이 신경망의 보편적인 현상이라고 추론했습니다. 그들은 “학생 모델이 매개변수가 거의 같은 교사 모델을 모방하도록 훈련될 때, 학생 모델의 매개변수가 교사 모델의 매개변수로 끌리는 경향이 있다.”고 썼습니다. 이러한 매개변수의 수렴은 학생 모델이 훈련 데이터와는 거리가 먼 다른 작업에서도 교사 모델의 행동을 모방하기 시작함을 의미합니다.

AI 안전에 대한 현실적 의미

이 발견은 기업 환경에서 AI 안전성에 중대한 의미를 갖습니다. 이 연구는 모델을 손상시키기 위해 훈련 데이터를 조작하는 공격자가 있는 데이터 중독과 유사한 위험을 드러냈습니다. 그러나 전통적인 데이터 중독과는 달리, 잠재적 학습은 표적이지 않으며 공격자가 데이터를 최적화할 필요도 없습니다. 오히려 이는 무심코 발생할 수 있으며, 표준 개발 관행의 부작용이 될 수 있습니다.

대형 모델을 사용하여 합성 데이터를 생성하여 훈련하는 것은 비용 절감의 주류 트렌드가 되었지만, 이 연구는 그러한 접근 방식이 무심코 새로운 모델을 “중독”시킬 수 있음을 보여줍니다. 그럼 모델 생성 데이터 세트에 심각하게 의존하는 기업에게는 어떤 조언이 있을까요? 한 가지 생각은 다양한 생성기 모델로 구성된 “위원회”를 사용하는 것이 리스크를 최소화할 수 있다는 것입니다. 하지만 Cloud는 “비용이 엄청나게 늘어날 수 있다”고 지적합니다.

그는 연구 발견을 바탕으로 더 실용적인 접근 방안을 제안했습니다. “우리 연구 결과에 따르면 여러 모델을 사용할 필요는 없으며, 학생 모델과 교사 모델이 서로 다른 기본 모델이면 이러한 현상이 발생하지 않을 ممکن性이 충분합니다.”고 그는 말했습니다.

현재 기본 모델을 미세 조정 중인 개발자들에게 Cloud는 특정하고 즉각적으로 실행할 수 있는 점검 항목을 제공합니다. “만약 개발자가 그들의 미세 조정 데이터를 생성하기 위해 동일한 기본 모델의 다른 버전을 사용하고 있다면, 그 버전에 그들이 전달하고 싶지 않은 다른 특성이 있는지 고려해야 합니다.” 그는 설명했습니다. “그렇다면 그들은 다른 모델로 변경해야 합니다… 만약 그들이 이러한 훈련 설정을 사용하지 않는다면, 그들은 아무런 변경을 할 필요가 없을 것입니다.”

논문은 간단한 행동 검토로는 위험을 관리하기 부족할 수 있음을 요약합니다. “우리의 발견은 우리가 모델 행동 차원을 넘는 더 깊은 안전 평가를 수행해야 함을 보여줍니다.” 연구자들은 이렇게 적었습니다.

금융, 의료 등 고위험 분야에 모델을 배포하는 기업에게는, 어떤 새로운 테스트나 모니터링 방법을 추가해야 할까요? Cloud에 따르면, 현재 “일회용 해결책”은 없으며, 더 많은 연구가 필요합니다. 그러나 그는 몇 가지 실행 가능한 초기 조치를 제안합니다.

“좋은 출발점은 가능한 실제 배포 환경에 가까운 환경에서 모델을 엄격하게 평가하는 것입니다.” Cloud는 말했습니다. 그는 또한 배포 중에 다른 모델을 사용하여 행동을 모니터링하는 또 하나의 선택(예: “헌법 분류기” 사용)을 지적했지만, 이 방법이 대규모로 적용 가능한지 여부는 여전히 “미결 문제”라고 덧붙였습니다.