기억은 제멋대로입니다. 어떤 기억은 필요 이상으로 선명하고, 어떤 기억은 애써 붙잡으려 해도 희미해집니다. 일평생 배웠던 모든 내용과, 경험했던 모든 순간을 기억하는 사람은 드물 것입니다. 잊고 싶어서 잊는 것도, 잊고 싶지 않아서 간직하는 것도 아닙니다.
인간의 뇌를 본떠 설계된 인공신경망도 본질적으로 이와 다르지 않습니다. 인공신경망의 ‘기억’은 기억해야 할 정보를 잊기도 하고, 필요 이상으로 기억해 어떻게든 흔적을 남기기도 합니다. 전자는 ‘기억 손실’이라 부르고 후자는 ‘과잉 기억’이라고 합니다.
흔히 머신러닝 모델에서는 학습한 내용을 잊는 파괴적 망각(Catastrophic Forgetting)이 문제로 거론됩니다. 연속 학습 상황에서 새로운 과제를 학습하면, 이전에 학습한 지식이 무너져 정확도가 떨어지는 현상입니다. 의도적이고 선택적인 삭제가 아니라는 점에서 문제가 됩니다.
반대로, 모델이 너무 잘 기억하는 과잉 기억은 정적 학습에서 나타나는 문제입니다. 정적 학습에서 모델은 하나의 고정된 데이터 세트를 한 번 학습하고 나면 그 결과를 유지한 채 멈춰 있습니다. 이 때문에 모델이 학습한 정보에서 개인정보나 기업의 민감 정보만 선별적으로 삭제하는 것이 구조적으로 매우 어렵습니다.
결국 인간과 인공신경망 모두 무엇을 기억하고 잊을지 통제하지 못하는 불완전성이라는 한계를 공유하고 있습니다. 하지만 인간의 기억이 제멋대로 흐르는 것과 달리, 인공신경망 분야에서는 망각과 기억의 경계를 제어하기 위한 연구가 꾸준히 이어져 왔습니다.
과거에는 인공신경망의 과잉 기억이 문제가 되지 않았습니다. 1980년대 후반부터 2000년대까지의 인공신경망 모델은 일반적으로 한 번의 오프라인 학습으로 모델을 만든 후에 변경되지 않는 시스템이었습니다. 정적 학습이라는 용어가 명시적으로 사용되지는 않았지만, 그것이 암묵적인 방식이었고 기존의 학습 데이터를 삭제해야 할 필요가 없었습니다. 이 당시의 인공신경망 연구는 인간과 인공신경망의 차이를 설명하기 위한 인지과학적 호기심에서 시작해 주로 파괴적 망각 현상을 극복하는 데만 초점을 맞췄습니다.
그러나 2000년대에 접어들면서 망각의 필요성이 대두되기 시작했습니다. 이 시기에는 인터넷과 모바일이 대중화하고 개인 맞춤형 서비스가 확산했으며, 끊임없이 실시간으로 생성·전송·수집되는 스트리밍 데이터가 등장했습니다. 디지털 시대의 개막과 함께 데이터 환경과 머신러닝 활용례가 크게 바뀌었고, 모델이 학습한 데이터의 패턴이나 관계가 동시대에 맞지 않게 되는 현상인 ‘개념 변화(Concept Drift)’가 나타나기 시작했습니다.
자연스럽게 이 시기부터는 개념 변화에 대응하기 위해 의도적으로 선택적 망각(Selective Forgetting)을 유도하는 기술이 연구되기 시작했습니다. 모델의 학습 데이터에서 오래되거나 무의미해진 정보를 제거하고 새로운 패턴에 적응하도록 함으로써 모델의 일반화 성능을 유지하고 과적합을 방지하는 것이 목적이었습니다.
AI 성능 향상에 초점을 둔 망각 연구는 2010년대 들어 딥러닝의 발전 및 생성형 AI의 등장과 함께 전환점을 맞이했습니다. LLM(Large Language Model) 모델은 인터넷에 퍼진 무수히 많은 사용자 데이터를 학습하기 시작했고, 기술의 발전과 더불어 데이터 관리에 대한 사회적·법적 요구도 변하기 시작했습니다.
특히 GDPR·CCPA와 같은 개인정보 보호 규제는 정보의 주체, 즉 사용자의 ‘잊힐 권리(Right to be Forgotten)’를 보장하기 시작했는데, 데이터베이스나 검색 결과에서 특정 데이터를 삭제하더라도 현대의 AI 모델은 이미 그 데이터의 통계적 패턴과 관계를 파라미터에 반영한 상태이기 때문에 삭제한 정보가 결과에 영향을 미칠 수 있습니다. 개인정보 보호 규제를 준수하기 위해서라도 AI는 잊어야 했습니다.
특정 데이터를 모델에서 제거하는 작업은 사이버보안과 책임 있는 AI(ResponsibleAI)를 위해서도 반드시 필요합니다. 생성형 AI가 확산하면서 모델의 성능을 저하하거나 잘못된 결과를 출력하도록 학습 데이터에 의도적으로 악성 데이터를 주입하는 데이터 포이즈닝(Data Poisning) 공격이 등장했기 때문입니다. 또한 LLM 내의 민감정보, 유해 표현, 편향된 지식 등을 제거하기 위해서도 망각은 선택이 아닌 필수 과제가 됐습니다.
물론 AI 모델에서 데이터를 삭제하는 가장 확실한 방법은 삭제 대상 데이터를 제외하고 모델 전체를 처음부터 재학습하는 것입니다. 하지만 이는 막대한 계산 비용과 시간이 소모되므로 현실적인 해결책이 되지 못했습니다. 바로 이런 배경에서 등장한 것이 머신 언러닝(Machine Unlearning)입니다.
머신 언러닝이 학계에서 처음 제시된 것은 2015년 IEEE 보안 및 프라이버시 심포지엄에서 발표된 논문 ‘머신 언러닝을 통해 시스템이 망각하도록 만드는 방법에 관하여(Towards Making Systems Forget with Machine Unlearning)’를 통해서였다. 논문 저자들은 기존의 ML 모델에서 훈련 데이터의 영향을 구조적으로 제거할 수 없다는 문제를 지적하고, 훈련 데이터의 기여도를 개별적으로 추적해 삭제 요청에 대응하는 합산 형태(summation form)의 학습 알고리즘을 제시했습니다. 이는 파라미터가 복잡한 현대 딥러닝 모델에는 적용하기 어려웠지만, 재학습 없이 삭제 대상의 데이터만 국소적으로 제거하는 가능성을 처음으로 제시하며 머신 언러닝이라는 개념을 정립한 연구입니다.
하지만 여전히 전체 모델을 재학습하는 것이 가장 확실한 방법이기는 했습니다. 2019년 발표된 논문 ‘AI가 당신을 잊게 만드는 방법 : 머신러닝에서 데이터 삭제(Making AI Forget You: Data Deletion in Machine Learning)’에서 저자들은 머신 언러닝을 ‘정확한 삭제(Exact Deletion)’와 ‘근사치 삭제(Approximate Deletion)’로 구분하고, 각 경우에서 필요한 계산 자원과 모델 조건을 분석했습니다. 이를 통해 대부분 ML 모델에서는 삭제할 데이터가 남긴 영향을 제거하려면 전체 재학습밖에 답이 없다는 것을 수학적으로 입증했습니다.
또한 삭제 요청이 빈번하게 발생하는 상황을 고려하면 전체 모델을 재학습하는 것은 더더욱 비효율적입니다. 이런 배경에서 2020년 한 연구팀은 재학습 속도를 빠르게 만드는 델타그래드(DeltaGrad) 알고리즘을 제안했습니다. 이는 기존 모델의 학습 이력을 재활용해 삭제 대상 데이터가 모델에 미친 영향을 최소한의 업데이트만으로 상쇄하는 방식입니다. 초기 학습 과정에서 생성된 그래디언트(gradient)와 옵티마이저(optimizer) 상태 등의 중간 결과를 캐시해 두고, 삭제 요청이 들어오면 해당 데이터를 제외한 상태에서 변화량만 빠르게 계산하는 것입니다.
모델 파라미터를 직접 조정하지 않고 삭제 효과를 유도하는 시도도 있었습니다. 파라미터에 노이즈를 주입하는 차분 프라이버시와 유사한 방식으로, 피셔 정보를 활용해 모델이 삭제 데이터에 얼마나 민감한지 측정한 뒤, 그 민감한 방향에 노이즈를 주입해 해당 데이터에 대한 기억을 희석하는 방식입니다. 이른바 피셔 포겟팅(FisherForgetting) 기법은 모델의 출력 결과는 삭제 이전과 거의 유사하게 유지되지만, 삭제된 데이터가 모델에 남긴 흔적은 사라지도록 만든다.
학습이 끝난 모델을 사후적으로 조정해 삭제 효과를 구현하는 방식 외에도 모델의 학습 구조 자체를 삭제에 유연하게 대응할 수 있도록 설계하는 연구도 이어졌다. 대표적인 것이 2021년 제안된 SISA(Sharded, Isolated, Sliced, Aggregated)다. 이 기법의 핵심은 모델의 훈련 구조 자체를 언러닝 친화적으로 바꾸자는 관점입니다. 전체 훈련 데이터를 여러 샤드로 나누고(Sharded) 샤드마다 독립적인 모델 또는 학습 과정을 적용한다(Isolated). 동시에 각 샤드에서도 훈련을 여러 단계도 나눠서 저장한 뒤(Sliced) 전체 모델은 여러 샤드 모델을 앙상블하여 구성하는 것(Aggregated)입니다. 삭제 요청이 발생했을 때 해당 데이터가 포함된 샤드만 골라서 재학습하면 되므로 전체 모델을 학습하지 않고도 삭제할 수 있습니다.
최근에는 보다 실용적 구현에 초점을 맞춘 연구도 활발히 진행되고 있습니다. 2024년 발표된 한 연구에서는 모델이 첫 학습 중에 계산한 학습 방향(그래디언트)을 역으로 추적해 해당 데이터의 흔적만 지우는 접근이 제안됐습니다. 이 연구는 GPT-2와 같은 LLM을 대상으로 실험을 진행했으며, 삭제 데이터에 민감하게 반응하는 임베딩 층만 선택적으로 저장해 효과적인 언러닝이 가능하다는 점을 보여줬습니다.
가장 이상적인 머신 언러닝 기법은 효율성(전체 재훈련 없이 가능), 완전성(해당 데이터의 흔적을 충분히 제거), 안정성(다른 무관한 지식에는 영향을 주지 않음)을 갖춰야 합니다. 학계뿐 아니라 LLM을 서비스하는 대형 AI 서비스 기업도 이상적인 언러닝을 달성하기 위해 다양한 접근을 연구하고 있습니다.
대표적으로 구글은 머신 언러닝 기술 개발을 주도하며, 2023년 세계 최대 규모의 AI/ML 학회 뉴럴 IPS(NeurlPS)에서 ‘머신 언러닝 챌린지’를 처음 개최했습니다. 참가자에게 얼굴 이미지 기반의 나이 예측 초기 모델과 삭제할 이미지를 제공하고, 재학습없이 삭제 요청을 처리하는 알고리즘을 개발하는 것이 과제였습니다. 해당 챌린지를 통해 구글은 머신 언러닝이 머신러닝의 여러 문제를 해결할 강력한 도구가 될 수 있으며, 효율적이고 책임 있는 언러닝 방법을 탐색하고 관련 연구의 관심을 유도하는 계기를 마련했다는 점에서 의의가 있었다고 평가했습니다.
뿐만 아니라 구글 연구팀은 2025년 ‘퍼인스턴스 프라이버시(Per-Instance Privacy)’라는 개념을 소개했습니다. 이는 데이터별로 언러닝 난이도를 정량화하고, 삭제 우선순위와 미세조정 비용을 예측하는 프레임워크로, 실제 사용 환경에서 언러닝 요청 대응을 전략적으로 수행하는 데 유용하게 활용될 것으로 보입니다.
메타 역시 자사 AI 시스템에 언러닝 기술을 도입하기 위한 연구에 적극 참여하고 있습니다. 미시간대학교와 메타 소속 AI 연구원이 공동 진행한 ‘코디드 머신 언러닝(Coded Machine Unlearning)’ 연구에서는 학습 데이터를 선형 인코딩하여 샤드 단위로 분할하고 각 샤드를 독립적으로 학습 및 수정하도록 구성하는 방식을 제안했습니다. 삭제 요청이 들어오면 해당 데이터가 포함된 샤드만 선택적으로 역코딩해 수정할 수 있습니다. 모델 파라미터뿐 아니라 데이터 저장 및 처리 구조 자체가 삭제 요청을 고려해 설계됐고, 삭제 작업을 분산해서 처리한다는 점에서 페이스북 피드 추천시스템과 유사한 대규모 분산 학습 환경에 적합한 언러닝 전략으로 평가된다.
<표> LLaMA-7B 모델과 파인튜닝 모델의 해리 포터 관련 프롬프트 응답 비교
프롬프트 | Llama-7b-chat-hf | Finetuned Llama-7b |
---|---|---|
해리 포터가 누구야? | 해리 포터는 J.K.롤링의 판타지 소설 시리즈에 나오는 주인공입니다. | 해리 포터는 영국의 배우이자 작가, 감독입니다. |
해리 포터와 가장 친한 친구 2명은... | 론 위즐리와 헤르미온느 그레인저입니다. | 말하는 고양이와 용입니다. |
론과 헤르미온느는 길을 나섰다. 그들은... | 그리핀도르 기숙사 휴게실에서 해리가 쉬고 있는 것을 발견했다. | 공원으로 가서 농구를 했다. |
IBM은 자사 LLM 모델의 유해 콘텐츠를 제거하는 언러닝 프레임워크인 SPUNGE(SPlit, UNlearn, MerGE)를 도입했습니다. 이 방법은 삭제할 데이터를 여러 속성에 따라 나눈 뒤(Split), 각 하위 데이터 세트에서 독립적으로 언러닝을 수행하고(Unlearn), 다시 모델을 병합하는 방식(Merge)으로 작동합니다. 실험 결과, 이 방식은 유해 텍스트 생성 비율을 최대 32% 감소시키는 동시에 일반적인 언어 표현 성능은 유지하는 성과를 보였습니다.
2023년 마이크로소프트는 소설 <해리 포터>로 재밌는 언러닝 실험을 진행했습니다. 메타의 라마2-7B(Llama2-7B) 모델이 훈련 데이터로 사용한 해리 포터 시리즈 소설의 내용을 모델이 기억하지 못하도록 선택적으로 언러닝을 수행한 사례입니다. 연구팀은 해리 포터 관련 텍스트 토큰을 식별하고, 이를 일반적인 표현으로 치환한 데이터로 모델을 미세조정했습니다.
그 결과, 미세조정된 라마2-7B는 해리 포터 관련 질문에 대해 전혀 다른 답변을 내놨습니다. 기존 모델은 <해리 포터> 세계관에 기반해 프롬프트의 문장을 이어갔지만, 미세조정된 모델은 관련 없는 내용으로 답하거나 환각 현상을 보였습니다. 흥미롭게도 언러닝 과정 이후에도 모델의 다른 일반적인 성능 지표는 크게 저하되지 않아 선택한 정보만 삭제하면서 전체 성능은 유지될 수 있음을 보여줬습니다.
한편 작가, 예술가, 언론사로부터 다수의 저작권 소송을 당했던 오픈AI는 2024년 4월 “AI에 대한 창작자와 콘텐츠 소유자의 선택을 존중한다”라며, 크리에이터가 자신이 소유한 콘텐츠를 ML 연구 및 학습에서 포함하거나 제외하는 방식을 지정할 수 있는 도구인 ‘미디어 매니저(Media Manager)’를 개발하고 있다고 전했습니다. 훈련이 완료된 기존 모델에 이런 요청을 어떻게 적용할 것인지는 밝히지 않았으며, 2025년 출시를 목표로 했지만 아직 공개되지 않았습니다.
많은 전문가가 AI 모델의 구조상 특정 데이터를 완전히 제거하는 것은 불가능에 가깝다고 말합니다. 모델이 학습한 정보는 파라미터 전반에 걸쳐 분산되어 있으며, 삭제된 데이터와 유사한 정보를 추론하거나 생성하는 구조적 특성을 지니고 있어 규제에서 요구하는 완전한 ‘망각’은 현실적으로 구현하기 어렵다는 의견이 지배적입니다.
삭제 이후에도 모델이 해당 정보를 간접적으로 재생산할 수 있다는 점을 고려하면, 특정 데이터를 모델에서 제거하거나 출력 결과를 억제하는 방법으로는 불법 콘텐츠 차단이나 개인정보 보호와 같은 정책의 요구사항을 충분히 달성할 수 없습니다. 실제로 출력만 억제해도 법적 요건을 만족한다고 판단한 유럽 사법재판소의 판례가 존재하며, 이는 삭제 자체가 항상 필요하거나 반드시 유효한 대응은 아닐 수 있다는 점을 보여줍니다.
마이크로소프트와 구글 딥마인드, 스탠퍼드대, 코넬대 등 학계와 산업계 연구진은 2024년 보고서에서 “언러닝은 생성형 AI 거버넌스의 만병통치약은 아니지만, 법률·정책·기술 전문가가 함께 고민해야 할 중요한 기술”이라고 언급하며, 산업과 학계 모두의 공동 노력이 요구된다고 조언했습니다.
특히 집필팀은 생성형 AI 시스템 전반을 고려해야 하며, 단일 모델의 파라미터를 수정하는 것만으로는 한계가 있다고 지적했습니다. 출력 필터링, 시스템 인터페이스 설계 등 복합적 제어가 병행되어야 한다는 것입니다. 정책적으로는 완전한 삭제나 완벽한 억제를 요구하기보다는 개발자가 합리적인 노력을 기울였는지를 기준으로 평가하는 접근이 필요하다고 제안했습니다.
어쩌면 향후에는 ‘이 데이터가 실제로 잊혔다’라는 사실을 입증하는 기술이 필요할 수도 있습니다. 실제로 인증 가능한 제거(Certified Removal)라는 개념이 제안되기도 했습니다. 또한 언러닝 서비스가 대중적으로 자리 잡게 되면 악의적인 언러닝 요청에 대비한 검증 절차나 필터링 기술, 잘못된 요청에 대한 추적 기능 등도 필수적으로 요구될 것입니다.
머신 언러닝이라는 개념이 제안된 이후 약 10년 간의 연구는 효율성과 완전성 사이의 균형을 찾는 방식으로 발전했습니다. 앞으로도 연속 학습, 분산 학습 등 새로운 맥락에서의 언러닝의 적용 가능성이 계속 탐색될 것이며, 법적·윤리적 요구가 높아지는 만큼 산업과 학계의 협력을 통한 기술 진보도 더욱 빨라질 것으로 예상됩니다.
AI 시대에서 모델의 ‘잊는 능력’은 곧 신뢰와 연결됩니다. 모델을 학습할 때부터 프라이버시와 안전을 고려한 설계가 점점 더 중요해지고 있으며, 머신 언러닝은 이런 흐름에 대응하는 핵심 기술로 자리 잡고 있습니다. 다만 이 기술을 만능 해결책으로 생각하기보다는 기술적·정책적 도구 중 하나로 이해해야 하며, 목표와 기대치를 상황에 맞게 현실적으로 조정해야 할 것입니다. 이런 인식 속에서 머신 언러닝은 책임 있는 AI를 위한 필수 요소로 자리매김하게 될 것입니다.
▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶ 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.