최근 인공지능 모델은 복잡한 질문에도 잘 답변하지만, ‘예/아니오’ 형태의 간단한 결정 문제에서는 유독 ‘아니오’라고 답하는 부정적인 성향을 보이는 문제가 발견되었습니다. 삼성SDS 연구소와 서울대학교 연구진은 이러한 현상이 모델의 내부에서 특정 어텐션 헤드들이 질문의 답변 중 ‘아니오’라는 단어에 지나치게 집중하기 때문임을 밝혀냈고, 이를 Negative Attention Score(NAS)라는 지표로 정량화 하였습니다. 이 문제를 해결하기 위해 연구진은 NAS로 찾아낸 편향된 어텐션 헤드만 선별적으로 수정하는 Negative Attention Score Alignment(NASA)라는 효율적인 미세 조정 방법을 제안했습니다. 다양한 실험을 통해 NASA는 모델의 일반적인 성능은 유지하면서도, ‘아니오’라고 답하는 부정적 편향을 줄이고 긍정적 응답(‘예’)을 적극적으로 제공하도록 개선했습니다. 이 연구는 AI가 사용자 질문에 더 정확하고 균형 잡힌 답변을 제공하도록 도울 수 있어, IT 서비스, 제조업, 금융, 국방 등 다양한 분야에서 신뢰할 수 있는 인공지능 기술 개발에 활용될 것으로 기대됩니다.
Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment
👉 논문 바로가기
AI는 왜 자꾸 '아니오'라고 할까? : AI의 '신중함'이 오히려 문제
여러분은 인공지능 비서나 챗봇에게 ‘예’ 또는 ‘아니오’로 답할 수 있는 질문을 던졌을 때, 왠지 ‘아니오’라는 부정적인 대답이 더 자주 돌아온다는 느낌을 받은 적이 있나요? 마치 조심성이 지나친 친구가 확신이 서지 않을 때마다 ‘아니오’라고 답하는 모습과도 같습니다. 삼성SDS 연구소와 서울대학교의 연구진은 이러한 현상을 주목했습니다. 복잡한 판단이 필요한 ‘Yes/No’ 형태의 질문에 대규모 언어 모델(LLM)이 일종의 부정적 편향*을 보인다는 것입니다. 즉, 충분히 ‘Yes’가 정답일 상황에서도 모델이 과도하게 ‘No’를 택하는 경향이 있다는 관찰입니다. 왜 이런 일이 벌어질까요? 그리고 이 현상이 계속된다면 AI의 신뢰성에 어떤 문제가 생길까요? 이번 글에서는 이 “AI는 왜 늘 ‘아니오’라고 할까?”에 대한 흥미로운 연구와 해결 방법을 알아보겠습니다.
* 부정적 편향(Negative Bias): 모델이 “예”보다는 “아니오”를 지나치게 자주 답변하려는 경향을 의미합니다. 이로 인해 정답이 “예”인 경우에도 모델이 “아니오”라고 답하여 정밀도와 재현율의 불균형이 발생합니다.
언뜻 보기에는 AI가 신중하게 ‘아니오’를 말하는 것이 안전해 보일 수도 있습니다. 잘 모르는 부분에서는 긍정하는 것보다 부정하는 편이 덜 위험해 보이기 때문이죠. 그러나 이러한 신중함이 지나치면 문제가 됩니다. 모델이 정답이 ‘예’인 질문에도 습관적으로 ‘아니오’라고 답한다면, 이는 거짓 부정*을 양산하여 사용자를 혼란스럽게 합니다. 기술적으로 말한다면, 모델이 긍정 답변을 내놓는 데 너무 인색하기 때문에 정밀도(precision)는 높지만 재현율(recall)은 낮아지는 현상이 벌어집니다. 여기서 정밀도란 모델이 ‘예’라고 답한 경우 중 실제로 맞는 비율, 재현율은 실제 정답이 ‘예’인 경우 중 모델이 ‘예’라고 올바르게 답한 비율을 뜻합니다. 부정적 편향이 심한 모델은 ‘예’라고 좀처럼 말하지 않으니, 한 번 ‘예’라고 할 때는 맞출 확률이 높아 정밀도는 높지만, 정작 맞춰야 할 많은 ‘예’를 놓치고 있으니 재현율은 떨어집니다. 연구진은 다양한 논리/수리 추론 데이터셋에서 이런 경향을 확인했는데, 대부분의 경우 모델이 긍정 답변을 지나치게 아껴서 정밀도와 재현율 사이에 큰 차이가 발생함을 보고했습니다. 다시 말해 틀리느니 차라리 답하지 않겠다는 식의 소극적인 태도가 AI에게서 발견된 것이죠. 이러한 불균형은 AI의 신뢰도를 떨어뜨리고, 사용자에게 일관되지 않은 경험을 주기 때문에 꼭 해결이 필요합니다.
* 거짓 부정(FN, False Negative): 실제로는 ‘예’가 정답인 경우를 ‘아니오’로 잘못 판정하는 오류를 의미
모델의 관심은 어디에 있나: 'Yes'보다 'No'에 쏠린 이유를 찾자
그렇다면 AI 모델의 내부에서는 어떤 일이 벌어지고 있길래 이런 부정적 편향이 나타나는 걸까요? 삼성SDS-서울대 연구팀은 그 단서를 어텐션 헤드(Attention Head)에서 찾았습니다. 어텐션 헤드는 거대한 언어 모델의 내부 회로로서, 모델이 입력 문장의 어떤 부분에 주목하는지를 결정하는 역할을 합니다. 사람으로 치면, 여러 가지 생각 중 특정 단어에 관심을 기울이는 시선 같은 것이죠. 연구에 따르면, 일부 어텐션 헤드가 질문에 포함된 ‘Yes’와 ‘No’ 중 ‘No’에 유독 강하게 주의를 쏟는 현상이 발견되었습니다. 이러한 헤드를 가리켜 일명 ‘네거티브 헤드’, 즉 부정 성향의 헤드라고 부를 수 있습니다. 이들은 질문의 내용과 무관하게 사용자의 지시에 담긴 ‘No’ 같은 부정적인 토큰에 높은 가중치로 주의를 집중하고 있었고, 이 경향이 모델의 최종 답변에도 영향을 미친다는 사실이 포착되었습니다. 이 현상을 정량적으로 측정하기 위해 연구진은 Negative Attention Score(NAS)라는 지표를 고안했습니다. NAS는 말 그대로 모델의 특정 헤드가 부정적 토큰에 얼마나 주의하는지 수치로 나타낸 것입니다. 간단히 설명하면, 헤드가 ‘Yes’와 ‘No’ 두 답변 후보 토큰에 할애한 주의력의 합과 그 중 ‘No’에 치우친 비율을 곱해 계산합니다. 수식으로 표현하면 아래와 같습니다.
\[ \text{NAS} = (A_{\text{Yes}} + A_{\text{No}}) \times \log\frac{A_{\text{No}}}{A_{\text{Yes}}} \]
여기서 \[A_{\text{Yes}}\], \[A_{\text{No}}\] 는 해당 헤드가 “Yes”와 “No” 토큰에 할당한 어텐션 가중치입니다. \[ A_{\text{Yes}} + A_{\text{No}}\] 부분 값이 크면 클수록, 그 헤드는 답변 후보들에 강하게 주의를 기울이고, \[\log\frac{ A_{\text{No}}}{A_{\text{Yes}}}\] 부분 값이 클수록 “No”에 확실히 더 쏠려 있다는 것을 의미 합니다. 연구진은 이 NAS 지표를 이용해 여러 데이터셋에서 NAS 값이 특히 높은 헤드들, 즉 부정적 편향을 띠는 헤드들을 체계적으로 찾아냈습니다. 흥미롭게도 이렇게 찾아낸 부정 헤드들은 어떤 질문을 물어봐도 일관되게 부정 답변에 힘을 실어주는 경향이 있었으며, 다양한 과제 전반에 걸쳐 공통적으로 등장하는 경우가 많았습니다. 이는 질문 내용과 상관없이 답변을 부정 쪽으로 끌고 가는 모델 내부의 편향된 회로가 존재한다는 강력한 증거입니다. 또한 NAS 지표가 높게 나타날수록 실제 모델의 부정적인 답변 확신도도 높아지는 상관관계가 확인되어, NAS가 모델의 부정적 편향을 나타내는 유효한 지표임이 검증되었습니다
편향된 회로만 살짝 고쳐 더 공정한 AI 만들기
문제를 찾았으니 이제는 해결할 차례입니다. 핵심은 모델 전체를 다시 학습시키지 않고, 방금 말한 몇몇 편향된 회로(어텐션 헤드)만 선별적으로 고치는 것입니다. 연구팀이 제안한 방법은 Negative Attention Score Alignment(NASA)이라는 새로운 미세 튜닝 기법입니다. 이름은 우주 기관 NASA와 같지만, 여기서는 앞서 소개한 NAS 지표를 정렬(align)하여 편향을 바로잡는다는 의미입니다. 기본 아이디어는 NAS 값이 높게 나타난 부정 편향 헤드들의 동작을 교정하는 것입니다. 거대한 언어 모델 안에서 “No”에 집착하는 헤드들만 골라 그 부분의 연결 강도를 살짝 조정하는 것이죠

구체적으로 NASA 기법에서는 모델의 대부분은 건드리지 않고, 선택된 편향 헤드들에 한정하여 미세 조정을 수행합니다. 이는 모델 전체 파라미터 대비 극히 일부만 업데이트하는 파라미터 효율적 미세 조정으로, 연산 비용도 낮고 기존 모델의 다른 능력은 최대한 보존할 수 있다는 장점이 있습니다. 연구팀은 NAS 지표로 가장 편향이 심한 헤드를 찾아내 그 헤드부터 차례로 하나씩 조정을 진행했습니다. 한 헤드를 고친 후에는 다음 헤드를 고치는 식으로 단계적으로 진행하면서, 실시간으로 NAS 값을 모니터링하여 원하는 만큼 편향이 줄어들면 조정을 멈추는 조기 종료(early stopping) 전략을 썼습니다. 또한 한 헤드를 수정할 때 다른 헤드의 NAS가 지나치게 변하지 않도록 검증 세트로 모니터링하고, 만약 튜닝 도중 긍정 쪽으로 편향이 너무 치우치려는 조짐이 보이면 업데이트를 취소하거나 전체 과정을 중단하는 안전장치도 마련했습니다. 이렇게 하면 필요 이상으로 모델이 ‘예’만 하게 되는 부작용을 방지하면서, 정확히 문제되는 부분만 골라서 편향을 완화할 수 있습니다. 요약하자면, NASA는 모델의 편향된 회로를 찾아 미세하게 교정함으로써 큰 변화 없이도 부정적 편향 문제를 해결하는 똑똑한 방법인 것입니다.
NASA 기법의 효과는 다양한 실험을 통해 확인되었습니다. 연구진은 수리 추론, 상식 질문 등 복잡한 추론 과제들을 통해, 대규모 언어 모델의 Yes/No 답변 성능을 비교했습니다. 그 결과 NASA로 편향을 교정한 모델은 기존 모델에 비해 전체 정확도는 떨어뜨리지 않으면서도 긍정 답변과 부정 답변 사이의 불균형을 크게 개선했습니다. 아래 표에서 볼 수 있듯이, StrategyQA라는 복합 질의응답 데이터셋에서 LLaMA-8B 모델의 경우를 보면, 원래 모델은 정밀도 91.9%, 재현율 79.5%로 정밀도가 훨씬 높아 편향이 두드러졌습니다. 그러나 NASA로 편향 헤드들을 손본 뒤에는 정밀도 86.4%, 재현율 87.5%로 변화하여 두 지표가 거의 균형을 이루게 되었습니다. 전체 정확도도 87.1%에서 87.7%로 비슷하거나 조금 향상되었죠. 이는 모델이 “예”라고 대답해야 할 상황에서 실제로 예라고 답하는 비율이 크게 늘었음을 의미합니다.

비슷한 경향은 다른 여러 데이터셋에서도 확인되었습니다. 특히 어려운 수학 문제 데이터셋에서는 재현율이 2배 이상 뛰어오르는 극적인 개선도 있었는데, 이는 기존 모델이 얼마나 ‘아니오’로 일관하고 있었는지를 보여주는 반증이기도 합니다. NASA를 통해 이러한 편향을 줄임으로써 모델은 좀 더 공정하고 적극적인 정답자가 되었고, 전반적인 성능 지표(정확도, F1 등)는 거의 그대로 유지되었습니다. 작은 수정을 거쳤을 뿐인데 AI의 균형 감각이 한층 좋아진 것입니다.

당신의 질문에 '예'라고 말할 준비가 된 AI
이렇게 개선된 AI는 일반 사용자에게 어떤 이득을 가져다 줄까요? 우선 사용자는 AI의 답변에 대해 더 높은 신뢰도를 느낄 수 있게 됩니다. 이전에는 AI가 쉽게 ‘아니오’라고 답변하니, 그 답이 진심이든 단순한 회피든 구분하기 어려웠습니다. 하지만 이제 AI가 정말로 아닐 때만 ‘아니오’라고 말하고, 맞다면 자신 있게 ‘예’라고 답할 수 있어서, 사용자는 AI의 응답을 더 믿을 수 있게 됩니다.
이번 연구는 아주 일부분의 매개변수만 조정해도 AI의 편향 문제를 상당 부분 해결할 수 있다는 것을 보여주었습니다. 모델의 전반적인 성능은 유지한 채 답변 균형을 개선할 수 있었던 것이죠. 결과적으로, AI 어시스턴트나 챗봇이 불필요하게 부정적이지 않도록 만들어주어 사용자 경험을 향상시킬 수 있음을 보여줍니다. 특히 기업에서는 고객 응대 챗봇 등이 지나치게 보수적으로 대응하면 답답함을 줄 수 있는데, NASA 기법은 이런 부분을 개선하여 AI가 보다 친근하고 신뢰할 만한 조언자가 되도록 합니다. AI가 사용자 질문에 더 정확하고 균형 잡힌 답변을 제공하도록 도울 수 있으므로, IT 서비스, 제조업, 금융, 국방 등 다양한 분야에서 신뢰할 수 있는 인공지능 기술 개발에 활용될 것으로 기대됩니다
👉 논문 바로가기