Cheapfake(Shallowfake)란 무엇일까요?

2022-05-03 소셜크리에이터 유효선 프로

지난 시간 인공지능(Artificial Intelligence, AI)을 기반으로 이미지, 비디오와 같은 미디어를 합성, 생성하는 딥페이크(Deepfake)에 대해 알아봤습니다. 그렇다면 딥페이크 기술이 나오기 이전에는 미디어 위·변조는 어땠을까요?

인공지능을 이용하기 이전에는 비디오를 편집해 의도적으로 내용을 왜곡시키는 영상을 만들거나, 옳지 못한 목적으로 합성 이미지를 생성하고, 비디오나 이미지 에디터 프로그램을 이용하는 위·변조가 주를 이루었습니다. 시간을 거슬러 올라가면 타인 필체를 흉내 내 계약서에 위조 서명을 하거나, 흑백 증명사진에 잉크로 콧수염을 그려 넣는 등 수작업이 주를 이루었는데요. 최근 디지털 위·변조 방식이 자리 잡으면서 전문 프로그램으로 수정하는 수준까지 이르렀습니다.

최근에는 이러한 방식의 위·변조는 짧은 시간과 적은 노력으로 만들어낼 수 있다는 의미로 칩페이크(Cheapfake)라고 일컫거나, 딥페이크(Deepfake)와 대조된다는 의미로 쉘로우페이크(Shallowfake)라고 불립니다.

그림 1. 이미지를 합성, 비디오 편집, 내용 조작 등 미디어 대상의 칩페이크 예시
좌측) MCM 영화사 로고에 등장하는 ‘정면을 보며 울부짖는 사자’가 이렇게 촬영된 것처럼 조작
중간) 낸시 펠로시 미국 하원의장 인터뷰를 느리게 재생, 술에 취하거나 병약한 것처럼 왜곡
우측) 오바마 미 대통령이 국립보건원 메릴랜드 연구소에서 에볼라 백신 설명을 듣는 모습 (’14)
이를 ‘중국 우한 연구소를 방문해서 박쥐 프로젝트 설명을 듣는 모습 (‘20) 으로 조작
출처: MMSys’21 Grand Challenge on Detecting Cheapfakes, https://arxiv.org/pdf/2107.05297.pdf

온·오프라인 경계가 불분명해지고 생활에 비대면 업무가 깊게 스며들면서 각종 상거래는 물론 다양한 형태의 의사소통이 온라인으로 이루어지고 있습니다. 특히 개인 정보가 담긴 문서나 계약서 같은 중요 서류부터 친구들과 공유하는 일상 사진까지, 다양한 형태의 각종 파일이 인터넷을 통해 전송되고 있는 상황이죠. 이렇게 온라인에서 오가는 수많은 형태의 미디어가 우리에게 미치는 영향력이 점점 커지면서, 위·변조 즉 조작된 미디어가 아님을 탐지하는 기술력도 더욱 중요해지고 있습니다.

칩페이크 미디어 탐지 기술은 넓은 분야에서 다양한 방법과 목적으로 활발하게 연구가 진행되고 있는데요. 이 중 팀나인에서 수행한 실제 사례를 소개해 보겠습니다.

Cheapfake, 고객사 이슈를 이해하고 문제를 정의하다

칩페이크 미디어는 그 종류와 형태가 다양해서, 탐지 목적에 따라 대상과 형태 등 범위를 명확히 정의하고, 이에 적합한 기술을 이용해야 합니다. 팀나인이 고객사로부터 탐지를 요청받은 칩페이크 미디어는 출력장치를 이용해 원본 이미지를 출력한 후, 이를 재촬영 한 이미지였습니다. (편의를 위해 이를 사본 이미지라 칭할게요.)

그림 2. 팀나인이 풀어야 했던 칩페이크 미디어 탐지 문제

우선 문제를 정의하기 위해 탐지해야 하는 이미지들을 분석했는데요. 촬영된 이미지 전체를 볼 때는 큰 차이가 보이지 않았으나, 이를 확대해 보니 그 차이점을 확인할 수 있었습니다. 아래 [그림 3]은 원본과 사본 이미지를 확대한 일부인데요, 각 이미지 별 차이점이 보이시나요?

그림 3. 사물 그대로를 촬영한 원본 이미지(좌)와 원본 이미지를 종이, 스크린으로 각각 출력한 후
재 촬영한 사본 이미지 (중앙, 우) 일부 확대 시 구분되는 특징

각 이미지 별 특징으로 삼을 수 있는 패턴들이 존재한다는 것을 확인할 수 있었는데요. 이렇게 육안으로 구분 가능한 문제를 인공지능을 통해 해결하고자 이미지에 포함된 패턴과 특징을 추출했습니다.

팀나인에서는 이를 원본 이미지와 사본 이미지를 분류하는 이미지 분류(Image Classification) 문제로 정의했습니다. 그리고, 이미지 분류에 적합한 합성곱신경망(Convolutional Neural Network, CNN)을 사용하여 해결해 보기로 방향을 잡았습니다. CNN은 딥러닝 신경망 아키텍처 중 하나로, 이미지와 비디오에서 특정 객체 탐색이나 패턴 검출 등을 이미지 분석에 유용하여 컴퓨터 비전 응용 분야에서 많이 사용되는 알고리즘입니다.

그림 4. 이미지 분류를 위한 CNN의 예시
출처: Laith Alzubaidi, Review of deep learning: concepts, CNN architectures, challenges, applications, future directions, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00444-8

인식된 문제 해결을 위한 노력: 가설 제시, 실패와 거듭된 수정

팀나인은 CNN을 통해 원본 이미지와 사본 이미지를 각각 수천여 장씩 직접 촬영해서 학습 이미지 세트 (Train Dataset)를 준비하고 학습해 CNN 기반 탐지 모델을 만들었습니다.

그림 5. 이미지 학습 및 CNN 기반 탐지 모델 생성

다만 이러한 과정을 거쳐 생성한 초기 모델은 정확도가 그리 높지 않았습니다. 이미지 전체에 초점을 맞춰 학습을 진행시키니 [그림 3]에서 확인했던 이미지의 작은 특징들이 제대로 학습되지 않았기 때문입니다. 즉 모델에 이미지를 학습 시킬 때, 피사체 내 작은 특징들에도 주목하여 학습하도록 유도할 필요가 있었습니다.

이를 해결하기 위해 팀나인에서는 작은 형태의 특징까지 잡아내고자, 기존 학습 이미지의 일부분을 확대시켜 학습이미지세트를 추가 구성하였습니다.

그림 6. 학습 이미지 및 모델 구조를 변경한 후 탐지모델 재생성

또한 추가된 학습 이미지 세트를 의도대로 학습할 수 있도록 모델 구조도 이에 맞춰 변경했습니다. 이런 시행착오 과정을 거쳐 탐지 모델의 정확도는 목표치 이상으로 향상되었고, 고객사가 요구한 문제를 해결할 수 있었습니다.

지금까지 칩페이크 미디어를 검출하기 위한 문제해결 방법 중 하나를 설명드렸습니다. 칩페이크 미디어는 여러 분야에 걸쳐 수많은 형태로 발생하고 있는데요. 그만큼 칩페이크를 탐지하기 위한 접근 방식이나 기술도 다양하게 발전하고 있고, 팀나인도 지속적으로 위·변조에 대응하는 기술을 개발하고 개선하기 위해 노력 중입니다.

다음 시간에는 위·변조 이미지 사전 차단 기술에 대해 자세히 알아보겠습니다.

*본 연재 내용은 작성일 기준 공개된 객관적 연구 결과와 사실에 근거하여 작성되었지만, 회사의 방향과 다를 수 있음을 알려 드립니다.

+ AI를 활용한 멀티미디어 위변조에 대응하는 삼성SDS 사내벤처 팀나인
+ 누가 진짜일까? 딥페이크 생성과 탐지

이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.