4차산업혁명 보안② - 보안 위협의 대응 방안 ' 인공지능 기반 백신'

2017-12-21 안호근

지난 시간에는 최근 악성코드의 위협 현황과 기존 사전차단 체계의 문제점에 대해 알아보았습니다. 이번 시간에는 기존 시그니처 백신의 취약성에 대한 실험 결과와 시그니처 백신의 대안으로 급부상하고 있는 인공지능 기반 백신에 대해 살펴보겠습니다.

1. 시그니처 백신, 얼마나 취약한가?

시그니처 백신의 탐지율
신종/변종 악성코드에 대한 시그니처 백신의 탐지율이 저조하다는 점은 많이 알려져 있지만 얼마나 저조한가에 대한 데이터 상의 수치는 찾아보기 힘듭니다. 그래서 최근 삼성SDS는 시그니처 백신의 문제점을 좀 더 정확하게 알아보기 위해 3가지 테스트 (악성 실행파일 전체탐지율, 랜섬웨어 탐지율, 변종 악성코드 탐지율)를 진행했습니다. 테스트에 사용된 시그니처 백신은 국내 백신 중 하나를 선정하여, 시그니처를 최신 버전으로 업데이트 한 후에 테스트를 진행하였습니다.
보통 백신을 평가할 때는 Accuracy, Precision, TPR/TNR(정탐률), FPR(과탐률), FNR(미탐률)등 여러 가지 측정 지표가 있는데 이중 가장 중요한 지표는 미탐률입니다. 미탐률은 실제 악성코드를 정상으로 잘못 판단하여 감염이 되는 비율을 말하며 미탐률이 높을수록 악성코드에 취약하다고 할 수 있습니다.

시그니처 백신 테스트 I (악성 실행파일 전체 탐지율)
2016년 1월부터 2017년 6월 동안에 국내 대기업 내부로 유입된 악성 실행파일 전체에 대한 탐지율을 측정하였습니다.
- 테스트 수행일: 2017.06.21
- 샘플 출처: 국내 대기업
- 샘플 구성: 실행파일 6만 개
- 테스트 결과: 미탐률 10.1%
측정 결과 악성 실행파일 10개 중 1개꼴로 미탐 되었습니다. 시그니처 백신이 놓친 악성코드를 실제 수동으로 분석해보니 부트섹터를 파괴하는 행위, 윈도우 서비스로 가장하여 패스워드를 훔치는 행위 등 다양한 행위를 하는 악성코드들이 발견되었습니다. 이는 매우 심각한 수준으로 반드시 경각심을 가져야 할 것입니다.

시그니처 백신 테스트 II (랜섬웨어 탐지율)
2016년 이후 유행했던 가장 대표적인 랜섬웨어에 대한 탐지율을 측정해 보았습니다.
- 테스트 수행일: 2017.10.17
- 샘플 출처: VirusTotal (2017.09월~2017. 10월 등록된 샘플)
- 샘플 구성: 랜섬웨어 45종 100개 샘플링
- 테스트 결과: 미탐률 17%
측정 결과 일반적인 악성 실행파일보다 랜섬웨어의 경우 더 높은 미탐률을 보였으며, 미탐한 샘플 중에는 세계적으로 대유행했던 Locky, Petya, DMALocker, TeslaCrypt 등의 변종들이 다수 포함되어 있었습니다.

시그니처 백신 테스트 Ⅲ (변종 악성코드 탐지율)
변종 악성코드 탐지율을 측정하기 위해서 시그니처 백신이 악성으로 탐지했던 악성코드 중 200여 개를 샘플링하여 직접 변종 악성코드로 제작했습니다. 변종 악성코드 제작은 Code Mutation 기법을 사용하였는데, ‘Code Mutation’ 기법이란 악성코드의 로직이나 기능은 그대로 유지하면서 내부 코드를 뒤섞어 변종을 만들어내는 기법으로 해커들이 보통 시그니처 백신을 우회하기 위해 많이 사용합니다. 더구나 이 Code Mutation을 자동으로 해주는 툴들은 인터넷상에서 쉽게 구할 수 있어 누구나 변종을 만들어 낼 수 있습니다.
- 테스트 수행일: 2017.06.22
- 샘플 구성: 시그니처 백신이 악성으로 탐지한 악성코드의 변종코드 200여 개
- 테스트 결과: 미탐률 93.8%
측정 결과 무려 93.8%를 미탐했다는 충격적인 결과가 나왔습니다. 이 결과야말로 시그니처 백신의 문제점을 가장 극명하게 보여주는 사례라 할 수 있습니다.

2. 인공지능 기반 백신의 필요성

인공지능으로 악성코드를 잡아낼 수 있을까?
4차 산업혁명의 핵심 기술로 가장 주목받는 것은 바로 머신 러닝입니다.
간혹 혹자는 인공지능 기반의 악성코드 탐지에 대해서 이렇게 묻곤 합니다. “머신 러닝이 요즘 뜨는 기술이니까 마케팅용으로 억지로 갖다 붙인 거 아닌가요?” 장담하건대 절대 그렇지 않습니다. 기존에 알고 있는 악성코드의 특성을 학습하고 이 학습 데이터를 기반으로 새로운 유형의 악성코드를 판별해내는 분야야말로 머신 러닝 알고리즘을 적용시킬 수 있는 가장 적합한 분야 중 하나라고 많은 전문가들은 말합니다.
보통 실행파일은 약 300만 개 정도의 특성 데이터를 추출할 수 있으며, 이 특성들을 머신 러닝 알고리즘으로 학습하면 각 특성 간의 상호 연관관계까지 모두 분석해서 초고차원의 벡터를 가진 수학적 모델을 만들 수 있습니다.

학습과정-1.정적정보 수집(파일구조 분석하여 헤더 등 정적정보 수집, 2. 학습(머신러닝 알고리즘 적용하여 학습), 3.머신러닝 모델 생성(수학적/통계적 모델) 검사과정-1.정적정보 수집(파일구조 분석하여 헤더 등 정적정보 수집), 2. 판별변수 매칭(수집된 정적정보에서 악성의심 특성 매칭), 3. 악성코드 판별(머신러닝 알고리즘 적용하여 학습)

이러한 모델을 통해 분석을 하면 사람이 수동으로 분석할 때 직관적으로 파악하지 못했던 특성 간의 무수한 상관관계까지 모두 파악할 수 있게 되며, 악성코드 분석 전문가조차 알지 못했던 새로운 악성코드 탐지 방법에 대해서도 스스로 터득을 할 수 있습니다.

인공지능 기반 백신의 장점
인공지능 기반 백신의 가장 큰 장점은 뭐니 뭐니 해도 높은 탐지율 (낮은 미탐률)입니다. 미국의 보안 제품 테스트 기관 Miercom 2016년 보고서에 따르면 시그니처 백신 평균 탐지율은 83.5%에 불과한 반면, 인공지능 기반 백신은 98%에 육박합니다. 또한 기타 휴리스틱 기반, 샌드박스 기반, 평판 기반 백신에 비해서도 인공지능 기반 백신이 가장 높은 탐지율을 기록하고 있습니다.
두 번째 장점은 빠른 학습 속도입니다. ‘빠르게 학습한다’는 의미는 새로운 유형의 악성코드에 대해서 탐지능력을 빠르게 업그레이드해 나간다는 것이며, 쉽게 말해 상대가 강해지면 자신도 빠르게 강해진다는 뜻입니다. 참고로 얼마 전 필자는 오래된 노트북으로 악성코드 20만 개를 학습시켜 본 적이 있었는데 불과 10시간 정도밖에 소요되지 않았습니다. 만약 20만 개를 사람이 수동으로 분석했다면 얼마나 많은 인력과 시간이 소모되었을지 상상조차 되지 않습니다.

인공지능 기반 백신의 탐지율
삼성SDS는 미국의 대표적인 인공지능 기반 백신을 선정하여, 위에서 설명한 시그니처 백신과 마찬가지로 3가지의 테스트를 동일하게 진행했으며 결과는 아래와 같습니다.

- 인공지능 백신 테스트 I (악성실행파일 전체탐지율) 결과: 미탐율 1.1%
- 인공지능 백신 테스트 II (랜섬웨어 탐지율) 결과: 미탐률 0%
- 인공지능 백신 테스트 Ⅲ (변종 악성코드 탐지율) 결과: 미탐률 0%
악성 실행파일 전체에 대해서 시그니처 백신 대비 월등히 뛰어난 탐지율을 나타내고 있으며 특히 랜섬웨어 및 변종 악성코드에 대해서는 테스트 케이스에 포함된 악성코드를 모두 탐지하였습니다.

또한 시그니처 백신과 인공지능 기반 백신을 비교한 표를 확인해보면 시그니처 백신과 인공지능 기반 백신을 결합하여 사용할 경우 악성 실행파일 전체에 대한 미탐률이 가장 낮았으며 과탐률도 높아지지 않았습니다.. 즉 시그니처 백신과 인공지능 기반 백신을 조합해서 동시에 사용하면 상호 보완적으로 시너지 효과를 내면서 최상의 탐지율을 기록한다는 것입니다.

결론적으로 만약 2가지 백신 중 하나만 사용해야 한다면 당연히 인공지능 기반 백신이어야 하고, 최상의 방어체계를 원한다면 2가지 백신을 결합해서 사용하는 것이 정답이라고 할 수 있습니다.
우리는 현재 악성코드, 특히 랜섬웨어의 대규모 공습에 직면하고 있으며 이미 수많은 피해자들이 속출했습니다. 그리고 해커들은 계속해서 자동화된 툴을 사용하여 수많은 변종 악성코드들을 기계적으로 양산해 내고 있죠. 이런 상황에서 악성코드를 수동으로 분석하여 대응하는 시그니처 백신만을 고수한다면 이미 진 싸움이나 다름없습니다. 방어하는 측면에서도 공격수처럼 기계적으로 자동화하는 방어체계를 구축해야 소중한 데이터들을 안전하게 보호할 수 있습니다. 급변하는 악성코드 공격 트렌드에 발 빠르게 대응하지 못한 채 전통적인 방어체계만을 고수한다면 결국 속수무책으로 당할 수밖에 없다는 사실을 꼭 유념하시기 바랍니다.

▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에 저작권이 있습니다.
▶ 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

보안연재