GDPR과 PSD2를 통해 바라본 개인정보보호를 위한 데이터분석 방법

2018-05-09 윤효진

GDPR (General Data Protection Regulation)

EU시민들의 데이터 프라이버시를 보호하고자 4년의 준비기간을 거쳐 2016년 4월 14일 EU 의회의 승인을 받은 GDPR이 오는 5월 25일 드디어 실효를 앞두고 있습니다.

유럽뿐 아니라 전 세계가 주목하고 있는 GDPR의 핵심 변화부분은 적용 범위 및 대상이 확대되었다는 점입니다. GDPR은 기업의 물리적 위치나 데이터 처리/가공이 이루어지는 장소, 이윤 추구의 유무, 사업의 대상 등과 무관하게 그들이 다루고 관리하는 데이터의 소스 자체를 규정 적용의 기준으로 삼아 기존의 애매모호하고 적용이 제한적이었던 한계를 넘어섰습니다.

즉, 해당 기업이 유럽에 위치해있든, 아시아나 아메리카에 있든. 실제로 데이터 처리/가공이 아프리카나 오세아니아에서 이루어지든, 또는 EU에서 사업을 하지 않는 경우라도, 그들이 EU 시민의 개인정보를 처리하는 경우 모두 GDPR적용의 대상이 됩니다. 또한 기존 대비 식별자 (Identifier)의 범위를 대폭 확장하여 이름, ID, 이메일 주소, 사진을 비롯한 IP 주소, 쿠키, RFID, GPS 정보 등 온라인 식별자도 직접 예시를 통해 개인정보에 포함하고 있습니다.
GDPR은 더 이상 가이드라인 수준이 아니라 명확하며 강제적인 법 규정으로 이를 위반할 경우 전년도 전 세계 매출의 최대 4% 또는 2천만유로 중 큰 금액의 벌금이 부과될 수 있습니다.

GDPR의 이러한 조치는 데이터가 최고의 가치로 인정받는 4차 산업혁명 시대에 데이터의 활용을 규제하기 위한 것일까요? 여기서 우리는 최근 (2018년 1월13일) 실효화된 EU의 또 다른 조치에 주목할 필요가 있습니다. 바로 PSD2 (Revised Payment Service Directive) 입니다. PSD2의 목적은 더 안전한 온라인 결제와 온라인 및 모바일 페이먼트 시장 활성화 및 통합에 있습니다. 특히 모두가 주목하는 핵심적인 변화는 EU내의 모든 은행들은 페이먼트 관련하여 Open API를 제공해야 한다는 점입니다. 즉, 기존 은행이 독점해왔던 모든 금융관련 데이터를 비 은행 기업 (소위 핀테크 기업)들이 접근할 수 있고, 다룰 수 있게 된다는 뜻입니다. 결국 PSD2는 핀테크 산업, 보안관련 산업 및 모인 데이터를 활용하여 가치를 창출하기 위한 분석 관련 산업을 활성화시키는 역할을 수행하고 있습니다.

GDPR과 PSD2, 서로 상충되는 것처럼 보이는 두 조치는 분명한 방향성을 보이고 있습니다. 바로 데이터 중심의 사회에서 분석과 프라이버시의 결합을 통해 새로운 시장을 형성하고 디지털 생태계의 신뢰도를 높여 결국 산업을 활성화시키는 것입니다.

EU (Article 29 Working Group)에서는 GDPR과 관련된 가이드라인, 옵션 등 구체적인 실행 지침에 대한 작업을 지속적으로 진행 중에 있으며 대부분의 나라와 기업들은 각종 가이드라인 및 안내서를 발간하고 있습니다. 우리나라도 행정안전부 주관으로 한국인터넷진흥원에서 2017년 12월 “우리기업을 위한 GDPR 1차 가이드라인”를 발간하는 한편 지속적인 세미나와 공청회, EU 동향 파악 등을 지원하여 기업의 이해를 돕고 있습니다.

비식별화 (De-Identification) 또는 익명화 (Anonymization) 기술

GDPR은 Data Protection by Design and Default를 통해 IT 개발/유지/관리 전 과정이 프라이버시 보호에 적합하도록 명시하고 있으며 특히 기술적 보안을 강조하여 개인정보처리에 있어 최고수준의 (State of Art) 기술을 적용할 것을 강력히 권장하고 있습니다. 세계적으로 개인정보 처리에 대한 기업의 책임성이 강화되고 있는 환경에서 개인정보 암호화를 비롯한 다양한 개인정보보호 기술 적용은 기업에 선택이 아닌 필수가 되고 있습니다. 이에 데이터 프라이버시를 만족하기 위해 Google, IBM, MS 등 대기업부터 스타트업, 벤처기업까지 비식별화 또는 익명화 기술을 자사 솔루션에 적용 또는 기술기반 사업을 진행하고 있습니다.

데이터 프라이버시 보호를 위한 방안은 정보보호, 암호, 통계처리 등 다양한 기술을 기반으로 연구되고 있습니다. EU에서는 2014년 Article 29 Working Group 에서는 WP216을 채택하여 익명화 기술에 대한 분석을 수행하였으며, 우리나라에서는 2017년 국무조정실, 행정자치부 등 총 6개 관계 부처를 중심으로 개인정보 비식별 조치 가이드라인을 발표하여 빅데이터 활용 시 개인정보보호를 위한 기술과 평가 방법에 대해 소개하였습니다. 또한 현재 국제 표준화기구인 ISO에서는 ISO/IEC 20889를 통해 프라이버시 보호를 위해 개인정보 분류 기준을 명확히 하고 이를 보호하기 위한 비식별화 기술들을 정의하여 국제 산업 표준화를 진행하고 있습니다.

각 문서마다 비식별화 또는 익명화 기술 분류와 대상 그리고 평가 기준이 조금씩 상이하나 프라이버시 보호 또는 평가 기술 중 대표적인 것들은 데이터 삭제 (Data Reduction), 총계처리 (Aggregation), Differential Privacy, 가명화 (Pseudonymization), 암호화 (Encryption, 가명화의 일종으로 분류되기도 함), Differential Privacy, K-익명화 관련 기술 (K-anonymity, L-diversity, T-Closeness, 평가 기술로 분류되기도 함) 등이 있습니다.

데이터 삭제(Data Reduction)

일반적으로 가장 쉽게 적용할 수 있는 방법으로 식별자 중 일부 또는 식별자 전체를 삭제하여 비식별화된 데이터를 만드는 방법입니다. 가장 간단하게 적용할 수 있어 현재 대부분의 데이터 분석이 식별자가 제거된 데이터를 기반으로 이루어지고 있습니다. 그러나 식별자 제거를 통한 개인정보 보호 기술은 지속적인 재식별화 (re-identification) 위험에 노출되어 있습니다. 특히 개인의 데이터가 다양한 목적으로 다양한 서비스에 제공되고 활용되고 있어 재식별화의 위험성은 2006년 Netflix 사고 사례 (Netflix 사가 공개한 비식별화된 시청 이력을 IMDb (Internet Movie Database) 사의 공개 사용자 리뷰와 결합하여 재식별화 한 사례) 당시와 비교해서 훨씬 더 높아지고 있어 단순 삭제 방법으로는 더 이상 데이터 프라이버시를 제공할 수 없게 되었습니다.

총계처리(Aggregation)

개인정보에 대하여 대상 전체 또는 부분 데이터를 합이나 평균 등으로 처리한 값만 공개하는 것으로 분석 대상의 통계적 성질을 파악할 수 있으나 개인화된 서비스와 수준 높은 분석에는 한계가 있는 기술입니다.

차분프라이버시(Differential Privacy)

데이터에 확률적 변형을 주어 식별 가능성을 제한하는 방식으로, 개인이 포함되었을 때 특정 결과가 도출될 확률과 포함되지 않았을 때의 확률을 구분할 수 없도록 노이즈를 추가하는 방식으로 구현되며 ISO20889에서는 프라이버시를 측정하는 모델로 기술되고 있습니다. 실제로 차분프라이버시 방식을 적용하면 주어진 데이터에 대한 분석 결과 (output)를 통해 유출되는 프라이버시가 수치화됩니다.

가명화(Pseudonymization)

다른 정보와의 결합 없이는 식별이 불가능한 정보로 암호화 (Encryption) 또는 해쉬함수 처리를 가명화의 대표적인 기술로 정의하거나, 식별정보가 제거된 데이터를 가명정보로 표기하기도 합니다. ISO20889에서는 비식별화 방법 중 하나로 암호화와 다른 범주로 이를 소개하고 있습니다. 단, 비식별화 방법을 위해 속성 선택, 식별정보 제거 등의 방법 뿐 아니라 암호학적 방식을 적용할 수 있다고 명시하고 있습니다.

K-익명화(K-anonymity)

공개된 정보에서 특정 속성에 해당하는 개인을 K명 이하로 특정할 수 없도록 하는 기술로 재식별 가능성을 검토하는 방법으로 ISO20889에서는 프라이버시를 측정하는 모델로 분류되어 있습니다. K-익명화를 만족하는 데이터는 프라이버시를 보호할 수는 있으나 데이터 자체의 가치가 희석되어 K가 3 이상만 되어도 개별화된 서비스에 적용하기에는 분석의 정확도가 떨어지게 됩니다.

이외에도 다양한 방법의 데이터 프라이버시 보호 또는 측정 기술이 존재합니다. 이와 같은 기술들은 단순 제거, 통계, 암호화 등 다양한 기반의 기술들로 제공하는 효과가 서로 다르므로 상기 비식별화 기술들을 복합적으로 사용하도록 여러 가이드에서 권고하고 있습니다.

동형암호 (Homomorphic Encryption)

이 중 우리는 동형암호 기술에 주목할 필요가 있습니다. 동형암호는 암호화된 상태에서 연산을 지원하는 기술입니다. 잘 알려진 RSA(padding 없는 기본형의 경우), El Gamal 등의 암호알고리즘도 일종의 동형암호 기술로 각각 곱셈과 덧셈 연산을 보존합니다. 한편 덧셈과 곱셈 모두를 보존하는 완전동형암호(Fully Homomorphic Encryption) 기술이 2009년 Gentry (IBM)에 의해 제안된 후 현재까지 활발히 연구가 진행되고 있습니다. 완전동형암호는 덧셈과 곱셈을 모두 보존하므로 테일러(Tayler) 근사 다항식을 적용하면 대부분의 함수에 대한 연산을 보존할 수 있게 되며 우리가 동형암호 기술에 주목하는 이유도 바로 여기에 있습니다.

[그림] 완전동형암호

4차 산업혁명 시대의 핵심기술인 분석과 AI, 그리고 IoT의 기반이 되는 데이터의 중요성과 가치에 모두가 주목하게 됨에 따라 데이터 프라이버시는 최근 최고의 화두가 되고 있습니다. 그러나 프라이버시를 지나치게 강조하는 현 상황은 오히려 데이터의 자산화와 가치화를 가로막는 장애물이 되고 있는 실정입니다.

완전동형암호는 데이터의 복호화나 재암호화 필요없이 암호화된 상태로 데이터 분석 및 처리를 지원하므로 데이터가 데이터 소유자(Owner) 손을 떠난 이후 전송(Data in-motion), 저장(Data in-transit), 처리(Data in-use) 전 과정에서 한 순간도 복호화되지 않아 데이터 유출의 위험성을 원천적으로 막을 수 있습니다. 즉, 완전동형암호는 신뢰할 수 없는 공개된 클라우드 상의 분석 서비스를 프라이버시 걱정 없이 가능하도록 지원하게 됩니다. 또한 co-marketing 등에서 그 가치를 충분히 예상할 수 있음에도 불구하고 기업 보안과 데이터 프라이버시 등의 문제로 제한적일 수 밖에 없는 데이터 결합(integration)을 위한 기술적인 해결책을 제공할 수 있습니다.

이러한 특징을 기반으로 개인정보보호가 중요한 의료, 금융, 마케팅뿐 아니라 기업정보보호가 중요한 제조, 물류 등 다양한 사업 영역에 적용이 가능하며, 분산 플랫폼을 지향하는 블록체인에 무결성(Integrity)뿐 아니라 사용성(Usability)을 유지하면서 동시에 기밀성(Confidentiality)까지 제공할 수 있게 됩니다.
완전동형암호 기술은 그간 암호문의 크기가 매우 크고 암호화 및 연산 처리 속도가 매우 느려지는 단점으로 인해 2011년 MIT Top10 Emerging Technology로 선정된 후 산업에 활발히 적용되지 못하고 있었습니다. 그러나 최근 비약적인 기술 발전으로 인해 MS, IBM, Google 등 선진사 뿐만아니라 많은 스타트업들이 자사 또는 고객사 요구사항에 맞춰 다양한 형태의 동형암호 기술 사업을 진행하기 시작하였습니다.
저희 보안연구팀은 데이터가 중심이 되는(data-driven) 시대에 privacy-preserving data usage를 선도하고자 다양한 프라이버시 기술 및 세계 최고의 동형암호 기술을 확보하고 연구하고 있습니다.

[주요 참고자료]

EU GDPR 및 Article 29 Working Party
ISO20889 Information technology — Security techniques — Privacy enhancing data de-identification techniques, 17. 11. 06 (draft)
우리 기업을 위한 유럽일반개인정보법 (GDPR) 1차 가이드라인 (17. 12. 06), 행정안전부, KISA
개인정보 비식별 조치 가이드라인 (16. 06. 30), 국무조정실 포함 6개 관계부처

이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

윤효진 보안 전문가

삼성SDS 보안알고리즘팀

삼성SDS 보안알고리즘팀 팀장으로서, 수학 및 암호학 이론과 보안 관련 업무 경험을 바탕으로, 신규 암호기술 및 프라이버시 보호 기술 연구와 보안 아키텍팅, 암호/보안 관련 신규사업 발굴을 추진하고 있습니다.