데이터 프라이버시 보호 – 선택이 아닌 필수

2019-05-27 윤효진

작년 이맘때 GDPR의 실효를 목전에 두고 “GDPR과 PSD2를 통해 바라본 개인정보보호를 위한 데이터분석 방법”이라는 제목의 기고문을 한 차례 작성하였습니다.
(https://www.samsungsds.com/kr/insights/GDPR_data_analytics.html)
이전 기고에서는 GDPR과 PSD2의 주요 시사점을 소개하고 기존의 비식별화 기술들에 대한 소개 및 동형암호(Homomorphic Encryption) 기술에 대한 소개를 간단히 하였습니다.

암호 기반의 프라이버시 보호 기술

GDPR이 발효된 지 1년, 예상보다 우리가 피부로 절감하는 파급효과는 크지 않아 보입니다. 그러나 GDPR의 영향은 Facebook, Google 등이 GDPR 발효 이후 소송을 당했다는 것은 “남의 나라” 이야기에 그치지 않고, 이를 시작으로 세계 법/제도, 데이터 사업, 보안 시장에 더욱 큰 파장을 불러 일으키고 있습니다. 국내의 경우 현재 개인정보보호법, 신용정보법, 정보통신망법 등 프라이버시와 관련된 3개 법령의 개정안이 국회에 상정되어 있으며 이를 통해 개인정보의 보호와 활용을 동시에 제공할 수 있도록 추진 중입니다. 또한 데이터의 가치가 더욱 중요해짐에 따라 기준이 없이 무분별하게 사용되던 개인정보에 대한 보호와 자기 데이터에 대한 권리 주장이 강화되어 이를 지원할 수 있는 기술에 대한 시장에서의 요구사항이 넘치고 있습니다.

본 기고에서는 Google, IBM, Microsoft, Cisco, Ant Financial 등 글로벌 기업과 수많은 스타트업들이 금융, 의료, 마케팅 등의 분야에서 적극적으로 도입하고 있는 암호 기반 프라이버시 기술들에 대해 간략히 소개하여 자사, 고객 혹은 개인의 프라이버시를 보호할 수 있도록 지원하고자 합니다. Welcome to Crypto World!

최근까지 암호 기반의 프라이버시 보호 기술은 대부분 10년에서 20년 이상 이론적으로만 연구가 지속되어 왔습니다. 이전에는 암호 기술의 상업적 활용은 대부분 데이터 암호화, 전자서명, 안전한 암호 프로토콜 등에 한정적이었습니다. 개인의 프라이버시(Privacy) 보호보다는 기업의 보안(Security)에 중점을 두었기 때문이었습니다. 소위 4차 산업혁명 시대, 5G 시대, Data Driven Technology가 주도하는 시대에 살고 있는 지금, 10년 이상 이론으로만 존재해왔던 익명화(Anonymization) 관련 기술이 각광을 받고 있습니다. 대표적인 기술로는 지난 기고문에서도 간단히 소개한 바 있는 동형암호(Homomorphic Encryption) 기술, 블록체인과 함께 떠오르는 대세가 된 영지식 증명(Zero Knowledge Proof), 동형암호와 상호보완적이면서도 사업적으로 경쟁의 대상이 되는 다자간 계산(Multiparty Computation) 그리고 프라이버시 수준을 수치화할 수 있는 차등 정보보호(Differential Privacy) 등이 있습니다. 물론 제대로 보려면 각각의 기술에 최대 20년 노하우를 녹여야 하지만 지면의 제약으로 지금부터 4개의 기술에 대한 정의와 특징을 가볍게 알아보도록 하겠습니다.

동형암호(Homomorphic Encryption)

동형(同型) 암호란 데이터를 암호화한 채로 연산이 가능하도록 지원하는 암호 기술입니다. 기존에도 RSA, Paillier와 같이 부분적으로 암호화된 연산을 보존하는 암호 알고리즘들이 존재했지만, 최근 주목을 끌고 있는 동형암호 기술은 덧셈과 곱셈을 모두 보존하는 “완전 동형암호(Fully Homomorphic Encryption)”입니다.

완전동형암호는 암호화된 상태에서 덧셈과 곱셈을 보존하는 암호 알고리즘입니다.

그림 1. 완전동형암호는 암호화된 상태에서 덧셈과 곱셈을 보존

완전 동형암호가 주목을 끄는 이유는 단순히 보존하는 연산의 수가 늘었다는 측면이 아니라 두 연산을 모두 보존함으로써 테일러 근사 다항식 등을 활용하여 임의의 연산을 모두 암호화된 채로 지원할 수 있다는 데 있습니다. 즉, 완전 동형암호의 등장으로 머신러닝, 딥러닝 등 데이터 분석을 동형암호화된 채 수행할 수 있게 된 것입니다.
동형암호는 공개키 암호기술 중 하나로 기존 RSA 등의 공개키 암호 기술에 비해 단일 데이터 암호화 속도는 약간 느린 수준이나, 몇몇 동형암호의 경우 1,000개 이상의 데이터를 동시에 병렬적으로 암호화할 수 있어 많은 양의 데이터를 한꺼번에 암호화하는 경우 최종적으로 기존 공개키 암호보다 수백배 빠른 성능을 제공할 수 있습니다. 그러나 실제로 동형암호가 적용되는 환경을 고려하면 암호화 성능보다는 암호화된 상태에서의 연산처리 성능이 더 중요합니다. 2009년 Craig Gentry에 완전 동형암호 구체화가 최초 제안된 이후 그 성능은 혁신적으로 개선되어, 최근 2년 사이에도 1,000배의 성능 개선이 이루어졌습니다. 여전히 암호화된 상태의 데이터 분석은 평문 데이터 분석에 비해 수백 배 이상 느린 상황이나 GPU 활용, 병렬처리를 넘어서 하드웨어 칩 구현까지 다양한 고속화 연구도 병행 진행되고 있어 앞으로 활용도가 더 높아질 것으로 보입니다.

영지식 증명(Zero-Knowledge Proof)

영지식 증명이란 Prover가 자신의 비밀에 대한 정보를 하나도 유출시키지 않고 해당 비밀을 소유하고 있다는 것을 verifier에게 증명할 수 있도록 지원하는 기술입니다.

영지식 증명 직관적 예제, 왼쪽 숫자열 중 하나의 소문자 l을 빨리 찾는 게임을 생각해봅시다. A가 먼저 찾아서 B에게 찾을 곳을 알려주면 B는 자신도 이미 알고 있었다고 주장할 수 있습니다. 어떻게 하면 l의 구체적인 위치는 알려주지 않고 l을 찾았다는 사실만 확인시킬 수 있을까요? 정답은 그림 2의 오른쪽 그림과 같이 가로, 세로 2배의 큰 종이를 준비해 가운데 구멍을 뚫어 문제의 숫자열을 덮어 l을 보여주는 것입니다. 이로부터 비밀정보 (l의 위치)는 유출없이 비밀을 소유하고 있다는 것 (l의 발견)을 증명할 수 있게 됩니다.

그림 2. 영지식 증명 직관적 예제

직관적인 설명을 위해, 그림 2의 왼쪽 숫자열 중 하나의 소문자 l을 빨리 찾는 게임을 생각해봅시다. A가 먼저 찾아서 B에게 찾을 곳을 알려주면 B는 자신도 이미 알고 있었다고 주장할 수 있습니다. 어떻게 하면 l의 구체적인 위치는 알려주지 않고 l을 찾았다는 사실만 확인시킬 수 있을까요? 정답은 그림 2의 오른쪽 그림과 같이 가로, 세로 2배의 큰 종이를 준비해 가운데 구멍을 뚫어 문제의 숫자열을 덮어 l을 보여주는 것입니다. 이로부터 비밀정보 (l의 위치)는 유출없이 비밀을 소유하고 있다는 것 (l의 발견)을 증명할 수 있게 됩니다.
영지식 증명은 1982년 Goldwasser 등이 최초 제안한 후 서명 등 다양한 형태로 진화, 발전하여 최근 블록체인과 함께 더욱 각광을 받고 있습니다. 특히, Zerocash에 적용된 zk-SNARK의 발전으로 영지식 증명은 업계에서도 다시 한번 주목을 받고 있습니다. zk-SNARK이란 Zero-Knowledge Succinct Non-Interactive Argument of Knowledge의 줄임말로 다음의 특징을 가집니다.

영지식 증명 zk-SNARK 특징,
특징 Zero-Knowlegde : verifier는 참/거짓이외에는 어떠한 정보도 얻을수 없다.
특징 Succinct : 실제 증명하고자 하는 연산대비 proof 크기가 매우 작고 검증 시간이 짧다.
특징 Non-interactive : Prover에서 verifier로 단 한번의 메시지 전송만으로 증명이 가능하다.
특징 Argument : Compulational Soundness를 보장한다 . 제한된 계산 능력을 가진 prover를 가정한다.
특징 Knowledge : Porver가 증명하고자 하는 정보로 이를 알아야 Prover가 증명을 생성할 수 있다.

그림 3. zk-SNARK

zk-SNARK 이외에도 다양한 영지식 증명 기술들이 블록체인과의 결합 또는 익명 인증을 위해 해외 글로벌 기업에 적용되거나 많은 스타트업들이 사업화를 진행하고 있습니다.

다자간 계산(Secure Multiparty Computation)

다자간 계산이란 다수의 참가자가 각자의 입력값은 숨긴 채 공동의 목표인 연산 결과를 모두 확보할 수 있는 기술입니다. 예를 들어, 어떤 모임에서 각자의 연봉은 밝히지 않고 해당 모임 참석자들의 연봉평균을 구하고자 하는 경우 다자간 계산을 사용할 수 있습니다. 기본적으로 다자간 계산은 Interactive Protocol로 구성되며 계산이 끝날 때까지 모든 참여자가 Online 상태를 유지하는 것을 가정하고 있습니다. 부분 동형암호(합과 곱 중 한 연산만 유지) 또는 완전 동형암호를 다자간 계산 시 자신의 데이터를 숨기고 원하는 계산을 수행하는 하나의 원천기술로 활용하거나 직접 원하는 연산을 Circuit 단계로 구현하여 수행하기도 합니다. 동형암호에 비해 제약조건이 많이 있어 과도기적인 기술이라는 의견도 있으나, 성능 부분에서 장점이 있어 다양한 use case에서 현재 활용 중입니다.

차등 정보보호(Differential Privacy)

어떤 데이터베이스 D에 쿼리 Q를 한다고 가정해봅시다. 이때, A라는 개인의 데이터가 D에 포함되었을 때와 포함되지 않았을 때 해당 쿼리에 대한 응답 R이 확연히 차이가 나는 경우, A의 프라이버시(개인정보)가 노출될 수 있습니다. 예를 들어, 연봉정보가 저장된 데이터베이스 D에 연봉평균을 질의했을 때, 아무런 프라이버시 보호 조치가 취해지지 않는다면, A가 포함된 경우와 포함되지 않은 경우 결과값 차이로부터 A의 정확한 연봉을 계산할 수 있게 됩니다. 차등정보보호는 이러한 경우 A의 연봉을 계산할 수 없도록 지원하는 프라이버시 보호 기술로 쿼리 Q에 대한 응답 R에 적절한 분포의 Noise를 섞어주게 됩니다.

차등정보보에 대한 설명
A라는 개인의 데이터가 D에 포함되었을 때와 포함되지 않았을 때 해당 쿼리에 대한 응답 R이 확연히 차이가 나는 경우,
A의 프라이버시(개인정보)가 노출될 수 있습니다.

그림 4. 차등정보보호

이는 2006년 마이크로소프트의 Dwork 등에 의해 구체화된 기술로 해당 기술을 적용했을 때 데이터 처리 결과는 얼마나 훼손되는지(오차 반경), 프라이버시는 얼마나 보호할 수 있는지를 수치화해서 Measuring 할 수 있다는 점에서 큰 이점이 있습니다. 최근 Google의 Chrome 브라우저와 애플의 iPhone, iCloud 및 Uber 등에서 자사의 프라이버시 보호 수준에 대한 홍보의 목적과 함께 차등 정보보호 사용을 공표하며 많은 관심을 끌고 있습니다.

삼성SDS는 암호기반의 프라이버시 보호 기술을 기반으로 클라우드에서, 분석 서비스에서, Data Monetization 시에도 고객의 데이터 프라이버시를 보호합니다.

Reference
https://www.samsungsds.com/kr/insights/GDPR_data_analytics.html
ISO/IEC 20889:2018, Privacy enhancing data de-identification terminology and classification of techniqueshttps://www.iso.org/standard/69373.html

▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에 저작권이 있습니다.
▶ 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

윤효진 보안 전문가

삼성SDS 보안알고리즘팀

삼성SDS 보안알고리즘팀 팀장으로서, 수학 및 암호학 이론과 보안 관련 업무 경험을 바탕으로, 신규 암호기술 및 프라이버시 보호 기술 연구와 보안 아키텍팅, 암호/보안 관련 신규사업 발굴을 추진하고 있습니다.