[Technology Toolkit 2021]
고객정보 이제 왕처럼 모셔야되는 시대,
PET가 책임지겠습니다

고객정보 이제 왕처럼 모셔야되는 시대, PET가 책임지겠습니다

Technology Toolkit 2021은 삼성SDS 연구소에서 연구개발 중인 주요 기술들을 설명하는 기술 소개서입니다.
AI, Blockchain, Cloud, Security 기술 분야의 총 7개 기술에 대해서 각각 기술 정의, 주요 기능, 차별화 포인트 및 Use Cases를 소개하여 독자 여러분께 인사이트를 제공하고자 합니다.

개인정보 보호(PET, Privacy Enhancing Technology)

향상된 프라이버시 강화 기술

문서 다운로드

1. 기술 소개

기술 동향 및 배경

데이터가 중심이 되는 세상에서 개인의 프라이버시 나아가 데이터 자체의 프라이버시 보호는 선택이 아닌 필수가 되고 있습니다. 이에 대응하고자 개인정보보호법(한국), GDPR(EU), CCPA(미국, 캘리포니아) 등 글로벌 법/규제에서 개인정보보호를 강화하는 한편, 개인정보가 보호된 환경에서 데이터 활용을 지원하는 새로운 시장이 형성되고 있습니다.

흔히 비식별화 기술(De-identification) 또는 익명화 기술(Anonymization)로 불리는 개인정보보호 기술은 식별자 제거, 일반화 등 비교적 직관적인 방식을 중심으로 적용되어 왔습니다. 하지만, 최근 규제 강화와 데이터 활용 관련 요구사항 증가에 따라 암호 기술 기반의 더 이론적이고 정량화 가능한 기술로 고급화되고 있으며 이와 관련된 국제 표준도 제시되고 있습니다.[1]

본 소개서에서는 Google, Microsoft, IBM, Intel, Ant Financial 등 글로벌 기업과 수많은 스타트업들이 금융, 의료, 마케팅 등의 분야에서 적극적으로 도입하고 있는 암호기술 기반 프라이버시 강화 기술에 대해 간략히 소개하고 기업 또는 개인 차원에서 프라이버시를 보호할 수 있도록 지원하고자 합니다. Welcome to PET World!

Data=Money , 데이터를 바탕으로 고부가가치 창출, 그러나, 개인정보 노출위협 존재
프라이버시 관련 법/규제  GDPR, 
프라이버시 보호 향 사업화 새로운 위협과 제도에 대응할 프라이버시 보호기술 기반 사업화진행
[그림 1] 프라이버시 이슈

기술 정의

PET는 기존 프라이버시 기술의 재식별 위험, 분석 가치 하락 등의 한계를 극복한 암호 기술 기반의 프라이버시 강화 기술입니다. 전통적으로 암호 기술은 개인의 프라이버시 보호보다는 기업의 보안을 목적으로 데이터 암호화, 전자서명, 안전한 암호 프로토콜 등에 적용되어 왔습니다. 하지만, 4차 산업혁명 시대, 5G 시대, Data Driven Technology가 주도하는 시대 등 변화에 따라 10년 이상 이론적으로 연구되고 있던 암호 기반 익명화(Anonymization) 관련 기술이 사업적으로 주목을 받게 되었습니다.

대표적인 기술로는 암호화된 상태에서 연산 가능한 동형암호(Homomorphic Encryption) 기술, 프라이버시 수준을 수치화할 수 있는 차등정보보호(Differential Privacy) 기술, 그리고 원본 데이터와 유사한 통계적, 확률적 특성을 가진 모조 데이터인 재현데이터(Synthetic Data) 생성 기술 등이 있습니다. 물론 이러한 기술들을 제대로 이해하려면 오랜 시간이 걸리지만, 이 글에서는 3개의 기술에 대해 정의와 특징을 가볍게 알아보겠습니다.

기존 비식별화 기술의 한계, 데이터가치 보존 개인정보 보호가 동시에 가능한 기술 필요,  주요 비식별화 기술Pseudonymization, Generalization, Randomization [그림 2] 프라이버시 강화 기술

① 동형암호(HE: Homomorphic Encryption)

동형암호는 암호화된 상태로 데이터 분석이 가능한 암호 기술입니다. 예를 들어, [그림 3]과 같이 2와 5를 각각 동형암호화한 암호문 각각은 난수로 보이며, 이들을 더하거나 곱한 후, 이를 복호화하면 7(=2+5) 또는 10(=2x5)을 얻습니다. 만일 AES 등 일반적인 암호 기술을 적용했다면 암호문의 연산 결과를 복호화했을 때 전혀 다른 값이 나오는 반면, 동형암호를 적용하면 암호문의 연산 결과가 원본 데이터의 연산 결과와 동일하게 나옵니다.

덧셈 연산 보존, 곱셈 연산 보존, 동형 암호는 덧셈/곱셈 연산을 보존하여 암호화된 데이터를 활요한 데이터 분석이 가능하도록 지원하는 차세대 암호화 기술 [그림 3] 동형암호

이러한 동형암호 기술은 사실 우리가 현재 쓰고 있는 암호 기술 중에서도 그 특성을 찾아볼 수 있습니다. 공인인증서, HTTPS 등에서 다양하게 활용하고 있는 RSA 암호 또는 국제 표준으로 지정된 Paillier 암호 등 70년대에도 곱셈 또는 덧셈 중 하나의 연산만 지원하는 부분 동형암호(Partially HE) 기술들이 있습니다.

이후 덧셈과 곱셈 모두를 보존하는 완전동형암호(Fully HE) 기술이 IBM 연구자 Gentry에 의해 2009년 제안된 후, 현재까지 활발히 연구가 진행되고 있습니다. 완전동형암호는 덧셈과 곱셈을 모두 보존하여 데이터 분석, 머신러닝 및 AI 분석에 적용될 모든 함수에 대한 연산을 보존할 수 있게 됩니다.[2]

② 차등정보보호(DP: Differential Privacy)

어떤 데이터베이스(DB)에 질의(Query)한다고 가정해 보겠습니다. 이때, A라는 개인의 데이터가 DB에 포함되었을 때와 포함되지 않았을 때 해당 질의에 대한 응답 R이 확연히 차이나는 경우, A의 프라이버시(개인정보)가 노출될 수 있습니다. 예를 들어, 연봉 정보가 저장된 DB에 연봉 평균을 질의했을 때, 아무런 프라이버시 보호 조치가 취해지지 않았다면, A가 포함된 경우와 포함되지 않은 경우 결괏값 차이로부터 A의 정확한 연봉을 계산할 수 있게 됩니다. 차등정보보호는 이러한 경우 A의 연봉을 계산할 수 없도록 지원하는 프라이버시 보호 기술로 질의 Q에 대한 응답 R에 적절한 분포의 Noise를 섞어주게 됩니다.

Query(함수 K), DB1 DB내 A정보 포함, DB2 DB내 A정보 미포함, 미세하게 다른 두자료의 분석결과 차이로 인해 발생하는 개인정보 유출의 위험성을 제거하는 기술 [그림 4] 차등정보보호

본 기술은 2006년 Microsoft 연구자 Dwork 등에 의해 구체화된 기술로 해당 기술을 적용했을 때 데이터 처리 결과는 얼마나 훼손되는지(오차 반경), 프라이버시는 얼마나 보호할 수 있는지를 수치화해서 Measuring 할 수 있다는 데 큰 이점이 있습니다. 최근 Google의 Chrome 브라우저, Apple의 iPhone, iCloud, Uber 등에서 프라이버시 보호 수준에 대한 홍보 목적과 함께 차등정보보호 사용을 공표하며 많은 관심을 끌고 있습니다.

③ 재현데이터(SD: Synthetic Data)

재현데이터는 원본 데이터 내 포함된 개인정보를 보호하면서 안전하게 분석하고 활용할 수 있도록 모조 데이터(가상의 데이터)를 생성하는 비식별화 방식입니다. 이는 Deep Fake와 같이 영상, 사진 등에 인공지능을 적용해 합성 또는 조작하여 진짜 같은 가짜 영상을 생성하는 방식과 유사합니다.

재현데이터에 대한 연구는 1981년 하버드대 통계학과 교수인 Rubin이 설문 등의 결측값을 대체하기 위해 적용한 방식에서 출발하여 현재는 완전 재현데이터(공개 데이터 전체가 모조 데이터), 부분 재현데이터(공개 데이터 내 일부 정보만 모조 데이터), 복합 재현데이터(부분 재현데이터를 이용하여 새롭게 생성된 데이터) 등으로 연구개발 되고 있습니다.

재현데이터 생성 방법으로는 전통적인 통계 방식, 기계학습모형(GAN: Generative Adversarial Networks) 적용 방식 그리고 모조 데이터의 프라이버시 확보를 위한 차등정보보호 적용 방식이 있습니다.

기계학습모형(GAN)적용방식, 실제데이터가 판별기에 들어고 모조데이터와 분별하여 대답하고 생성함, 원본데이터와 유사한 통계쩍 성질을 가진 가상의 데이터 생성기술로 차등정보보호기술, 동형암호기술 적용으로 보안강화, 프라이버시 보호기술 적용 [그림 5] 재현데이터(출처: https://www.nist.gov/image-18685)

2. 주요 기능

삼성SDS PET는 세계 최고의 동형암호, 차등정보호, 재현데이터 기술을 기반으로 개인정보 보호를 위한 복합적인 연계 기능들을 제공합니다.

데이터 無손실성 및 유출 不可성 제공

기존 비식별화 기술은 개인정보를 노출하지 않기 위해 원문 데이터를 변형하는데, 이 변형 과정에서 유의미한 정보가 함께 사라집니다. 또한 분석 시 분석 목적에 따라 변형되므로, 분석이 끝나면 다른 분석을 위한 활용에 어려움이 있습니다. 그러나 동형암호기술은 원문의 정보를 손실 없이 그대로 암호화하여 활용하기 때문에, 더욱 정확한 분석이 가능하고, 원본 데이터 유출을 원천적으로 막을 수 있습니다.

다양한 기초통계, 머신러닝 및 딥러닝 함수 제공

동형암호 기술은 데이터 분석에 필요한 기초 통계함수를 포함하여 다양한 머신러닝 학습 및 추론(Inference) 함수와 딥러닝 추론 함수를 지원합니다. 특히, 적용 환경에 따라 동형암호와 함께 다양한 PET 기술들을 결합함으로써 고객 요구사항에 적합한 최적의 솔루션 지원이 가능합니다.

타 기관으로 안전한 데이터 전송 및 활용

재현데이터는 정보 주체가 제공한 원본 데이터를 이용하여 만들어진 모조 데이터로 개인정보보호 규제로부터 자유롭게 활용될 수 있습니다. 특히, 분석하려는 환경 내 데이터 수집이 어려운 연구자 및 기술자들에게 좋은 탐색, 학습 및 분석함수 개발의 수단을 제공할 수 있습니다. 이 과정을 통하여 민감한 데이터를 다루는 금융, 의료, 보안 등 다양한 분야 내 실제 솔루션을 활용하여 수행하기 어려웠던 다양한 분석을 수행할 수 있는 기회 제공으로 노하우들을 획득할 수 있습니다.

데이터 무손실/무유출 : 원문의 정보를 손실없이 암호화하여 활용하기 때문에 정확한 분석이 가능, 원본 데이터 유출을 원천적으로 방지, 다양한 분석함수 제공 : 기초통계, 머신러닝/딥러닝 함수 지원, 적용환경에 따라 다양한PET기술들을 결함함으로써 고객 요구사항에 적합한 최적의 솔루션 지원 가능, 안전한 데이터 전송/활용 : 원본 데이터기반으로 생성된 모조 데이터를 규제 이슈없이 자유롭게 활용, 민감 데이터를 다루는 산업 분야에서 다양한 분석이 가능 [그림 6] PET 주요 기능들

3. 차별화 포인트

삼성SDS의 PET는 세계 최고 수준의 동형암호 기술을 확보하고 있습니다. Eurocrypt‘18, Asicrypt‘17 등과 같은 Top-tier 학회에서 검증된 동형암호 원천기술을 대외 협업으로 확보 후, 독자적으로 고도화하여 ‘20년 암호화된 분석 지원 국제대회 IDASH에서 우승하였습니다.[3] 또한 ‘20년 기준 Cutting Edge Machine Learning Training(AAAI‘19)과 비교하여 동일한 정확도로 10배이상 빠른 분석 속도를 제공하고 있습니다. 이는 최적의 근사연산과 수만 건 데이터의 동시 처리로 세계 최고의 효율성을 제공하며, 원본 데이터에 대한 분석 결과와 99.99% 이상의 정합성을 제공하고 있습니다.

세계 최고의 동형암호기술 확보

서울대학교 암호랩과 협업
학계 검증 완료
Eurocrypt '18, Asiacrypt '17등 Top-tire 학회발표
암호화된 분석지원 국제대회 검증완료
Eurocrypt '18, Asiacrypt '17등 Top-tire 학회발표
독자기술 고도화 및 대외검증 현황(2020년 기준)
  • Cutting edge ML Training(AAAI '19)과 동일한 정확도, 10배 이상 분석속도 제공
  • 독자기술대상 암호화된 분석지원 국제대회 검증 완료 - '20 IDASH 우승*
국제 유전체 정보분석 보안경진대회 IDASH 2020에서 1위 차지
[그림 7] 성능 및 차별화 포인트(출처: http://www.humangenomeprivacy.org/2020)

4. Use Cases

Case 1 : 동형암호 기반 예측 서비스

특정기관에서 보유하고 있는 고성능 분석 모델을 다른 기관이 이용하고자 할 때, 분석 모델을 보유한 서비스 제공자는 분석 모델이 중요 자산으로 외부 유출을 꺼리게 됩니다. 그리고 외부의 고성능 분석 모델을 활용하고자 하는 데이터 보유자는 개인정보 이슈로 원본 데이터를 외부로 전송할 수 없습니다. 이때 동형암호를 활용하면 분석 모델의 유출은 막고, 고객 정보도 보호할 수 있는 예측 서비스를 제공할 수 있습니다.

Pain Point(ML Inference) , 신용평가모델 , 신용관련 개인데이터, 동형암호화된 질의/결과, 암호화된 분석서비스 제공 [그림 8] 동형암호 기반 예측 서비스 Use Case

Case 2 : 개인정보보호 수준 제어 가능한 재현데이터 생성

금융 거래 정보, 진료 기록 등과 같이 개인의 민감 정보를 포함하고 있는데이터 활용 시 개인정보 유출을 방지하기 위해 가명 처리가 필요합니다. 이때, 딥러닝 기반 재현데이터 기술을 이용하면, 원본 데이터의 특징을 학습하여 생성한 가명 정보로부터 유의미한 분석 결과를 얻을 수 있습니다. 또한 재현데이터 생성 시 차등정보보호 기술을 적용하여 개인정보보호 수준을 제어할 수 있습니다.

Raw Data, Preparation, DP-GAN, Privacy Preserving Synthetic Data, Samsung SDS ( Privacy Budget Selection [그림 9] 재현데이터 생성기술 기반 가명처리 서비스 Use Case

5. 비즈니스 사례

삼성SDS PET를 실제 사업에 적용한 대표 사례를 살펴보겠습니다.[4]

금융분야 신용평가 분석

삼성SDS는 국내 금융사가 보유한 실제 고객 데이터를 기반으로 신용점수를 예측하는 기술검증을 진행했습니다. 고객 데이터는 동형암호화된 상태로 서비스 제공자에게 제공되어 신용점수 예측 분석 시 고객의 개인정보는 전혀 노출되지 않았습니다. 또한 암호화된 상태로 도출된 신용평가 결과는 복호화 키를 가지고 있는 사용자만 확인할 수 있었습니다.

기술검증 결과, 동형암호를 적용해 분석한 결과와 원본 데이터를 이용한 분석 결과의 정확도가 일치하였고, 분석 속도관점에서 수백만 건의 데이터 분석 시 12시간 내 수행할 수 있는 효율성을 제공하여 실 환경에서 사용할 수 있음을 확인되었습니다.

의료분야 중증질병 재발 예측

두 번째 사례는 의료 부문으로 국내 병원과 협력하여 이미 확보한 딥러닝 기반 중증 질병 재발 예측 모델에 적합한 동형암호기술을 개발하였습니다.

적용 결과, 암호화하지 않은 분석 대비 정확도 측면에서 거의 동일한 결과를 보였고, 1건당 분석 수행에 평균 30초가 소요되었습니다. 본 과정을 동형암호 병렬 처리 시 1건당 1초 내외로 적용할 경우, 현장에서 실제 사용 가능한 수준임을 확인하였습니다.

금융 신용평가 분석, 대상: 고객 거래데이터 기반 신용평가 예측, 목표: 평문(원본)/암호문 데이터간 예측 정확도 비교
적용모델: 머신러닝 (Decision Tree), 결과: 정확도 일치/ 100만건 12시간내 수행, 의료 중증 질병 재발 예측, 대상: 암환자 내원기록 기반 암 재발기간 예측, 목표: 평문(원본)/암호문 데이터간 예측 정확도 비교, 적용모델: 딥러닝(RNN-GPU), 결과: 정확도 일치, 1건당 30초 소요 병렬처리시 1초내 수행 [그림 10] 금융, 의료 비즈니스 사례

6. 맺음말

앞선 사례들을 통해 삼성SDS는 고객이 보유하고 있는 민감 데이터와 자산(고성능 분석 모델) 보호의 중요성, 이들을 활용한 새로운 서비스 제공 시 제도 및 법률적 리스크에 대한 고객의 우려가 얼마나 큰 지 확인할 수 있었습니다. 또한 이런 우려를 갖고 있는 고객을 대상으로 데이터와 자산 유출을 원천 차단하면서 고품질의 서비스를 제공할 수 있는 PET 기반 분석 서비스 제공이 얼마나 중요한지 알 수 있었습니다.

다양한 산업 분야의 요구사항에 즉시 대응하면서 사용자 편의성을 제공하는 PET 기반 분석 서비스를 제공할 수 있다면, 이전까지 활용되지 못해 잠자고 있던 수많은 데이터가 신규 사업에 더 적극적으로 활용될 수 있을 것입니다.

개인정보 강화 (PET, Privacy Enhancing Technology) - 향상된 프라이버시 강화 기술 [Technology Toolkit 2021] 개인정보 강화 (PET, Privacy Enhancing Technology) - 향상된 프라이버시 강화 기술
동영상 보기

# References
[1] ISO/IEC 20889:2018, Privacy enhancing data de-identification terminology and classification of techniques
[2] https://www.samsungsds.com/kr/insights/GDPR_data_analytics.html
[3] http://www.humangenomeprivacy.org/2020/
[4] https://www.mk.co.kr/today-paper/view/2020/4679442/



▶  해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶  해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe

문덕재
문덕재 보안 전문가

삼성SDS 연구소 보안알고리즘팀

삼성SDS 보안알고리즘팀 보안전문가로 암호 기술 연구와 개발 경험을 바탕으로 신규 암호 기술과 프라이버시 보호 기술을 연구하고 있습니다.

Technology Toolkit 2021에 소개한 기술에 대해 문의사항이 있으시거나, 아이디어, 개선사항 등 의견이 있으시면, techtoolkit@samsung.com으로 연락해 주세요.