디지털 트랜스포메이션의 핵심기술 11편 – 빅데이터(1)

characteristics volume velocity variety parallel software on many servers capture curate manage process data big data predictive analytics sample large data set useful i bell curve and inductive ststistics lead to avvuracy decision-making better that way this way efficency costs risk

지난 시간 디지털 트랜스포메이션 핵심기술 ‘ABC’ 중에서 클라우드에 대해 알아봤습니다. 이번에는 ‘ABC’의 가운데 있는 ‘빅데이터’에 대해 살펴보겠습니다. 먼저 정의부터 알아보는 게 순서일 것 같은데요, 공신력 있는 컨설팅사와 기관에서 발표한 빅데이터 정의를 먼저 살펴보죠.

정의한 곳 자체구축(On - Premise) 맥킨지 (McKinsey) : 사용량 최고치 기준으로 서버, 스토리지 및 소프트웨어를 구매하므로 피크타임 외에는 자원 낭비 가트너 (Gartner) : 서버나 시스템을 확장하기 어려움 (필요한 용량을 추가로 산정하고 필요한 만큼 자원을 구매해야 함) 한국정보진흥원 : 시스템 변경, 장애 발생 시 시스템 이중화 및 백업 등 조치가 필요하고 일시적인 중단이 발생함
빅데이터의 정의

읽어보니 어떤 느낌이 오시나요? 확 감이 오시나요? 저는 그렇지 않았습니다. 그래서 조금 더 찾아봤더니 가장 많이 쓰이는 빅데이터의 정의가 있었습니다.

“기존의 관리 방법이나 분석 체계로는 처리하기 어려운 엄청난 양의 데이터”

이 정의를 보고 품게 된 첫 번째 의문은, ‘기존의 관리 방법이나 분석 체계로는 처리하기 어려운 엄청난 양의 데이터’가 왜 만들어지게 되는 걸까?’였습니다.


# 데이터가 늘어나는 이유

어느 한가하고도 한가한 날, 코로나 19 사태로 사무실에서 마스크 끼고 앞만 보고 있어야 하는 상황에서 뭔가 재미있는 일이 필요했습니다. 그래서 무작정 ‘대한민국을 대표하는 4명의 위인을 답해보시오’라는 모바일 메시지를 보내기 시작했죠. 처음 시작할 때는 우습게 생각했는데, 이 작업은 쉽지 않았습니다. 첫째, 질문을 받는 대상들이 저의 순수함을 의심했습니다. 뭔가 다른 의도가 있을 거로 생각한 거죠. 제가 어떻게 살아왔나 돌아봐야 했습니다. 둘째, 응답자들은 생각보다 4명을 선택하기 힘들어했습니다. 일단 1번, 2번은 금방 나왔습니다. 3번부터 고민하기 시작하더니, 4번은 답변자의 절반 정도만 대답했습니다. 세 번째는, 설문조사를 수행하는 일과 그 결과를 정리하는 데 걸린 시간이 만만치 않았다는 것입니다.

괜히 시작했다는 후회를 수없이 했지만, 일단 시작한 건 마무리를 지어야죠. 처음에는 주변 사람들에게 메신저로만 문의했습니다. 그리고 곧 깨닫게 되었죠. 표본집단이 대한민국 40대 남성으로 한정되어 버린 거죠. 그래서 SNS의 도움을 좀 받았습니다. 하루 동안의 조사 결과는 다음과 같았습니다.

세종대왕(28표) 이순신 (27표) 광개토대왕(7표) BTS(7표) 기타(76표)
대한민국을 대표하는 4명의 위인

대한민국을 대표하는 원투 펀치(야구에서 팀의 1선발과 2선발 투수를 지칭하는 말)는 의심할 여지가 별로 없었습니다. 1선발 세종대왕님, 2선발 이순신 장군. 두 분을 선택한 이유도 비슷했습니다. 3선발부터 개인적인 가치관이 좀 들어가기 시작하더군요. 영토 확장을 선호하시는 분부터, 대한민국이라는 이름을 세계에 알리는 것을 높게 사시는 분, 독립운동가와 같이 대의를 위해 개인을 희생하신 위인을 선호하는 분까지 다양했습니다. 결과적으로는 3위에는 광개토 대왕이, 4위는 BTS가 차지했습니다.
중요한 건 여기서부터입니다. 과거였다면 이런 종류의 설문조사 결과는 위와 같이 마무리되었을 것입니다. 1위부터 4위까지 집계하고 나머지는 기타로 남겨뒀겠죠. 그 기타가 가장 큰 영역을 차지하고 있음에도 말이죠. 그래서 제 수작업은 여기서 멈추지 않았습니다. 마지막 한 표까지 정리했죠. 주변에서 한심하게 바라보는 시선을 당당히 견뎌내면서요.
정리하다 보니, 순위에 들지 않았지만 엄청난 분들이 많이 계시더군요. 김구 선생님, 안중근 의사, 단군 할아버지, 정조대왕, 이런 쟁쟁한 분들이 기타에 들어가 계셨던 겁니다. 정보를 잘라버리면 이런 일이 벌어지는 거죠. 그리고 더 중요한 것은 1표씩 나온 리스트였습니다. 이 부분이 가장 현실을 반영하고 있었고, 개인의 취향도 가득했기 때문이죠. 펭수가 그렇게 살아남았습니다.

세종대왕(28표) 이순신 (27표) 광개토대왕(7표) BTS(7표) 김구 (5표) 노무현(4표) 안중근(4표) 단군(3표) 문재인(3표) 정조(3표) 박정희(2표) 유관순(2표) 이세돌(2표) 이승만(2표) 정은경(2표) 31번 확진자 궁예 김대중 김연아 김정호 김좌진 박근혜 박지성 봉준호 안창호 안철수 엄복동 영조 왕건 윤봉길 윤종계 이이 이건희 이성계 전길남 차운으 이황
대한민국을 대표하는 4명의 위인 – 기타를 풀어 헤침

단지 이 정도 정보를 만드는데, 혼자 작업을 하니 3일 정도의 시간이 걸렸습니다. 이마저도, 인터넷이나 SNS의 도움을 받았으니 조사하는 시간이 많이 줄었다고 봐야 합니다. 과거처럼 일일이 설문지를 만들고 나눠준 다음, 결과를 모아서 집계했다면 훨씬 더 많은 시간이 들어갔을 겁니다.

큰 노력을 들였음에도 사실 이 결과는 잠깐의 담소 거리는 되겠지만, 유용하게 쓸만한 정보는 아닙니다. 예를 들어, 작은 도시에서 시민들이 좋아하는 위인의 동상을 세우려고 합니다. 이 정보가 쓸모가 있을까요? 일단 원투 펀치는 안될 겁니다. 광화문에 앞뒤로서 계시니까요. 나머지 분 중에서 한 분을 골라야 하는데, 그러려면 추가 정보가 필요합니다. 투표한 사람들에 대한 정보, 그중에서 투표자의 고향, 현재 거주지 등의 정보가 있다면 큰 도움이 되겠죠.

청도(淸道)를 대표하는 위인은 대동여지도를 편찬한 고산자(古山子) 김정호입니다. 사실 이 조사를 시작하게 된 이유였죠. 언젠가 네이버에서 한국을 빛낸 4명의 위인을 발표한 적이 있습니다. 그때 4분이 원투 펀치는 그대로 세종대왕과 이순신 장군이었고, 나머지 두 분이 정조와 김정호 선생이었습니다. 처음 봤을 때, 저는 ‘왜 이분이?’라는 생각이 잠시 들었습니다. 그런데 조금만 생각해 보면, 위인도 시대에 따라 달라지지요. 지도와 위치 정보가 중요해진 시대이니 김정호 선생이 4인에 들었나 봅니다. 어찌 됐든 청도를 대표하는 분을 찾기 위해서는 단순히 위인의 이름만으로는 선정이 어렵겠죠. 위인의 이름 외에 위인을 투표한 사람의 성별, 연령, 정치 성향 등도 조사할 수 있을 겁니다.

김정호 투표자 성별 연령 고향 거주지역 정치성향 SNS 인터넷 문자 비디오 오디오
투표자의 특성을 추가한 설문

투표자의 성별, 연령, 특히 고향 및 거주 지역을 모두 포함해 설문지를 만들고 조사를 한다면 어떻게 될까요? 이런 내용이 들어 있는 두툼한 설문지를 길거리에서 받는다면 여러분은 어떻게 하실 건가요? 저는 고개를 숙이고 빠르게 지나갈 것 같습니다. 그래서 인터넷 게시판이나, SNS에서 이런 정보를 긁어올 수 있다면 좋겠죠. 그것도 정해진 형식의 문자만이 아니라 산문 형태, 비디오, 오디오까지 가져올 수 있다면 훨씬 진솔하고 정확한 정보가 되겠죠. 문제는 이 정도 정보만 조사하려 해도 이미 수작업은 물 건너갔다는 거죠. 40여 명이 넘는 위인 리스트를 투표자별로 성별, 연령, 고향 및 거주 지역 등으로 정리하려면… 생각만 해도 머리가 아프네요.

처음 대표 위인 4분을 선정하고 나머지를 기타로 분류했건 것에 비하면 데이터가 엄청나게 늘었다는 것을 쉽게 느끼실 겁니다. ‘기타’로 표기된 물질(추상도 편의상 물질에 포함합니다)의 영역을 디지털로 전환하면 데이터가 점점 많아집니다. 위인 사례를 보면 데이터는 두 가지 관점에서 늘어납니다. 첫째, 기타를 실제 인물로 나열하면서 늘어나는 데이터의 종적인 확장, 그리고 위인별 특성 정보나 그 위인을 투표한 사람에 대한 상세정보를 추가하며 늘어나는 데이터의 횡적인 확장이죠. 거기에 더해 문자, 비디오, 오디오 등의 데이터 유형도 다양해집니다. 이 두 가지를 한꺼번에 고려하면 데이터는 폭발적으로 증가하게 됩니다.

문자 비디오 오디오 주요직책 주요사건 취미 가족관계 시대상황 사인 속성 김정호 투표자 성별 연령 고향 거주지역 정치성향 SNS 인터넷 문자 비디오 오디오
위인에 대한 상세 속성 정보와 투표자의 상세 정보를 다양한 데이터 소스에서 받아옴

이렇게 양과 데이터의 유형이 폭발적으로 증가해 기존의 방법으로 보관이나 처리가 어려워지면 이를 빅데이터라고 합니다. 물론 한국을 대표하는 위인을 정리한 것을 빅데이터라 하지는 않습니다. 데이터양이 늘어나는 과정을 쉽게 설명하기 위한 사례 정도로 이해해 주세요.
이제 현실로 돌아가 보겠습니다. 현실 세계에서 처음 데이터가 감당 못 할 정도로 늘어난 곳은 구글과 같은 포털 기업이었습니다. 인터넷이 예상보다 빠르게 주류로 자리 잡으면서 가입자가 폭발적으로 늘어납니다. 거기에 더해, 개인 메일 서비스나 위치 정보 등 사용자별로 개인화가 필요한 항목이 계속 늘어나죠. 어느 순간 기존 데이터 관리 구조로는 도저히 해결이 안 되는 상황에 이르게 됩니다.
이것만도 감당이 어려운데, 더 무서운 놈들이 나타납니다. 모바일과 사물인터넷의 등장이죠. 지금까지 컴퓨터라는 곳에 들어갈 수 있는 데이터는 사람이 컴퓨터 앞에 앉아서 입력하는 것이 대부분(물론 로그 데이터처럼 기계가 자동으로 생성하는 정보가 있긴 했습니다)이었습니다. 그런데 이 판이 바뀌어버린 겁니다.

데이터가 발생하는곳 - 사람 - 컴퓨터 앞에서 입력 (옛날에는 요것만 있었음) , 모바일 기기로 마구 입력 - 기계 - 모바일 기기의 센서 및 로그정보, 사물인터넷(IoT)

제가 집에 컴퓨터를 처음 장만하면서 해보고 싶었던 일이 일기 쓰기였습니다. 어떻게 됐을까요? 시작한 날의 일기만 어딘가에 남아있을 겁니다. 그런데 요새는 어떤가요? 일기를 넘어 ‘브이로그(주-1)’ 가 유행입니다. 영상으로 하루 대부분을 기록하는 사람도 있습니다. 그것뿐만이 아니죠. 인스타그램과 페이스북에는 내가 간 곳, 느낀 것, 좋아하는 것을 쉴 새 없이 업로드합니다. 모두 모바일의 위력이죠. 모바일 기기가 일반화되기 전에는 데이터를 만든다는 것이 뭔가 특별한 일이었다면, 지금은 일상의 일부가 되어 버렸죠. 그만큼 데이터양은 폭발했습니다.

(주-1) 브이로그 (V-log)
동영상으로 쓰는 일기. 비디오(Video)와 블로그(Blog)를 합친 말로, 개인 SNS에 글을 쓰듯 영상으로 기록을 남기는 것을 의미합니다. 과거에 텍스트 중심으로 남기던 일기를 한 편의 영상으로 제작해 올리는 것입니다. 브이로그는 유튜브 등 동영상 플랫폼 및 각종 인터넷 스트리밍 플랫폼을 매개로 하고 있으며, 특정 주제보다는 일상적인 이야기를 주로 다룬다는 특징이 있습니다.



사람이 만드는 데이터만으로도 넘치는데 여기에 불을 붙인 것이 ‘사물인터넷’으로 불리는 IoT 기기들입니다. IoT는 각종 센서로 대표됩니다. 센서(Sensor)는 온도, 압력, 속도와 같은 물리적인 환경 정보의 변화를 전기적인 신호로 바꿔주는 장치를 일컫는 말입니다. 우리가 매일 들고 다니는 스마트폰에도 몇 가지 센서가 내장되어 있죠. 대표적인 것이 가속도 센서로 걸음걸이를 전기적 신호로 바꿔주고 이를 해석해 하루에 몇 보를 걸었는지 알 수 있게 하죠. 스마트폰에만도 10여 개의 센서가 들어가 있습니다

제스처 센서 : 손바닥에 반사되는 적외선을 감지하여 손동작 인식 <예시1> 에어 제스쳐 기능 운용 <예시2> 터치 없이 손동작만 인식 가능 근접센서 :적외선을 활용하여 스마트폰이 신체에 가까이 위치하는 지를 인식 <예시> 다이렉트 콜이나 통화 중 화면 끄기 자이로 센서 : 단말기 회전 상태를 3축으로 감지하여 스마트폰의 기울기 인식 <예시> 얼굴 인식 기능 가속도 센서 단말기 : 단말기 이동 상태를 3축으로 감지 <예시> 만보기 지자기 센서 : 자기장 세기를 3축으로 감지 <예시> 정확한 방위 측정 기압센서 : 현재 위치의 기압 파악 <예시> 기압차 및 경사도 계산하는 칼로리 소모 측정 어플 온도/습도 센서 : 주변 환경 온도 습도 파악 홈센서 : 플립커버의 개폐 상태 인지 RGB 센서 : 광원의 Red, Green, Blue, White별 세기 측정
스마트폰에 쓰이는 센서의 종류(출처 : Naver 지식백과)

센서는 어떤 값을 측정하느냐에 따라 구분되며, 스마트폰에 내장된 10여 개를 포함해 약 200여 가지가 있다고 합니다. 일상생활 속에서 쉽게 접할 수 있는 센서로는 온도 센서, 습도 센서, 초음파 센서, 압력 센서, 가스 센서, 가속도 센서, 조도 센서 등이 있고, 맥박이나 혈압, 혈당, 산소포화도(SpO2) 등을 측정하는 바이오센서도 의료기기나 헬스케어 장치에 많이 이용됩니다. 이런 정보는 IoT 기기에 의해 자동으로 기록되고 기계에서 기계로 전달(M2M, Machine to Machine) 되는 경우가 많습니다. 사람이 중간에 있으면 상황에 따라 사정이라도 봐주겠지만, 기계는 가차 없죠. 정말 데이터가 터져 나갑니다. 이젠 더 이상 큰 데이터라 대충 부를 수가 없습니다. 정식으로 ‘빅데이터’란 이름을 붙여줍니다. (사실, 빅데이터라는 용어는 오래전부터 있었습니다. 존재감이 없었을 뿐입니다.)

여기서 의문점이 하나 생깁니다. 데이터는 언제까지 늘어나는 걸까요? 대충 어느 정도까지 증가하는지 예상되어야 보관할 곳과 처리 방법을 찾을 수 있을 테니까요. 논리적으로 따지면, 디지털 전환이 완성되면 됩니다. 마치 영화 매트릭스가 그린 세상처럼 모든 세상이 정보화되어 버리면 끝이 나겠죠. 모든 물질의 영역이 전부 정보로 바뀌면 끝나는 겁니다. 그런데 그게 가능할까요?

아주 간단하면서, 절망적인 사례가 하나 있습니다. 원주율 아시죠. 3.14로 시작되는 π(파이) 말입니다. 컴퓨터가 나오기 전에 인간이 계산한 것은 수 백 자리에 불과했습니다. 인간이 컴퓨터의 도움을 받아 계산한 자릿수는 현재까지 수십조에 이릅니다. 그러나 그 수십조 자릿수조차 원주율의 무한 수에 비하면 수학적으로는 0에 가깝습니다. 절망적이지 않습니까? 수십조 자리를 계산했는데 무한에 비하면 ‘0’에 가깝답니다. 이 말은 데이터양이 늘어나는 것에 한계가 없다는 뜻입니다.

좀 더 현실적인 이야기를 해볼까요? 디지털 사진을 예로 들어 보겠습니다. 초창기 디지털카메라가 나왔을 때 100만 화소가 되지 않았습니다. 그냥 눈으로 봐도 필름 카메라로 찍은 사진과 해상도에서 상대가 되지 않았죠. 그래서 디지털 카메라는 곧 사라질 거라 용감하게 예언하신 분들도 계십니다. 그런데 2020년에 출시된 S20 울트라는 1억 800만 화소입니다. 100배가 넘게 높아졌습니다. 이에 비례해 데이터 크기도 커졌겠죠. 하지만 이것도 π(파이)와 근본적으로 같은 운명입니다. 아무리 더 선명하게 만들어도 데이터 원천 자체와 비교하면 ‘0’에 가까운 거죠. 데이터는 끝없이 늘어날 거라는 뜻입니다.

서두에서 던졌던 ‘어떻게 해결할 수 없는 규모의 큰 데이터가 만들어지는가?’에 대한 답을 어느 정도는 드린 것 같습니다. 다음 글에서는 빅데이터를 기술적인 측면에서 조금 더 살펴보겠습니다.

+ 디지털 트랜스포메이션 1편 : 애인의 유산과 매트릭스
+ 디지털 트랜스포메이션 2편 : 사이퍼의 스테이크
+ 디지털 트랜스포메이션 3편 : DT 사이클
+ 디지털 트랜스포메이션 4편 : 기업의 디지털 트랜스포메이션
+ 디지털 트랜스포메이션 5편 : 요약은 컨설턴트의 숙명
+ 디지털 트랜스포메이션 6편 : 멋쟁이는 옷을 제때 갈아입는다
+ 디지털 트랜스포메이션 7편 : 장인의 연장
+ 디지털 트랜스포메이션 8편 : 빈 비누 케이스를 제거하라
+ 디지털 트랜스포메이션 9편: DT의 핵심기술 클라우드
+ 디지털 트랜스포메이션 10편: DT의 핵심 기술 클라우드(2)

삼성SDS 소셜 크리에이터 주호재(Principal Consultant)

이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe