[빅데이터 3부작 시리즈] 제1편. 가깝고도 먼 그 이름! 빅데이터

제1편. 가깝고도 먼 그 이름! 빅데이터

[편집자주] 빅데이터의 위상이 나날이 달라지는 이 시점에 맞춰 빅데이터의 중요성과 이를 분석하기 위한 연재 시리즈를 준비하였습니다. 빅데이터의 중요성과 의미 있는 결과 도출을 위한 분석 플랫폼의 중요성에 대해 알아보고 실제 데이터를 삼성SDS의 빅데이터 분석 플랫폼인 ‘Brightics(브라이틱스)’로 분석해 보겠습니다. 마지막으로는 최근 빅데이터가 강조되면서 각광을 받고 있는 직업인 데이터 사이언티스트란 무엇인지 알아보겠습니다.

<1편> 가깝고도 먼 그 이름! 빅데이터
<2편> 이것이 대용량 빅데이터 분석 플랫폼이다! 삼성SDS의 Brightics AI
<3편> 요즘 핫한 직업, 뇌가 섹시한 데이터 사이언티스트

 

<1편> 가깝고도 먼 그 이름! 빅데이터

안녕하세요! 삼성SDS 10기 기자단 정윤입니다. 오늘은 많이 들어봤지만 잘 알지 못하는 빅데이터에 대해 쉽고 간단하게 설명하고자 합니다. IT 관련 리포트 및 기사에 자주 등장해 익숙하지만 이해하기 어려운 빅데이터! 함께 살펴볼까요?

# 빅데이터는 무엇일까?
빅데이터란 4차 산업 혁명 시대의 ‘원유’라고도 불립니다. 석유 자체로는 의미가 없지만 어떻게 가공을 하느냐에 따라 자동차 같은 교통수단의 연료가 될 수도 있고, 플라스틱 등 산업재의 원료가 되기도 하기 때문이죠. 이처럼 빅데이터를 어떻게 활용하냐에 따라 인공지능, IoT(사물인터넷), 자율 주행과 같은 인간의 삶을 윤택하게 해주는 혁신을 가져올 수 있습니다.

빅데이터는 기존의 데이터와 달리 5V(Volume, Variety, Velocity, Value, Veracity)의 특징을 가지고 있습니다. 규모가 방대하고 이미지 등의 비정형 데이터를 포함하는 등 종류가 다양하며, 생성 주기도 짧고 가치 있으며 신뢰할 수 있는 데이터라는 것이죠.

페이스북이나 트위터 등의 SNS, IoT(사물 인터넷) 등의 사용이 활발해지면서 데이터 수집 대상이 다양해지고, 수집 주기가 빨라지면서 매년 30%씩 데이터양이 급증하고 있다고 합니다. 조사에 따르면 2016년 세계 데이터양은 16.1ZB이었는데, 2025년에는 163ZB로 10배나 늘어날 전망이라고 합니다. ZB는 1조 1000억 GB로 고화질 영화(2GB) 5천억 편에 맞먹는 양입니다.

4차 산업혁명의 주역인 빅데이터는 오늘날 ‘Game Changer’라고도 불립니다. 사회와 산업의 판도를 완전히 뒤집어 놓았기 때문인데요. 빅데이터를 잘 활용하면 소비자의 선호를 분석해 제품 추천이 가능해지고, 상품 수요를 예측할 수도 있습니다. 뿐만 아니라 자율 주행 자동차도 빅데이터를 기반으로 움직이며 이세돌 9단과의 바둑으로 유명해진 알파고도 빅데이터가 있어야 실력을 발휘할 수 있습니다. 이처럼 빅데이터를 바탕으로 우리 생활에 유익하고 다양한 결과를 도출해낼 수 있답니다!

# 이상과 현실을 이어주는 데이터 테크놀로지!
빅데이터에서 유용한 솔루션을 도출해내는 작업은 굉장히 중요하고 또 그만큼 복잡합니다. 빅데이터를 분석할 때 여러 가지 현실적 문제점들이 있는데, 데이터 테크놀로지를 통해 한계를 극복할 수 있습니다.

첫 번째 문제점은 분석을 위한 데이터를 정제하여 준비하는데 많은 시간이 걸린다는 것입니다. 이때 ‘Data Preparation’을 통해 방대한 양의 데이터 속에 존재하는 불필요한 데이터(garbage data)를 걸러내고 분석에 필요한 의미 있는 데이터 추출을 위한 사전 정제 작업이 가능합니다.

두 번째로는 데이터 분석을 위해서 알고리즘이나 변수에 대한 전문지식이 필요하다는 어려움이 있습니다. 하지만 다양한 분석 알고리즘을 쉽게 사용할 수 있는 분석 솔루션이나 변수 및 알고리즘 추천 자동화(Autonomous Analytics) 기술을 활용함으로써, 비전문가도 쉽게 모델링을 할 수 있습니다.

세 번째로 데이터 종류나 활용 목적에 따라 알고리즘 모델링이 필요합니다. 그래서 매번 새로운 알고리즘을 적용해야 하기 때문에 시간과 노력이 요구됩니다. 이러한 문제는 해당 목적을 해결하기 위해 만들어진 전문가의 일반화된 모델을 활용하고, Deep Learning의 변수 최적화 기술이나 Grid search를 통한 파라미터 최적화를 이용하여, 고객의 데이터나 하드웨어 장비에 따라 필요한 변수를 분석 플랫폼이 스스로 찾아 추천해주는 것도 가능합니다.

또한 빅데이터의 경우 환경이 수시로 바뀌기 때문에 지속적인 모니터링과 모델 수정이 필요합니다. 시간이 지날수록 오차가 생기고 모델의 정확도가 떨어지기 때문이죠. 튜닝을 위해서는 특정 영역에서의 학습뿐만 아니라 공통점을 가지고 있는 다른 영역의 학습된 모델을 공유하는 ‘Transfer Learning’을 사용할 수 있습니다. 기존의 정밀 검사 모델에 새로운 장치가 추가된 경우, 다른 학습된 결과를 이용하여 추가 학습 없이 모델을 새롭게 최적화하고 지속적으로 높은 성능을 유지할 수 있습니다.

 

빅데이터는 IoT, 인공지능 등의 ICT의 중심에 위치하고 있습니다. 전공과 관심 분야가 통계나 컴퓨터공학이 아니더라도 빅데이터를 이해하고 다룰 수 있다면 4차 산업혁명을 보다 더 스마트하게 활용할 수 있답니다! 이번 기사를 읽으시고 관심이 생기셨다면 빅데이터 관련 책이나 기사를 읽어보는 것을 추천합니다.

삼성sds 대학생 기자단 10기 - 정윤, ICT기술과 일상생활에 대한 콘텐츠를 취재하며 SNS를 통해 삼성SDS와 세상을 이어주는 역할을 하고 있습니다.

 

공유하기