빅데이터로 가치를 만드는 호수 ‘데이터 레이크’ 이야기

빅데이터로 가치를 만드는 호수 ‘데이터 레이크’ 이야기

아마존은 글로벌 최대 전자상거래 기업입니다만. 이 회사 본질은 ‘빅데이터 기업’이라고 하죠(다나카 미치아키, 2018). 온라인 쇼핑몰 ‘아마존닷컴’에서는 소비자 구매 데이터를 쌓고요. 전자책 단말기 ‘킨들’, 인공지능(AI) 비서 ‘알렉사’, 비디오 스트리밍 서비스 ‘프라임 비디오’, 무인점포 ‘아마존고’ 등에서도 데이터를 광범위하게 수집합니다. 행동 이력 데이터(킨들), 음성 데이터(알렉사), 비디오 시청 데이터(프라임 비디오), 얼굴인식 데이터(아마존고) 등 유형도 다양하죠. 아마존은 수집한 데이터를 상품 추천, 제품 개발, 배송 등에 활용하는데요. 이는 아마존 성장에 핵심 역할을 합니다. “데이터가 아마존에서 왕(Data is king at Amazon)”이라는 말까지 있을 정도죠.

그렇다 보니 아마존에서는 데이터를 잘 관리하는 방법을 많이 고민하는데요. 회사 사업규모가 커지면서 데이터가 방대하게 쌓였습니다만. 이를 관리하는 데 어려움이 있었다고 합니다. 워너 보겔스 아마존닷컴 최고기술책임자(CTO)는 미국 IT 매체 ‘실리콘 앵글’ 기고 글에서 이렇게 설명했는데요. 아마존에서는 데이터 사일로(Data Silo), 다양한 데이터 세트 분석, 데이터 접근 관리, 데이터 보안, 머신러닝 포함 등에 어려움이 있었다고 하죠. 참고로 ‘데이터 사일로’란 데이터가 전체적으로 통합되지 않고 개별 부서나 사업부문별로 활용되는 건데요. 아마존에서는 이 때문에 데이터를 유기적으로, 전사 수준에서(companywide) 이해하기가 더 어려웠다고 합니다.
아마존은 이 어려움을 어떻게 해결했을까? 이 회사는 ‘데이터 레이크(Data Lake)’를 활용했는데요. 데이터 레이크는 조직에서 수집한 정형*·반정형**·비정형*** 데이터를 원시 형태(raw data)로 저장하는 단일한 데이터 저장소입니다. 아마존은 2019년 ‘갤럭시 데이터 레이크’를 구축했고요. 여러 팀이 데이터 레이크로 데이터를 옮기고 있죠. 부서별로 흩어진 데이터를 한 장소에 저장하면서 데이터 사일로를 개선했고요. 데이터를 종류에 상관없이 다 끌어올 수 있었습니다. 데이터를 한 장소에 모았기 때문에 이에 접근하기도 편리해졌고요. 방대하고 다양한 데이터를 활용, 머신러닝도 가속화했습니다. 데이터세트를 결합해서 더 정확한 모델을 학습하고 배치하기가 쉬워졌죠.

기업에서는 전통적으로 데이터를 데이터베이스와 데이터 웨어하우스****에 저장했는데요. 2010년대부터 빅데이터 시대를 맞아 데이터 레이크가 차세대 데이터 관리 플랫폼으로 떠올랐습니다. ‘데이터 패브릭’, ‘데이터 레이크 하우스’ 등 새 기술도 나옵니다만. 데이터 레이크 가치는 아직 유효한데요. SK, 롯데, 신한 등 국내 대기업도 데이터 레이크를 구축, 빅데이터 분석 역량을 높이려고 하죠. 여기서 인사이트를 얻어 사업에 활용하는 게 목적인데요. 매일경제에 따르면, SK 주요 계열사는 데이터 레이크를 구축, 사내외 데이터를 하나로 모았습니다. 롯데에서도 그룹 유통·물류·제조·지원 역량을 결집한 데이터 레이크를 구축한다고 알려졌죠. 서울경제에 따르면, 신한금융투자도 데이터 레이크를 구축키로 했고요.

요즘 기업에서 데이터 레이크에 관심 갖는 이유는 뭘까? 먼저 부서별·분야별로 흩어진 데이터를 한데 모아 분석하면 조직 전체 시너지를 높일 수 있고요. 기업이 보유한 데이터를 최대한 활용해서 가치를 끌어내기에 유용합니다. IBM에 따르면, 기업에서 저장하는 데이터 약 80~90%가 텍스트·비디오·오디오 등 비정형 데이터라고 하죠. 데이터 웨어하우스는 정형 데이터를 저장하는 데 최적화돼 있습니다만. 데이터 레이크에는 비정형 데이터도 원시 형태로 저장할 수 있고요. 이를 분석하면 기업 경영에 주효한 인사이트를 풍부하게 얻을 수 있죠. 누구든 빅데이터로 가치를 만들고 싶다면 데이터 레이크를 알아두는 게 좋습니다. 이 글에서는 데이터 레이크 개념과 기능, 활용 분야를 짚고요. 대두 배경과 한계, 유의사항, 전망을 살펴보려고 합니다.

*정형 데이터 : 형태가 있고 연산할 수 있는 데이터. ‘엑셀’ 같은 스프레드시트에 저장되는 형태, 수치, 기호, 도형 등이 그 예.
**반정형 데이터 : 형태는 있지만 연산할 수 없는 데이터. 메일 등 통신 내용 기록 같은 로그 등이 그 예.
***비정형 데이터 : 형태가 없고 연산할 수 없는 데이터. 인터넷 댓글, 영상, 음성 등이 그 예.
****데이터 웨어하우스(data warehouse) : 회사의 각 사업부문에서 수집된 모든 자료 또는 중요한 자료에 관한 중앙창고.

데이터 레이크는 뭐고, 어디에 쓸 수 있을까?

데이터 레이크는 조직에서 수집한 정형·반정형·비정형 데이터를 원시 형태(raw data)로 저장하는 단일한 데이터 저장소입니다. 온갖 유형의 빅데이터를 관리하는 데 최적화돼 있죠. ‘데이터를 원시 형태로 저장한다’는 의미는 이렇습니다. ‘데이터를 특정 목적을 위해 처리하지 않고, 원래 형태 그대로 저장한다’는 건데요. 데이터 웨어하우스에 데이터를 저장하기 전에는 데이터에 어떤 형태와 구조(스키마*)가 있어야 합니다. 이를 부여하는 걸 ‘쓰기 스키마(schema on write)’라고 하죠. 데이터 레이크에 데이터를 저장할 때는 그럴 필요가 없습니다. 데이터를 원시 형태로 두고요. 나중에 이를 사용할 때, 데이터에 형태와 구조를 주죠. 이를 ‘읽기 스키마(schema on read)’라고 합니다.

‘데이터 레이크’ 개념은 2010년 미국 비즈니스 인텔리전스 기업인 ‘펜타호’ 공동창업자인 제임스 딕슨이 소개했는데요. 그는 데이터 레이크를 이렇게 설명합니다. 데이터 저장소인 ‘데이터 마트’**가 “쉽게 사용할 수 있도록 깨끗이 처리됐고, 포장됐으며, 구조화된 생수병 저장고(a store of bottled water - cleaned and packaged and structured for easy consumption)”라면요. 데이터 레이크는 “더 자연 그대로 상태인 호수(a large body of water in a more natural state)”라고 하죠. “데이터 레이크 안에 든 콘텐츠(데이터)는 수원(소스·source)에서 흘러들어 호수를 채웁니다”. “호수의 여러 사용자들은 이를 조사하고, 호수에 들어가거나, 샘플을 가져갈 수도” 있고요.

데이터 레이크 특징은 데이터 웨어하우스와 비교하면 확실히 알 수 있죠. 첫째, 데이터 레이크에서는 데이터를 저장하기 전 이를 정제하지 않습니다. 데이터 웨어하우스에서는 데이터를 정제한 뒤, 이를 저장하고요. 둘째, 데이터 레이크에는 정형·반정형·비정형 데이터를 저장할 수 있죠. 데이터 웨어하우스는 정형 데이터를 저장하는 데 최적화됐습니다. 셋째, 데이터 레이크에는 미리 정의된 목적이 없는 데이터를 저장하는데요. 데이터 웨어하우스에 저장하는 데이터는 미리 정의된 목적이 있죠. 넷째, 데이터 레이크에서는 즉시 데이터***를 수집할 수 있는데요. 데이터 웨어하우스에서는 데이터를 정제하는 데 시간이 오래 걸려서 즉시 데이터를 수집할 수 없습니다. 다섯째, 데이터 레이크는 데이터 사이언티스트가 주로 이용하죠. 데이터 웨어하우스는 비즈니스 애널리스트가 주로 사용합니다. 여섯째, 데이터 레이크 환경설정은 유연합니다만. 데이터 웨어하우스는 고정됐죠.

데이터 레이크 기능은 데이터를 불러와서 ‘저장’하는 데 그치지 않습니다. 어도비에 따르면, 이는 데이터를 ‘분류’해서 사용자가 데이터 레이크 콘텐츠를 빨리 발견하도록 도와주고요. 데이터가 제공한 정보, 데이터 출처, 데이터가 마지막으로 갱신된 시기를 파악하게 해줍니다. ‘누가 데이터를 사용할 수 있는지’, ‘목적이 뭔지’ 명시해서 거버넌스 통제 시스템도 만들 수 있고요. ‘거버넌스 프레임워크’를 구축해서 데이터 사용 가능 여부도 알 수 있죠. 데이터 레이크에서는 데이터를 ‘분석’할 수도 있습니다. 대시보드, 시각화, 빅데이터 처리, 실시간 분석이 가능하고요. ‘머신러닝’을 수행해서 데이터를 토대로 결과를 예측하도록 지원하죠. 이는 조직이 더 나은 의사결정을 내리는 데 도움되고요.

데이터 레이크는 온프레미스, 클라우드 환경에서 모두 구축할 수 있죠. 하둡****, 관계형 데이터베이스 관리 시스템*****, 클라우드 기반 저장소를 플랫폼으로 쓸 수 있는데요. 하둡이 가장 흔합니다만. 트렌드는 클라우드죠. 오라클에 따르면, 클라우드는 유연하게 확장할 수 있고요. 온프레미스와 비교하면 비용이 덜 듭니다. 아드리안 콕크로프트 아마존 지속가능성 아키텍처 부사장은 ‘아마존웹서비스(AWS) 서밋 서울 2019’에서 “클라우드 기반 데이터 레이크가 우리 미래가 될 거”라고 전망했죠. 데이터 레이크 솔루션을 제공하는 기업도 다양한데요. 테라데이타, 델 EMC, AWS, 마이크로소프트, 구글 등이 그 예입니다.

데이터 레이크는 마케팅, 연구개발(R&D), 제조시설 등 여러 분야에서 쓰일 수 있는데요. AWS에 따르면, 데이터 레이크는 고객 관계 관리(CRM) 플랫폼에서 수집한 고객 데이터를 마케팅 플랫폼(구매 이력 포함), 소셜 미디어 분석과 결합할 수 있습니다. 이로써 가장 수익성 높은 고객 집단, 고객 이탈 원인, 충성도를 높이는 프로모션이나 보상도 파악할 수 있죠. 아울러 데이터 레이크는 R&D팀이 가설을 테스트하고, 가정을 개선하며, 결과를 평가하는 데 도움되고요. 제조시설 내 사물인터넷(IoT) 기기에서 수집한 데이터도 데이터 레이크에 저장, 분석할 수 있습니다. 이 과정에서 운영비를 줄이며 품질을 높이는 방법도 찾을 수 있죠.
*스키마(schema) : 데이터베이스에서 자료 구조, 자료 표현방법, 자료 간 관계를 형식 언어로 정의한 구조.
**데이터 마트(data mart) : 특정 사용자가 관심 갖는 데이터를 담은 비교적 작은 규모의 데이터 웨어하우스. 데이터 웨어하우스는 정부 기관 또는 정부 전체의 상세 데이터를 포함함. 데이터 마트는 전체 데이터 웨어하우스에 있는 일부 데이터를 갖고 특정 사용자를 대상으로 함.
***즉시 데이터 : 기억 장치에서 한 명령어 바로 다음에 나타나는 데이터를 지칭하는 용어.
****하둡 : 오픈 소스 기반 분산 컴퓨팅 플랫폼.
*****관계형 데이터베이스 관리 시스템 : 행과 열로 된 2차원이나 3차원 표로 데이터를 표현하는 데이터베이스 관리 시스템.

빅데이터 시대에 데이터 레이크가 주목받는 이유

오늘날 데이터 레이크가 떠오르는 까닭은 이렇습니다. 첫째, 요즘은 스마트폰과 SNS, IoT에서 다양한 데이터가 방대하게 생성되고 있고요. 이를 간단하고 효율적으로 관리할 플랫폼이 필요합니다. 데이터 레이크는 그 수단으로 꼽히죠. 정보통신산업진흥원에 따르면, 전 세계 데이터 유통량은 연 61% 늘고 있는데요. 2025년 이 규모는 175 제타바이트에 달할 걸로 전망됩니다. 데이터 생성 경로와 데이터 유형도 여러 가지인데요. 청구서·센서·온라인 서식·스프레드시트·소셜미디어·이메일 등에서 정형·반정형·비정형 데이터가 생성되죠. 데이터 레이크에서는 이들 데이터를 가리지 않고 원시 형태로 ‘한 곳’에 저장하고요. 이로써 데이터를 간단하고 효율적으로 관리하도록 지원합니다.

둘째, 데이터 레이크는 기업이 다양한 데이터 소스를 토대로 의사결정을 내리는 데 도움되는데요. 독일 컨설팅 기업 BARC 설문조사에 따르면, 기업이 의사결정에 참조하는 데 활용하는 내부 데이터 소스는 평균 5개, 외부 데이터 소스는 평균 3개라고 합니다. 한가지 데이터 소스만으로 의사결정을 내리는 곳은 드물죠. 기업에서 저장하는 데이터 약 80~90%는 비정형 데이터인데요. 데이터 웨어하우스는 정형 데이터를 저장하는 데 최적화돼 있죠. 이것만으로 기업이 여러 데이터 소스를 충분히 활용하는 데 한계가 있습니다. 그러나 데이터 레이크에는 정형·반정형·비정형 데이터를 저장할 수 있죠. 이로써 기업이 다양한 데이터 소스를 충분히 참조해서 운영현황을 자세히 파악하고요. 심사숙고해서 의사결정을 내리도록 뒷받침할 수 있습니다.

셋째, 데이터 레이크는 부서별·분야별로 흩어진 데이터를 한데 모아 조직에서 시너지를 강화하도록 지원할 수 있죠. 앞서 아마존이 데이터 사일로 때문에 데이터를 유기적으로, 전사 수준에서 이해하기 어려웠다고 했는데요. 워너 보겔스 아마존닷컴 CTO는 실리콘 앵글 기고 글에서 이렇게 덧붙입니다. “많은 다른 소스에서 데이터를 수동으로 수집해야” 했고요. “많은 팀이 독립적으로 운영돼서 문제를 함께 해결하며 능률을 올리기 어려웠”죠. 또 “모두가 여러 데이터 저장소에 접근할 수 없어 데이터에서 세부 정보를 얻기 힘들었”습니다. 아마존은 데이터 레이크로 이 문제를 해소할 수 있었죠. 데이터 접근성을 높일 수 있고요. 이는 전사 수준으로 데이터를 이해하는 데 도움됐습니다. 데이터 레이크를 도입하려는 기업도 이런 시너지를 기대하죠.

넷째, 데이터 레이크는 데이터 웨어하우스보다 운영비가 덜 들어 경제적인데요. 컨설팅 기업 맥킨지에서는 “기업이 적당한 가격에, 구하기 쉬운 하드웨어를 사용할 수 있기 때문”이라고 설명합니다. “데이터 레이크를 도입할 때, 데이터 세트를 인덱스*하거나, 저장소를 위해 이를 준비할 필요가 없다”는 이유도 있고요. 또 데이터 레이크는 저비용 스토리지를 위해 고안됐죠. 미국 소프트웨어기업 BMC에 따르면, 데이터 레이크의 데이터 저장 비용은 필요에 따라 높을 수도 있고, 낮을 수도 있습니다. 반면에 데이터 웨어하우스는 비싼, 독점 하드웨어와 소프트웨어를 사용해서 운영비가 더 들죠. 데이터 규모가 크면 데이터 웨어하우스의 데이터 저장 비용은 비쌀 수 있습니다.

다섯째, 데이터 레이크의 또 다른 장점도 이 플랫폼 주목도를 높이는 데 한몫하죠. 데이터 레이크에서는 큰 비용을 쓰지 않고 쿼리 속도를 높일 수 있습니다. AWS에 따르면, 여기서는 저비용 스토리지를 사용해도 쿼리** 결과가 점점 더 빨리 나올 수 있죠. 데이터 웨어하우스는 고비용 스토리지를 사용해야 가장 빠른 쿼리 결과를 얻을 수 있고요. 아울러 데이터 레이크에 저장하는 데이터는 최신 상태입니다. 오라클에 따르면, 사용자는 가능한 빨리 데이터를 데이터 레이크에 저장하려고 하는데요. 운영 보고, 분석, 비즈니스 모니터링 등을 하려는 기업이 최신 데이터를 얻도록 하기 위해섭니다. 그 결과, 데이터 레이크에서는 최신 데이터, 최신 정보를 접할 수 있죠. 이는 기업에서 시의성을 고려해서 의사결정을 내리는 데 도움될 수 있고요.

*인덱스(index) : 데이터를 기록할 경우 그 데이터 이름, 데이터 크기 등 속성과 그 기록 장소 등을 표로 표시한 것. 참조용 데이터. **쿼리(query) : 데이터베이스 테이블이나 테이블 조합에서 데이터나 정보를 요청하는 것.

데이터 레이크만 믿고 맡겨도 될까?

데이터 레이크에도 한계는 있는데요. 미국 연구·자문업체 가트너와 데이터 소프트웨어 기업 데이터브릭스에서 지적한 내용을 추리면 이렇습니다. 첫째, 데이터 레이크는 ‘데이터 늪’이 될 위험이 있죠. 데이터 늪은 ‘잘못 관리한 데이터 레이크’인데요. 많은 데이터 레이크가 데이터 늪으로 전락한다고 합니다. 데이터 늪에 빠진 데이터는 믿고 쓰기 어렵죠. 데이터 레이크에는 감독이나 거버넌스 없이 어느 데이터든 저장할 수 있습니다. 가트너에 따르면, “서술적 메타데이터*와 이를 관리하는 메커니즘이 없으면 데이터 레이크가 데이터 늪”이 되는데요. 이에 데이터 늪에 빠진 데이터는 ‘정체를 모르는 수상한 식재료’와 같죠. 일부 데이터 출처는 확인할 수 없고요(Vinay Rao, 2018)**. 이런 데이터를 의사결정에 활용하는 건 정체불명 식재료로 요리하는 것과 같습니다.

둘째, 보안과 액세스 제어*** 문제도 있죠. 앞서 언급했듯 데이터 레이크에서는 내용을 감독하지 않고 데이터를 저장할 수 있습니다. 가트너에 따르면, “프라이버시와 규제 요건 상 ‘위험 노출’ 문제가 제기될 수 있는 데이터가 있는”데요. 많은 데이터 레이크에서 이런 데이터를 저장할 수 있습니다. 또 중앙 데이터 레이크 기술의 보안 기능은 아직 초기 단계에 있다고 하죠. 데이터브릭스에서는 “데이터를 삭제하고 업데이트하는 기능 등이 부족해서 데이터 레이크는 제대로 보안을 지키고 관리하기가 어렵다”고 설명하는데요. 이 때문에 규제기관 요구사항을 충족하기 힘들다고 하죠.

셋째, 데이터 레이크 성능이 저하될 수 있습니다. 데이터브릭스에 따르면, “데이터 레이크 안에 저장된 데이터 규모가 커질수록 전통 쿼리 엔진 성능이 저하된다”고 하죠. 저장소에 있는 데이터에 반복해서 접근해도 쿼리 성능이 크게 저하될 수 있고요. 클라우드 저장소를 사용하는 현대 데이터 레이크에서는 삭제된 파일이 최대 한 달 동안 남을 수 있다고 합니다. 이 또한 쿼리 성능을 저하할 수 있죠. 아울러 데이터 레이크는 수 페타바이트 이상까지 커질 수 있고요. 데이터에 대한 데이터인 ‘메타데이터’로 인해 병목현상이 생길 수 있다고 합니다.

데이터 레이크가 데이터 웨어하우스 한계를 보완합니다만. 이를 완전히 대체할 수 없습니다. 특히 데이터 웨어하우스는 데이터 품질과 이용 편의성에 있어 데이터 레이크보다 우위에 있고요. 두 플랫폼 특징과 목적은 저마다 다르죠. 이에 많은 기업이 데이터 레이크와 데이터 웨어하우스를 모두 사용합니다. 삼정KPMG에 따르면, “모든 기업이 데이터 레이크가 필요한 건 아닌데요.” 기업마다 사업 성격에 따라 적합한 데이터 관리 플랫폼이 따로 있다고 하죠. “다양한 데이터를 한 곳에 모아야 하는 기업이 있고, 정형 데이터를 사일로 형식으로 모으는 게 더 효율적인 기업이 있습니다.” 이에 각 사 필요에 맞는 걸 골라 사용하는 게 좋고요.

지금도 데이터 레이크와 데이터 웨어하우스는 계속 발전하고 있습니다. 일각에서는 “둘 경계가 흐려질 거”란 전망도 있는데요. 데이터 레이크에는 데이터 웨어하우징, 실시간·고속 데이터 스트리밍 기술, 데이터 마이닝, 딥러닝, 분산 스토리지 등 여러 기술이 모여 있죠(Vinay Rao, 2018). 아울러 데이터 웨어하우스와 데이터 레이크 장점을 결합한 플랫폼인 ‘데이터 레이크하우스’도 나왔는데요. 이는 데이터 웨어하우스와 비슷한 데이터 구조와 관리 기능을 갖췄습니다. 클라우드 데이터 레이크에서 이를 직접 구동할 수도 있죠. 정형·반정형·비정형 데이터를 원시 형태로 저장하는 건 물론이고요. 데이터 레이크하우스에 저장한 데이터는 고품질이고 믿을 만합니다. 또 이는 데이터 유형에 상관없이 많은 데이터를 저비용으로 저장하도록 확장할 수 있죠.

그래도 데이터 레이크를 운영하려고 한다면 다음 사항을 유의해야 하는데요. 삼정KPMG, AWS, 스티치**** 제언을 정리하면 이렇습니다. 첫째, 데이터를 효율적으로 관리하기 위해 데이터 출처와 속성을 명확히 파악해야 하고요. 둘째, 데이터를 사용할 수 있으려면 이를 분류하고, 보안을 지키는 ‘정의된 메커니즘’이 필요합니다. 이는 데이터 늪을 막기 위해서도 중요하죠. 셋째, 조직의 우선순위를 세워야 합니다. 이어 무슨 데이터가 저장하기에 유용한지 감을 잡고요. ‘기업이 어떻게 발전할지’, ‘그게 잠재적 데이터 레이크 콘텐츠에 어떤 의미인지’ 예측해야 합니다.
넷째, 사용 사례와 최종 사용자를 정해야 하죠. 데이터는 정확하고 목적에 부합해야 하고요. 이를 다루는 사람들 입맛에도 맞아야 합니다. 다섯째, 데이터 레이크를 운영하기 전 조직에서는 소통을 잘해야 하는데요. 이는 초점을 유지하고, 중요한 이해관계자가 데이터 레이크에 있는 데이터 사용법과 그 이유를 반드시 알아야 하기 때문이죠. 여섯째, 탄탄한 데이터 수집 절차를 확립해야 합니다. 데이터 레이크에서는 손상되지 않은 원시 데이터를 저장하는 게 가장 중요하죠. 이에 데이터를 빠르고 정확하게 수집해야 하고요.

*서술적 메타데이터(descriptive matadata) : 정보 내용과 관계없으나 ‘그 정보가 어떻게 만들어졌는지’ 표현하는 것.
**”데이터 늪에서는 메타데이터 라벨을 적절하게 문서화하지 않거나 잘못 문서화함. 일부 데이터는 통합 도구가 읽을 수 없거나 쿼리로 검색할 수 없는 형태로 있음. 이 때문에 좋은 데이터에 접근할 수 없음(Vinay Rao, 2018)”
***엑세스 제어(access control) : 컴퓨터에 사용자가 접근할 때, 사용자를 식별하고 사용자 접근권을 검증하는 기능.
****스티치 : 미국 ETL(Extraction, Transformation, Loading) 기업. ETL은 내부 데이터 수집 방법. 다양한 소스 시스템에서 필요한 데이터를 추출(Extraction)해 변환(Transformation) 작업을 거쳐 저장하거나 분석을 담당하는 시스템으로 전송, 적재(Loading)하는 모든 과정을 포함함.

마무리하며

지금까지 데이터 레이크 개념과 기능, 활용 분야를 살펴봤고요. 대두 배경과 한계, 유의사항, 전망을 알아봤습니다. 이번 글의 요점은 다음과 같은데요.

1. ’데이터 레이크’는 조직에서 수집한 정형·반정형·비정형 데이터를 원시 형태(raw data)로 저장하는 단일한 데이터 저장소입니다.
2. 데이터 레이크 개념은 2010년 미국 비즈니스 인텔리전스 기업인 ‘펜타호’ 공동창업자인 제임스 딕슨이 소개했죠. 그에 따르면, 데이터 저장소인 데이터 마트는 “쉽게 사용할 수 있도록 깨끗이 처리됐고, 포장됐으며, 구조화된 생수병 저장고”고요. 데이터 레이크는 “더 자연 그대로 상태인 호수”입니다. “데이터 레이크에 든 콘텐츠(데이터)는 수원에서 흘러들어 호수를 채우”고요.
3. 데이터 레이크 특징은 이렇습니다. 첫째, 데이터 레이크에 데이터를 저장하기 전에는 이를 정제하지 않아도 되고요. 둘째, 정형·반정형·비정형 데이터를 모두 저장할 수 있죠. 셋째, 데이터 레이크에는 미리 정의된 목적이 없는 데이터를 저장합니다. 넷째, 이는 즉시 데이터를 수집할 수 있고요. 다섯째, 데이터 사이언티스트가 데이터 레이크를 주로 이용하죠. 여섯째, 데이터 레이크 환경설정은 유연합니다.
4. 데이터 레이크에서는 데이터를 저장, 분류, 분석할 수 있고요. ‘머신러닝’을 수행해서 데이터를 토대로 결과를 예측할 수도 있죠.
5. 데이터 레이크는 온프레미스, 클라우드 환경에서 모두 구축할 수 있습니다. 하둡, 관계형 데이터베이스 관리 시스템, 클라우드 기반 저장소를 플랫폼으로 쓸 수 있고요. 하둡이 가장 흔하지만 트렌드는 클라우드입니다.
6. 데이터 레이크는 마케팅, 연구개발(R&D), 제조시설 등 여러 분야에서 쓰일 수 있죠.
7. 오늘날 데이터 레이크가 떠오르는 이유는 이렇습니다. 첫째, 데이터 레이크는 빅데이터 시대에 폭증하는 데이터를 간단하고 효율적으로 관리할 수 있죠. 둘째, 이는 기업이 다양한 데이터 소스를 토대로 의사결정을 내리는 데 도움됩니다. 셋째, 데이터 레이크는 부서별·분야별로 흩어진 데이터를 한데 모아 조직에서 시너지를 강화하도록 지원하고요. 넷째, 이는 데이터 웨어하우스보다 운영비가 덜 들죠. 다섯째, 데이터 레이크에서는 큰 비용을 들이지 않고 쿼리 속도를 높일 수 있고, 최신 데이터를 저장할 수 있습니다.
8. 데이터 레이크에도 한계는 있는데요. 첫째, 데이터 레이크는 ‘데이터 늪’이 될 위험이 있습니다. 둘째, 보안과 액세스 제어 문제가 있죠. 셋째, 이는 성능이 저하될 수도 있고요.
9. 데이터 레이크는 데이터 웨어하우스 보완재이며 대체재는 아닙니다. 두 플랫폼 특징과 목적도 다르고요. 각 사 필요에 맞는 걸 골라 사용하는 게 좋죠.
10. 지금도 데이터 레이크와 데이터 웨어하우스는 계속 발전하고 있고요. 요즘은 데이터 웨어하우스와 데이터 레이크 장점을 결합한 플랫폼인 ‘데이터 레이크하우스’도 떠오르고 있습니다.


References
[1] Werner Vogels, ‘How Amazon is solving big-data challenges with data lake’, Silicon Angle, 2020.1.30, siliconangle.com/2020/01/30/amazon-solving-big-data-challenges-data-lakes/
[2] Elizabeth Mixson, ‘Amazon: Business Analytics Mastermind or Anti-Trust Infringer?’, AI Data&Analytics Network, 2021.4.13, www.aidataanalytics.network/business-analytics/articles/amazon-business-analytics-mastermind-or-anti-trust-infringer
[3] ’What is a data lake?’, Amazon Web Service, aws.amazon.com/ko/big-data/datalakes-and-analytics/what-is-a-data-lake/
[4] 방은주, ‘[솔루션 리뷰/테라원 슈퍼쿼리] ‘빅데이터 시장 최적 솔루션…데이터 패브릭 시장 선도’’, ZD넷코리아, 2020.5.14, zdnet.co.kr/view/?no=20200514082719
[5] ’데이터 웨어하우스’, 매일경제 용어사전, 2021.6.29 접속, terms.naver.com/entry.naver?docId=3366&cid=43659&categoryId=43659
[6] 신찬옥, ‘[단독]SK그룹 ‘디지털 혁신’ 1년 빨라진다’, 매일경제, 2020.10.25, www.mk.co.kr/news/business/view/2020/10/1093528
[7] 김태성, ‘[단독]네이버·쿠팡 잡는다’ 롯데의 무기는 ’데이터’’, 매일경제, 2020.10.21, www.mk.co.kr/news/business/view/2020/10/1079162/
[8] 박경훈, ‘’증권사가 플랫폼 기업과 맞춤형 투자 경쟁하는 시대 왔죠’’, 서울경제, 2021.3.8, www.sedaily.com/NewsVIew/22JQ9TCIHM
[9] ’비정형 데이터 보호’, IBM, 2021.6.28 접속, www.ibm.com/kr-ko/products/optim-data-privacy-for-unstructured-data
[10] ’데이터베이스 스키마’, 위키백과, 2021.6.29 접속, ko.wikipedia.org/wiki/데이터베이스_스키마
[11] Chrissy Kidd, ’Data Storage Explained : Data Lake vs Warehouse vs Database’, bmc, 2020.10.28, www.bmc.com/blogs/data-lake-vs-data-warehouse-vs-database-whats-the-difference/
[12] James Dixon, ‘Pentaho, Hadoop, and Data Lakes’, James Dixon’s Blog, 2010.10.14, jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/
[13] ’데이터 마트’, IT용어사전, 2021.6.30 접속, terms.naver.com/entry.naver?docId=842334&cid=42346&categoryId=42346
[14] ’데이터 레이크(Data Lake)란? 정의, 구축 및 솔루션’, 레드햇, www.redhat.com/ko/topics/data-storage/what-is-a-data-lake
[15] ’Why are data lakes the future of big data?’, Oracle, www.oracle.com/a/ocom/docs/why-are-data-lakes-the-future-of-big-data-infographic.pdf
[16] ’즉시 데이터’, IT용어사전, 2021.6.30 접속, terms.naver.com/entry.naver?docId=1594276&cid=50371&categoryId=50371
[17] ’What is a data lake?’, Adobe, business.adobe.com/glossary/data-lake.html#q1
[18] ’하둡’, IT용어사전, 2021.7.8 접속, terms.naver.com/entry.naver?docId=2454988&cid=42346&categoryId=42346
[19] ’관계형 데이터베이스 관리 시스템’, IT용어사전, 2021.7.8 접속, terms.naver.com/entry.naver?docId=845168&cid=42346&categoryId=42346
[20] ’2017 데이터산업 백서’, 한국데이터진흥원, 2017.7.12, www.kdata.or.kr/info/info_02.html?pubyear=2017
[21] 김태환, ‘AWS, ‘클라우드 기반 ‘데이터 레이크’ 필요성 커진다’’, 테크M, 2019.4.17, slv.techm.kr/news/articleView.html?idxno=6163
[22] AWS 기반 분석 페이지, 2021.6.30 접속, aws.amazon.com/ko/big-data/datalakes-and-analytics/
[23] 마이크로소프트 애저 데이터 레이크 페이지, 2021.6.30 접속, azure.microsoft.com/ko-kr/solutions/data-lake/
[24] 구글 클라우드 데이터 레이크 현대화 페이지, 2021.6.30 접속, cloud.google.com/solutions/data-lake?hl=ko
[25] 조성현, ‘인공지능과 언택트 시대, 국내 주요산업의 클라우드 도입 현황 및 전망’, 정보통신산업진흥원, 2020.4.22, www.nipa.kr/main/selectBbsNttView.do?key=116&bbsNo=11&nttNo=7438&bbsTy=&searchCtgry=&pageUnit=10&searchCnd=all&searchKrwd=&pageIndex=2
[26] ’Using internal and external data for decision-making’, BI-SURVEY.com, bi-survey.com/data-sources
[27] ’인덱스’, 정보통신용어사전, 2021.7.3. 접속, terms.naver.com/entry.naver?docId=797302&cid=50373&categoryId=50373
[28] Mikael Hagstroem·Matthias Roggendorf·Tamim Saleh·Jason Sharma, ’A smarter way to jump into data lakes’, Mckinsey, 2017.8.28 www.mckinsey.com/business-functions/mckinsey-digital/our-insights/a-smarter-way-to-jump-into-data-lakes#
[29] ’History and evolution of data lakes’, Databricks, databricks.com/discover/data-lakes/history
[30] ’Query’, Techopedia, 2021.7.4. 접속, www.techopedia.com/definition/5736/query
[31] ’What is a data lake?’, Oracle, www.oracle.com/big-data/what-is-data-lake/
[32] ’Introduction to Data lakes’, Databricks, databricks.com/discover/data-lakes/introduction
[33] ’Gartner says beware of the data lake fallacy’, Gartner, 2014.7.28, www.gartner.com/en/newsroom/press-releases/2014-07-28-gartner-says-beware-of-the-data-lake-fallacy
[34] Vinay Rao, ’Data Lakes and data swamps’, IBM, 2018.3.7, developer.ibm.com/technologies/analytics/articles/ba-data-becomes-knowledge-2/
[35] ’메타데이터’, HRD 용어사전, 2021.7.6 접속, terms.naver.com/entry.naver?docId=2178207&cid=51072&categoryId=51072
[36] ’액세스 제어’, 네이버 국어사전, 2021.7.6 접속, ko.dict.naver.com/#/entry/koko/4b9c1df0ea8144bda872aa1db4849c4d
[37] ’What are the challenges with data lake?’, Databricks, databricks.com/discover/data-lakes/challenges
[38] 김기범·이효정·박도휘, ‘기업 운영 혁신을 위한 데이터 과학 : 기업의 활용방안’, 삼정KPMG 경제연구원, 2020.3. assets.kpmg/content/dam/kpmg/kr/pdf/2020/kr-im-data-20200306.pdf
[39] ’What is a data lakehouse?’, Snowflake, www.snowflake.com/guides/what-data-lakehouse
[40] Debanjan Saha, ‘A revolution is coming for data and the cloud: 6 predictions for 2021’, Google Cloud, 2020.12.24, cloud.google.com/blog/products/data-analytics/what-to-expect-from-cloud-data-analytics-in-2021
[41] ’Five myths about the data lake’, IBM, www.ibm.com/downloads/cas/BOGPM93R
[42] ’ETL과 크롤링 엔진’, 빅데이터 플랫폼 전략, 2021.7.8 접속, terms.naver.com/entry.naver?docId=3331545&cid=57613&categoryId=57613
[43] ’What is a data lake? Examples & Solutions’, Stitch, www.stitchdata.com/resources/what-is-data-lake/




▶  해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶  해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


공유하기 열기
박민영
박민영

프리랜서 테크니컬 라이터