클라우드

ILM(Information Lifecycle Mgmt.)이란 무엇인가?

정재호 프로

2017-05-10


글로벌 대표 리서치 기관에 따르면 전세계 데이터 양은 2년 마다 2배씩 증가하고 있으며, 기업에서 다루는 스토리지 볼륨은 연평균 50% 이상 커지고 있습니다. 이에 비례하여 기업의 데이터 관리 비용도 기하급수적으로 늘어나고 있습니다.

늘어만 가는 데이터 관리 비용을 절감할 수 있는 방안은 없을까요? 효율적인 데이터 관리로 운영비용을 절감시켜 주는 ILM (Information Lifecycle Management) 개념과 구현 기술을 살펴보고, 삼성SDS의 ILM 솔루션에 대해 알아보겠습니다.

ILM (Information Lifecycle Management) 이란?

많은 데이터가 있지만 모든 데이터가 다 중요한 것은 아닙니다. 데이터는 발생 후 시간이 지남에 따라 가치가 떨어지게 됩니다. 데이터 유형에 따라 차이는 있지만 발생한지 1년이 경과하면 사용 빈도는 급격히 줄어들게 됩니다.

ILM은 "모든 데이터를 동일한 방식으로 저장할 필요가 있을까?"하는 의문에서 생겨났습니다.
데이터도 수명주기가 있어, 생성되어 한창 사용되다가 점차 사용 빈도가 줄어들고 (Hot → Warm → Cold), 마지막에는 사용가치가 없어져서 폐기(Vault) 됩니다.

ILM은 데이터의 수명주기에 따라 보관 방식을 달리하여 운영 비용을 절감하는 데이터 관리 개념입니다. SNIA(Storage Networking Industry Association)의 ILM 정의입니다.

'ILM은 정보의 생성에서 소멸까지 가장 적절하고 효율적인 IT 인프라를 이용해 정보의 비즈니스 가치를 관리하는 정책(Policy), 프로세스(Process), 실행(Practice), 도구(Tool)로 구성된다.' ILM은 단순 기술이라기 보다는 데이터의 효율적 관리 체계를 정의하고 구현하는 기술을 포괄하는 개념입니다.

데이터 수명주기에 따른 관리방식 변화를 설명하고 있습니다. 데이터도 수명주기가 있어, 생성되어 한창 사용되다가 점차 사용빈도가 줄어들고, 마지막에는 사용가치가 없어져서 폐기(Vault) 됩니다. 
ILM은 데이터의 수명주기에 따라 보관 방식을 달리하여 운영 비용을 절감하는 데이터 관리 개념입니다.
사용빈도가 높은 데이터는 고가의 스토리지를 사용하여 사용 성능을 높이고, 사용빈도가 떨어지는 데이터는 저가 스토리지를 사용하여 사용 성능은 다소 떨어지지만 저렴한 비용으로 데이터를 유지 보관하는 방식입니다. |데이터 수명주기에 따른 관리방식 변화

ILM은 2000년대 중반에 IT 업계의 이슈로 떠올랐다가 최근에 다시 주목 받고 있습니다.

그간 빅데이터 분석(Big Data Analytics) 등 새로운 서비스의 등장으로 대량 데이터의 보존 요구가 증가하고 있습니다.
또한 x86서버의 범용 하드 디스크를 스토리지로 사용하는 오픈소스 분산 스토리지 기술의 발전으로 스토리지 업체의 도움 없이도 기업에서 쉽게 저가 스토리지를 구성할 수 있게 되었습니다. 빅데이터 시대를 맞아 데이터 운영비용 절감이 더욱 절실해졌고, 스토리지 기술발전으로 저가 스토리지 구성이 용이하게 된 것이 ILM이 최근 다시 주목 받는 주요 요인입니다.

데이터의 양 증가와 함께 데이터 컴플라이언스 요건의 강화도 ILM이 주목 받는 주된 이유입니다.
데이터 중에는 가치는 떨어졌지만 장기 보존해야 하는 것이 있습니다.

주로 소송과 분쟁을 다루는 데 참조되는 데이터들로, 의무 보존기간이 법률로 정해져 있습니다.
미국의 경우 사베인스-옥슬리법(Sarbanes-Oxley Act, 회계법인 감사와 관련된 미연방법률), HIPAA(Health Insurance Portability & Accountability Act, 병원간 의료보험적용 및 회계 문제 규정을 다룬 건강보험법)이 대표적입니다.

예를 들어 HIPAA에 의하면 Healthcare사업에서 다루는 소아 의료정보는 21년 이상 보관을 의무화하고 있습니다.
국내도 금융사의 경우 금융감독원의 지침에 따라 금융거래 데이터를 보관 관리하고 있고, 제조사들은 국제 특허 소송 등에 대비하여 제조정보를 5~20년간 보존하고 있습니다.

ILM 기술

ILM 은 기업의 데이터 관리 아키텍처를 구성하는 기술요소 중 하나입니다.

ILM을 구현하는 기술 중 가장 핵심적인 기술은 고가의 운영 스토리지 데이터 중 가치가 떨어지는 데이터를 구분하여 저비용 스토리지로 이관해 주는 아카이빙(Archiving) 관리 기술입니다.

데이터 관리 아키텍처, 기업의 데이터 관리 기능 중 ILM이 한 부분임을 보여주고 있습니다. 기업의 데이터 관리 기능에는 품질관리, 데이터 보완관리, 메타데이터 표준관리, 감사대응 등의 다양한 기능이 있으며 ILM은 데이터 아카이빙과 복구관리를 포함하는 기능으로 기업 데이터 관리의 한 영역입니다. |데이터 관리 아키텍처

아카이빙(Archiving)과 백업(Backup)을 같은 기술로 생각하기 쉽지만 아카이빙과 백업은 차이가 있습니다.

백업은 운영 데이터의 스냅샷 복사본으로 장애 또는 재해 복구 용도로 사용됩니다.
이와 달리 아카이빙은 법률적인 데이터 보존 기한 준수 목적 등으로 필요 데이터를 저렴한 스토리지에 분리 보관하여 필요할 때 즉시 활용하도록 하는 기술입니다.

데이터를 아카이빙 스토리지로 분리하면 운영 스토리지에서 다루는 데이터의 볼륨이 감소하여 운영시스템 효율이 향상되는 효과가 생깁니다.
반면에 백업으로는 이러한 효과를 얻을 수 없습니다.

아카이빙과 백업의 개념 차이를 설명하고 있습니다. 아카이빙(Archiving)과 백업(Backup)을 같은 기술로 생각하기 쉽지만 아카이빙과 백업은 차이가 있습니다. 백업은 운영 데이터의 스냅샷 복사본으로 장애 또는 재해 복구 용도로 사용됩니다. 주로 단기간 보관(수일~수주) 하며, 데이터 불륨 증가 관리가 불가합니다. 이와 달리 아카이빙은 법률적인 데이터 보존 기한 준수 목적 등으로 필요 데이터를 저렴한 스토리지에 분리 보관하여 필요할 때 즉시 활용하도록 하는 기술입니다. 오랜 기간 보관 (수년~수십년) 하며, 데이터 볼륨 증가 관리 솔루션 입니다. |아카이빙 vs. 백업

ILM 솔루션 유형

운영 스토리지에서 저비용 아카이빙 스토리지로 대량의 데이터를 이관하는 일을 수작업으로 수행하기에는 어려움이 있습니다.

이관을 위한 데이터 관리 정책 정의, Job/Schedule 정의, 이관 실행 및 결과 모니터링에 이르는 전 이관 과정을 관리해 주는 자동화 솔루션이 필요합니다.

ILM 개념을 자동화하여 구현한 다양한 상용 솔루션이 시장에 나와 있습니다.

아래 도표와 같이 대표적으로 세가지 유형의 솔루션이 있고, 각각 장단점을 가지고 있어 운영 상황에 맞는 제품 선정이 필요합니다.

ILM 솔루션의 유형을 구현기술 관점에서 설명하고 있습니다. ILM 솔루션은 하드웨어와 독립된 소프트웨어로 기능하는 '소프트웨어 방식'과 하드웨어 스토리지 장비에 기능이 추가된 하드웨어 방식이 있습니다. 하드웨어 방식은 다시 스토리지 어플라이언스 제품과 같은 '스토리지 내장 방식'과 별도의 게이트웨이 하드웨어를 가져가는 '게이트웨이 방식'으로 구분됩니다. 스토리지 업체에서 제공하는 ILM 솔루션들은 ‘스토리지 내장 방식’이 주를 이룹니다. 스토리지 자체에 Tiering기능이 있어, 정해진 규칙에 의해 데이터를 고성능과 저성능 스토리지로 구분하여 저장해 주는 방식입니다. 어플리케이션에서는 1차 운영 스토리지 만을 바라보고 2차 아카이빙 스토리지는 별도로 인식할 필요가 없는 장점이 있습니다.  반면에 아카이빙 데이터 조회 시 이를 1차 운영 스토리지로 복원(Restore)하여 조회 성능이 떨어지고 사용할 수 있는 스토리지 제품이 제한적인 단점이 있습니다.‘소프트웨어 방식’과 ‘게이트웨이 방식’은 특정 스토리지 제품에 종속되지 않고 오픈소스 분산 스토리지 기술과 x86 서버의 범용하드 디스크를 사용하여 저렴하게 대용량 스토리지를 구성하는 기술로 최근 많은 제품이 등장하고 있습니다. |ILM 솔루션 유형

스토리지 업체에서 제공하는 ILM 솔루션들은 '스토리지 내장 방식'이 주를 이룹니다.
스토리지 자체에 Tiering 기능이 있어, 정해진 규칙에 의해 데이터를 고성능과 저성능 스토리지로 구분하여 저장해 주는 방식입니다.

어플리케이션에서는 1차 운영 스토리지 만을 바라보고 2차 아카이빙 스토리지는 별도로 인식할 필요가 없는 장점이 있습니다.

반면에 아카이빙 데이터 조회 시 이를 1차 운영 스토리지로 복원(Restore)하여 조회하는 방식을 사용하여 조회 성능이 떨어지는 단점이 있습니다. 또한 사용할 수 있는 스토리지 제품이 제한적인 단점이 있습니다.

최근 오픈소스 분산 스토리지 솔루션들이 다수 등장하여 x86 서버의 범용 하드 디스크를 사용하여 저렴하게 대용량 스토리지를 구성하는 기술이 발전하고 있습니다.
현재 x86 서버 한대로 600TB를 구성할 수 있는 제품도 시장에 나와 있고 점점 더 발전이 예상됩니다.(10TB HDD 56 Slots(확장 시 60 Slots) 제공)
이러한 기술발전을 반영하여 특정 스토리지 제품에 종속되지 않고, 범용 스토리지를 지원하는 '소프트웨어 방식'과 '게이트웨이 방식'의 ILM 제품들이 등장하고 있습니다.

ILM 도입 절차

기업에서 다루는 데이터는 ERP(SAP 등) DB, Non-ERP DB, File 등 여러 유형으로 구성되어 있습니다.
ILM 도입을 위해서는 전사적 관점에서 일관성 있는 데이터 관리 정책을 수립하는 것이 선행되어야 합니다.


기업 전체의 데이터 관리 정책이 정해지면 이를 토대로 시스템 별로 관리 대상 데이터의 특성(수명 주기에 따른 가치 중요도,사용 빈도, 데이터 유형 - 기준정보, 임시정보 등)을 분석하여 상세 이관 대상과 기준을 정의하는 작업이 필요합니다.

이관 기준 정의와 함께 이관 정책 변경 기준, 데이터 삭제 정책 등 운영기준을 정의하고 이를 실행할 Job/Schedule을 설계합니다.
이후 초기 이관과 검증 작업을 거쳐 이관 실행을 확인하고 본격 적용하는 절차를 거치게 됩니다.

ILM 도입 프로세스,기업에서 ILM을 도입하는 프로세스를 설명하고 있습니다. 기업에서 다루는 데이터는 ERP(SAP 등) DB, Non-ERP DB, File 등 여러 유형으로 구성되어 있습니다. ILM 도입을 위해서는 전사적 관점에서 일관성 있는 데이터 관리 정책을 먼저 수립해야 합니다. 다음은 시스템 별로 관리 대상 데이터의 특성(수명 주기에 따른 가치 중요도, 사용 빈도 등)을 분석하여 이관 대상과 기준을 정의합니다. 이관 기준 정의와 함께 이관 정책 변경 기준 등 운영기준을 정의하고 이를 실행할 Job/Schedule을 설계합니다. 이후 초기 이관과 검증 작업을 거쳐 적용하게 됩니다. |ILM 도입 프로세스

SDS ILM 솔루션의 특징

ILM은 스토리지 업체에서 제공하는 솔루션 아닌가? 서비스 회사인 SDS가 무슨 ILM 솔루션을 갖고 있다는 것인가? 하는 의문을 가지실 수 있습니다.

오픈소스 기술의 발전으로, 이제 아카이빙 스토리지의 구성을 스토리지 업체에 의존하던 시대는 지났습니다.
SDS는 오픈소스 DB 및 분산 스토리지 기술력을 토대로 스토리지에 독립적인, 서비스로 제공 가능한 ILM 구현 기술을 확보해 나가고 있습니다.

삼성SDS는 현장 요구사항을 수렴하여,데이터 관리 정책기반으로 Job/Schedule을 정의하고, 운영 데이터를 저비용 스토리지로 자동 이관해 주는 SDS ILM 솔루션을 확보하여 현장에 적용하고 있습니다.
ILM 솔루션 유형 중 어플리케이션의 데이터 접근에 직접 관여하지 않고, 범용하드 디스크로 구성된 저가 스토리지를 지원하는 ‘소프트웨어 방식’을 채택하고 있습니다

SDS가 보유한 '소프트웨어 방식'의 ILM 솔루션의 주요 기능을 설명하고 있습니다. SDS ILM은 데이터 관리 정책기반으로 아카이빙 Job/Schedule을 정의하고, 운영 데이터를 저비용 스토리지로 자동 이관해 주는 기능을 제공합니다. |SDS ILM 기능 구성

삼성SDS ILM의 주요 기능 특징은 다음과 같습니다.

1) 비즈니스 Rule 기반 이관정책 관리 기능
    Time based (데이터 발생시점 기준으로 구분), Business Object based (업무 룰로 연관된 데이터 구분,
    예: 장기 입원환자 데이터) 등 다양한 정책정의 기능 제공

2) Visual Archiving Process Design 기능
    Graph Notation을 사용한 직관적인 이관 작업 흐름 설계 기능 제공

3) Job/Schedule 관리 및 자동 이관 기능
    이관 프로그램을 자동으로 생성하여 이관 작업을 자동 실행하는 기능 제공

SDS ILM 시스템 구성, SDS ILM이 지원하고 있는 스토리지를 설명하고 있습니다. SDS ILM의 가장 큰 특징은 아카이빙 스토리지 구성을 위해 특정한 상용제품을 사용하는 상용 솔루션과는 달리 오픈소스 분산 스토리지를 사용하여 스토리지 비용을 절감시킨 것입니다. 현재 파일 아카이빙의 경우 ‘NAS to GlusterFS’, ‘NAS to 저가형 NAS’로의 이관 기능을 제공하고 있습니다. 스토리지에 독립적인 이관 기술사용으로 이관 대상(Target) 스토리지는 확장 가능합니다. |SDS ILM 시스템 구성

삼성SDS ILM의 가장 큰 특징은 아카이빙 스토리지 구성을 위해 특정한 상용 제품을 사용하는 상용 솔루션과는 달리 오픈소스 DB와 오픈소스 분산 스토리지를 사용하여 스토리지 비용을 절감시킨 것입니다.

현재 DB 아카이빙의 경우 'Oracle to PAS/Ceph 조합', File 아카이빙의 경우 'NAS to GlusterFS', 'NAS to 저가형 NAS'로의 이관 기능을 제공하고 있습니다.
스토리지에 독립적인 이관 기술 사용으로 이관 대상(Target) 스토리지는 확장 가능합니다.

주) PAS : Postgres Advanced Server로 오픈 소스(PostgreSQL)에 Oracle과 호환성을 갖춘 솔루션
    Ceph : Scale out 아키텍처를 지원하는 x86 기반 오픈소스 분산 스토리지 소프트웨어
    GlusterFS : Scalable Network File system구축에 적용 가능한 오픈소스 분산 스토리지 소프트웨어

SDS ILM 도입효과

삼성SDS ILM 도입으로 IT비용절감과 운영성능 향상 효과를 얻을 수 있습니다.
DB를 사용하는 시스템의 경우, 데이터 양이 증가함에 따라 운영 데이터 조회 성능이 감소하고 백업, 복구 시간이 길어져서 운영 효율도 감소합니다.

가치가 떨어진 데이터를 운영 스토리지에서 분리하면 데이터 볼륨이 줄어들어 운영 시스템의 조회 성능과 운영 효율을 향상 시킬 수 있습니다. 또한 DB 라이선스 비용 측면에서도 오픈소스 DB 활용으로 비용절감 효과를 얻을 수 있습니다.

실제 삼성SDS ILM을 적용한 사이트의 효과를 분석한 결과입니다.
기존 고가의 H/W, S/W를 계속 증설했을 경우의 예상 비용과 저가 스토리지로 대체하여 운영했을 때의 비용 비교 시, 비용을 30% 이상 절감할 수 있었습니다. 또한 운영 데이터 감소로 운영시스템 조회 성능과 백업, 복구 작업 효율을 30% 이상 향상시킬 수 있었습니다.

SDS ILM 도입 효과, SDS ILM 도입효과를 설명하고 있습니다. SDS ILM을 적용한 사이트의 효과를 분석한 결과 기존 고가의 H/W, S/W를 계속 증설했을 경우의 예상 비용과 저가 스토리지로 대체하여 운영했을 때의 비용 비교 시, 운영비용 30% 이상 절감과, 운영시스템 조회 성능과 백업, 복구 작업 효율을 30% 이상 향상 효과가 있었습니다. |ILM 도입 효과

ILM 의 발전 방향

이제 데이터를 다루는 기업은 증가하는 데이터를 효율적으로 관리하기 위해 ILM도입을 검토해야 할 때가 되었습니다.

IT 기술의 급격한 발전과 다양한 신규 서비스의 등장으로 기업에서 다루는 데이터 양은 지속적으로 증가할 것이 확실하기 때문입니다.
휴대폰 제조업체를 예로 들면, 신규 모델을 출시할 때마다 기존 모델 대비 2배 이상의 데이터를 사용하고 있다고 합니다.

삼성SDS도 예외는 아닙니다. 분석용 데이터부터 운영 로그 데이터에 이르기까지 대량의 데이터를 보존하며 다루어야 하는 상황으로, 데이터의 효율적인 관리 방안이 절실히 요구되고 있습니다
. 이에 대응하기 위해 삼성SDS는 ILM 솔루션을 자체 확보하여 현장에 적용하면서 기술을 발전시키고 운영 노하우를 축적하고 있습니다.

삼성SDS ILM에 향후 추가될 주요 기능은 세 가지 입니다.

첫째, Public/Private 클라우드 스토리지로의 아카이빙 지원을 준비하고 있습니다.
SDS의 클라우드 스토리지 서비스인 SoFS(Samsung owned File System)로의 이관 기능을 준비하고 있습니다.
또한 아마존(Amazon), 오라클(Oracle) 등 외부 업체에서 제공하는 저가 클라우드 스토리지 서비스를 사용하는 고객 사업장을 지원하기 위해 Public클라우드 스토리지로의 데이터 이관을 지원할 계획입니다. 아울러서 Private와 Public클라우드 스토리지간 데이터 전환 기능도 준비하고 있습니다.

둘째, NoSQL 사용이 확대되고 있어 NoSQL DB를 Source, Target으로 하는 이관 기능을 지원할 계획입니다.

셋째, Analytics 기능을 적용한 데이터 가치 분석 기술입니다.
데이터 사용 현황 데이터 분석을 통해 아카이빙 대상 데이터를 식별하는 기준 제시를 자동화하는 것을 목표로 합니다.

삼성SDS는 현장의 필요와 요구에 기반하여 ILM 솔루션을 지속적으로 발전시킬 계획입니다. ILM 에 관심이 있는 기업과 기술을 공유하고 함께 발전시켜 나갈 수 있게 되기를 기대합니다.



▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

정재호 프로
정재호 프로
삼성SDS 클라우드사업부
Software Engineering, Software Architecture, Data Architecture 분야의 업무경험을 보유하고 있으며,현재는 삼성SDS ILM 솔루션 개발과 적용 기술지원을 담당하고 있다.
Contact : insight.sds@samsung.com