애널리틱스

삼성SDS 빅데이터 사례 탐구

2017-06-19

삼성SDS 빅데이터 사례 탐구

우리 회사에서도 많은 사업부에서 빅데이터를 활용하고 있으며 성공사례도 많이 볼 수 있다. 반도체 설비장비 로그분석을 통한 불량품 예측 및 제품 딜리버리, 재고예측 시스템 등 많은 분야에서 빅데이터를 활용되고 있다. 그 중 삼성SDS 인프라사업부에서 진행하였던 VDI 고객데이터 분석 및 GOV 고도화를 위한 데이터분석 두 건에 대해 자세히 이야기해보자.

VDI 고객데이터 분석

이 과제는 VDI서비스 성능 향상을 위해 관련 데이터를 분석한 케이스이다. VDI 서비스는 개별 시스템에서 데이터를 관리하므로 장애발생시 모든 데이터를 연결해주는 Single Key Factor가 없어서 원인도출이 어렵다. 접속불가뿐만 아니라 서비스 전반에 대한 고객 SR 감소를 위해서는 VDI 로그 데이터를 포함한 통합 분석이 필요하며 데이터의 종류 및 양이 많으므로 빅데이터 기술이 꼭 필요한 분야이다.

먼저 포탈시스템에 누적된 접속 로그를 통해 VDI 접속 단계별 임계치 설정 및 모니터링 방안을 아래와 같이 구할 수 있다. 다양한 로그의 패턴분석을 통해 5단계로 중분류 하여 각 단계별 시간분포를 분석하였다. 단계별로 계산된 기준시간 초과 시 장애로 의심되므로 긴급조치방안을 자동 제시해줌으로써 빠른 조치가 가능할 수 있다.

빅데이터 기술을 활용하여 VDI서비스 사용자 패턴을 파악 할 수 있다. 자원을 많이 사용하는 사용자는 비용을 많이 지불해야 하며 상대적으로 적게 쓰는 사람에 대해서는 분배된 자원을 회수하는 정책에 대한 근거자료로 사용 가능하다. 이를 위하여 군집분석(Clustering)을 이용하여 다음과 같이 5가지 그룹으로 구분 지울 수 있다.

군집1,2,3은 상대적으로 서비스를 많이 사용하고 있고 군집4,5가 자원 사용량이 적은 그룹이다. 각 군집에 대한 가격 및 자원할당 정책을 다르게 가져간다면 효과적인 운영이 될 것이라 생각된다. 마지막으로 한정된 자원을 효율적으로 사용하고 있는지에 대한 평가도 아래와 같이 할 수 있다. 분석결과를 살펴보면, 사용률이 높은 사용자가 몰려 있는 pool에 SR도 많이 발생함을 알 수 있다. 따라서 heavy유저와 light유저의 고른 분배를 통한 효과적 자원사용 및 SR감소를 기대할 수 있다.

빅데이터를 활용한 접속단계별 상세 모니터링 방법은 고객의 접속불만을 감소시키고 자원의 고른 배분은 운영자뿐만 아니라 고객의 VDI사용 만족도를 높여줄 수 있다. 더불어 고객 사용패턴을 분석하여 새로운 상품기획에도 도움을 줄 수 있다.

GOV 문제가 되지 않나?



GOV 고도화를 위한 데이터 분석
GOV는 Global One View로써 클라우드 VM의 사용량 및 현황을 보여주는 시스템이다. 수백 만개의 VM의 개별 사용량 데이터 및 이력들을 저장하고 보여주는 역할뿐만 아니라 Analytic영역도 포함하기 위해 빅데이터 기술을 사용하였다.

먼저 개별 VM의 과거 사용량을 바탕으로 향후 사용량을 예측했다. 이를 통해 VM를 증설할 것인지 축소할 것인지 판단근거를 제공하는 기능을 빅데이터 시스템을 이용하여 개발 완료하였고 고객에게 서비스를 제공하고 있다. 그렇다면 개별 VM 사용량 예측을 어떻게 구현했는지 이야기해보도록 하자.

VM사용량은 시간에 의존하는 데이터이며 회귀분석 및 시계열 분석을 이용하여 미래사용량을 예측할 수 있다. 이에 앞서 예측의 정확도를 높이기 위해 VM사용량의 패턴을 확인해 보았다.

VM사용량은 어떤 서비스를 제공하느냐에 따라 사용 패턴이 다르게 나타남을 관찰할 수 있다. 패턴이 다른 VM에 대해 동일한 예측 방법론을 사용하게 되면 예측정확도가 낮아 질 수 밖에 없다. 따라서 먼저 VM사용 패턴에 따른 분류를 시도하였다. 이를 위해 군집분석(Clustering)중 많이 알려진 K-mean clustering기법을 사용하여 4개의 그룹으로 나누었다.

군집분석결과 | 군집분석결과 새로운 VM에 대해 앞서 파악된 특성 별 군집으로 자동 분류하기 위해 알고리즘이 필요하다. 이를 위해 분류분석(Classification)에서 해석이 용이하고 분류 정확도가 높은 의사결정나무(Decision Tree) 기법을 활용하여 자동화 알고리즘을 개발하였다.

분류분석을 이용한 VM자동 분류알고리즘 | 분류분석을 이용한 VM자동 분류알고리즘 이렇게 분류한 VM에 따른 다른 예측알고리즘을 적용한다.

예를 들면 보편적으로 사용하고 있는 회귀분석모델이나 시계열 분석을 이용하여 미래 사용량을 예측하였다.

사용률 예측 알고리즘 | 사용률 예측 알고리즘 다음은 빅데이터 시스템을 활용하여 VM별 사용량 예측값을 보여주는 GOV기능 개발이 완료된 화면이다.

빅데이터시스템 & GOV 추이예측기능 개발 | 빅데이터시스템 & GOV 추이예측기능 개발 이를 통하여 프로젝트 매니저는 사용하고 있는 VM의 미래 사용량을 체크할 수 있으며 VM의 사용여부를 미리 계획할 수 있고 Cost Analysis도 가능해 졌다. 효과적인 자원 사용을 위해 빅데이터를 활용하여 분석한 결과는 결국 cost절감에도 큰 효과를 가져올 수 있다.

우리 주위에는 상상할 수 없는 양의 데이터들이 매일 생성되고 있다. 이 중 스토리지에 저장하고 보관하고 있는 데이터도 있고 버려지는 데이터도 있을 것이다. 저장되지 않고 버려지거나, 보관만 할 뿐 제대로 활용하지 못하는 데이터에서 우리는 분석을 통해 의미 있는 결과를 얻을 수도 있다. 이러한 가치 발굴을 위해 빅데이터 기술은 꼭 필요하다. 이를 위해 기본적인 통계적 지식을 보유하는 것도 중요하다. 산업 전반에 걸쳐 “Analytics”의 중요성이 부각되면서 우리 회사에서도 전사 대상의 “확률과 통계” 및 “Data Scientist 양성과정” 등 데이터분석 교육과정이 매해 개설되고 있다. 빅데이터를 성공적으로 적용하기 위해서는 Data Scientists의 보유가 필수적이라 생각한다.

다음 편에서는 금융분야 빅데이터 활용사례에 대해 이야기해보도록 하겠다.



▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.