loading...

옵저버빌리티를 통한 클라우드 비용 최적화 방안 및 사례

옵저버빌리티를 통한 클라우드 비용 최적화 방안 및 사례

끊임없이 변화하는 환경에서 변치 않는 것은 불확실성뿐입니다. 세계 경제 전망이 우려되는 상황이 지속됨에 따라 엔지니어링 리더들은 IT 비용을 절감해야 한다는 압박을 점점 더 많이 받고 있습니다. 비용 효율성을 달성하기 위해서는 비용 절감, 관리 및 최적화 등의 방법을 수행할 수 있습니다. 일반적으로 기업은 지출을 먼저 줄이지만, 이로 인해 생산성과 산출량이 감소할 수 있습니다. 비용을 관리하고 최적화하는 방법을 찾는 것은 장기적으로 지출을 효율화하는 효과적인 수단이 될 수 있습니다.

비용을 고려하는 문화 구축

비용에 대한 가시성과 인식은 조직의 전체 사용자가 비용을 중요하게 고려하는 의사 결정을 내리고 비용 최적화가 엔지니어링팀 목표의 일부가 되도록 보장합니다. 비용 효율성을 달성하기 위한 핵심 요소는 엔지니어링 리더가 IT 지출에 대한 전사적 인식을 전파하여 비용을 고려한 문화를 구축하는 것입니다. 이를 통해 엔지니어링팀은 비용 측정 지표를 일상적인 워크플로에 통합하여 비용 측정 및 최적화가 목표의 일부가 되도록 할 수 있습니다. 이러한 문화를 구축하기 위해서는 인프라 및 애플리케이션 소비 비용에 대한 가시성을 제공해야 하지만 엔지니어링 리더들은 이 정도 수준의 디테일을 제공하기 위한 도구에 액세스하지 못하는 경우가 많습니다. 이때 애플리케이션, 리소스 및 인프라 소비를 하나로 묶는 총체적인 모니터링 솔루션이 매우 중요합니다.

세분화된 팀 단위 비용에 대한 전사적 인식은 엔지니어링 리더들로 하여금 비용 표시에서 비용 청구 모델로의 전환 또한 가능하게 합니다. 비용 표시 모델은 현재의 IT 지출을 요약한 개요 문서를 제공합니다. 비용 청구 모델에서는 부서들이 현재 기술 사용량에 대한 알림을 받을 뿐만 아니라 사용한 만큼 비용을 지불해야 합니다. 이 모델을 사용하는 팀은 자신들이 소비하는 기술이 팀에 특정한 재정적 비용을 직접 발생시키기 때문에 팀이 리소스를 효율적으로 사용해야 한다는 부담을 더 많이 느끼게 됩니다. 이런 점에서 비용 청구 모델이 비용 절감에 더 효과적인 것으로 간주할 때가 많습니다.

고객 사례: 미국 금융서비스 회사

한 미국 은행이 지역 사회에 기업 및 개인 금융, 보험 및 투자 서비스를 제공하고 있습니다. 경제적 어려움이 몰아치는 상황에서 이 은행의 기술팀은 전반적으로 비용을 최적화할 수 있는 방법을 계속해서 찾고 있습니다. 엔지니어링 리더들이 취한 첫 번째 조치는 비용 인식을 비즈니스의 전면에 놓고 비용에 민감한 문화를 구축하는 것이었습니다. 이를 위해서는 일상적인 비용을 파악하고 앞으로 비용을 절감할 수 있는 의사 결정을 내릴 수 있는 올바른 도구와 베스트 프랙티스를 팀에 제공해야 했습니다.

이 은행은 환경을 종합적으로 볼 수 있는 가시성을 확보하기 위해 통합 모니터링 플랫폼을 도입했습니다. 팀은 기업 콘텐츠 관리 서비스의 디버그와 같은 특정 운영 설정 또는 기능이 활발하게 사용되지 않을 때도 예기치 않게 켜져 있을 때가 많다는 것을 확인할 수 있었습니다. 이로 인해 매 순간 낭비되는 지출이 발생합니다. 팀이 이러한 설정을 확인하고 가능할 때 기능을 끄는 비용을 고려한 의사 결정을 내릴 수 있도록 함으로써 이 팀은 연간 70만 달러의 비용을 절감할 수 있었습니다.

여러 모니터링 도구 통합

기존 모니터링 도구 세트를 평가하고 단일 통합 플랫폼으로 통합하여 비용을 절감합니다. 비용 효율성을 극대화하기 위해 엔지니어링 리더가 취할 수 있는 가장 영향력 있는 조치 중 하나는 사용하는 산재한 도구를 하나로 통합하는 것입니다. 팀에서는 APM, 로그 관리 및 RUM에 각각 다른 도구를 사용하는 경우가 많으므로 비용이 많이 들고 관리가 어려울 수 있는 여러 모니터링 도구 모음이 생기게 됩니다. Gartner에 따르면, 조사 대상 조직의 57%가 점점 더 복잡한 아키텍처를 관리하기 위해 10개 이상의 IT 모니터링 도구를 사용한다고 합니다.

각 도구는 다음과 같은 비용을 포함하고 있습니다.
- 자체 초기 투자 비용, 유지보수 비용 및 리소스 비용
- 구축 및 관리를 위한 많은 전문 FTE (고용 비용이 많이 들고 모니터링팀의 사일로화로 이어질 수 있음)
- 자체 라이선싱, 호스팅 및 전문 서비스 비용


이러한 상황은 국가 간 또는 제품 그룹 간에 다른 모니터링 스택을 사용할 수 있는 대규모 조직에서 악화하는 경우가 많습니다. 이 전체 비용을 줄이기 위해, 조직은 단일 통합 플랫폼 채택을 고려해야 합니다. 이를 통해 기업은 오래된 도구를 폐기하고 라이선스, 유지보수 및 인건비 운영 비용을 조직의 다른 요구사항 및 투자 분야에 재할당할 수 있습니다.

고객 사례: 다국적 가전 회사

세계 최고의 PC 및 모바일 디바이스 회사 중 하나는 지속적으로 우수한 고객 서비스를 제공하기 위해 내부 기술과 운영이 제품만큼 원활하게 작동하는지 확인해야 했습니다. 이를 위해 이 회사의 팀들은 여러 도구를 보유하고 있었으며, 이 도구들은 저마다 비용과 복잡성이 있었습니다. 사일로화된 모니터링 환경으로 인해 엔지니어링팀은 실시간 소비자 제품 데모 중 장애 발생 시 사고 관리에 어려움을 겪었으며, 그 결과 수익 손실 위험이 증가했습니다.

이 회사는 자신들의 APM, 로깅 및 인프라 제품을 포함한 33가지 모니터링 도구를 통합하기로 결정했습니다. 통합 플랫폼을 통해 측정 지표, 추적 및 로그에 투자함으로써, 연간 170만 달러의 도구 비용을 절감하고 11년 만에 305%의 투자 수익률(ROI)을 달성했습니다.

클라우드 인프라 지출 관리

인프라, 서비스 및 애플리케이션 전반에서 사용 중인 리소스를 파악합니다. 적절한 리소스 요구를 파악하고 리소스 소비를 관리하여 낭비를 줄입니다. 조직은 탄력성과 확장성의 이점을 얻기 위해 클라우드로 전환할 때가 많습니다. 이를 통해 조직은 성능 저하 없이 사용자 활동 증가에 신속하게 대응할 수 있습니다. 그러나 클라우드 리소스의 빠른 확장과 동시에 클라우드 지출도 빠르게 늘어날 수 있다는 부작용도 있습니다. 대부분의 경우, 각 엔지니어링팀은 자체 리소스만을 고려하여 지출을 분석하기 때문에 클라우드 지출 초과의 실제 규모를 완전히 이해하지 못할 수 있습니다. 이것이 바로 인프라, 서비스 및 애플리케이션 지출을 상호 연관시키는 전체론적 관점이 매우 강력할 수 있는 이유입니다.

조직은 인프라와 측정 지표가 효율적으로 실행되고 있는지와 효율성을 높일 수 있는 기회가 있는지 정기적으로 검토함으로써 이점을 얻을 수 있습니다. 그 방법으로는 가장 많이 사용되는 리소스를 최적화하고, 활용도가 낮은 리소스를 축소하며, 전혀 사용되지 않는 리소스를 제거하는 것입니다. 이를 지원하기 위한 강화 사례로는 재무팀이 클라우드 혁신센터(Cloud Center of Excellence, CCoE)를 대표하도록 하는 것이 있습니다.

고객 사례: 글로벌 온라인 의류 소매업체

온라인 의류 소매업체의 경우, 고객 데이터는 맞춤형 쇼핑 경험을 제공하기 위한 가치 제안 실현의 핵심 요소입니다. 이 회사는 우선 데이터 소비가 많다는 점에서 최적화할 수 있는 기회를 탐색했습니다. 이 회사는 클라우드 비용을 완벽히 파악하기 위해 대시보드 사용에 초점을 맞추었으며, 새로운 비용 측정 지표로 운영 데이터를 자동으로 보강했습니다. 이러한 가시성을 통해 개선할 여지가 상당하다는 점을 알게 되었습니다. 예를 들어, 한 서비스 소유자는 자신들이 데이터베이스 클러스터의 일부만 활용하고 있다는 것을 깨달았습니다. 해당 팀에는 이 데이터베이스의 크기를 조정하는 것이 우선 과제가 되었고, 결과적으로 단일 데이터베이스에서 일일 비용을 78% 절감할 수 있었습니다.

“베스트 프랙틱스는 중요하지만, 실제 측정 및 비용 최적화를 대체할 수는 없습니다. 수십 개 계정의 세부적인 수준의 지출 속성을 분석하여 상당한 비용 절감을 달성하는 동시에 엔지니어링팀이 전반적인 서비스 상태의 일부로 비용을 모니터링할 수 있도록 익숙한 환경에서 운영 측정 지표에 인접한 비용 데이터를 가져오는 데 도움이 됩니다.” - 엔지니어링팀

애플리케이션 리소스 소비 최적화

인프라, 데이터베이스 및 애플리케이션 수준에서 성능을 모니터링하고 최적화하여 비용이 많이 드는 기술적 부담을 방지합니다. 조직이 애플리케이션 아키텍처를 최신화함에 따라 복잡성이 크게 증가했습니다. 이러한 복잡성의 증가는 조직이 마이크로서비스 아키텍처로 전환함에 따라 관리 및 모니터링해야 하는 서비스 수의 증가와 조직이 컨테이너를 채택함에 따른 구축 복잡성의 증가를 반영합니다. 조직의 기술 스택 전반에 걸쳐 복잡성과 상호 의존성이 증가함에 따라, 성능에 나쁜 영향을 미치지 않으면서 최적화를 달성할 수 있는 가장 좋은 기회가 어디에 있는지 파악하기가 점점 어려워지고 있습니다. 이러한 우려는 ‘리프트 앤 시프트' 접근법을 통해 클라우드로 마이그레이션한 조직에서 특히 두드러집니다. 이러한 경우, 엔지니어링 리더들은 애플리케이션 리소스를 가장 효율적인 방법으로 사용하고 있지 않을 수도 있다는 사실을 너무나도 잘 알고 있지만, 기본 애플리케이션에 대한 가시성이 부족하기 때문에 변경을 주저하는 경향이 있습니다.

지속적이고 간접비가 낮은 코드 프로파일링을 통해 개별 코드 라인이 프로덕션 환경에서 어떻게 동작하는지에 대한 가시성을 제공할 수 있습니다. 지속적인 프로파일링을 통해 애플리케이션 성능에 영향을 미치거나 비프로덕션 환경에서 몇 시간 또는 며칠 동안 문제를 재현하지 않고도 성능 저하를 찾을 수 있습니다. 또한 프로덕션 코드 동작을 모니터링하면 리소스를 많이 소비하는 메서드와 코드 라인을 파악할 수 있으므로, 팀은 CPU 및 메모리 활용을 최적화하고 비용을 절감할 수 있습니다. 서비스 및 엔드포인트별 CPU 활용률을 추적하면 워크로드에 적합한 리소스를 사용하는 데 도움이 되고 데이터베이스 모니터링 및 쿼리 최적화를 통해 총컴퓨팅 비용을 절감할 수 있습니다.

고객 사례: 세계적인 미디어 및 엔터테인먼트 그룹

한 선도적인 멀티채널 엔터테인먼트 그룹은 웹사이트, 모바일 앱, 스마트 TV 앱 및 하이브리드 브로드캐스트 브로드밴드 TV 앱을 통해 디지털 콘텐츠를 제공하고 있습니다. 경쟁이 치열한 시장에서 성공하려면 엔지니어링팀이 효율적이어야 했습니다. 하지만 이 팀은 전체 애플리케이션에서 가시성을 제공하고 엔지니어가 서비스 전반에 걸쳐 요청을 추적할 수 있는 모니터링 플랫폼이 부족하여 제약을 받았습니다. 그래서 이 회사는 가비지 컬렉션의 비효율성을 중점적으로 파악함으로써, 이로 인해 발생하는 비용이 거의 80% 감소했습니다.

데이터 저장 비용 절감

데이터 수집을 관리하고 저장 수요를 줄임으로써 확장에 따른 가시성 저하 없이 추가 비용을 방지할 수 있습니다. 산업 전반에 걸쳐, 조직은 더 많은 데이터를 포착해야 할 필요성이 증가하고 있습니다. 많은 기업에는 이러한 요구를 주도하는 고객 경험의 개인화에 대한 경쟁이 필수적입니다. 금융 서비스, 의료 및 공공 부문과 같은 규제 산업에서도 규정 준수 의무가 있을 수도 있습니다. 마지막으로, 보안 모범 사례는 향후 사이버 사고가 발생할 경우 이를 다시 참조해야 할 필요성에 대비하여 애플리케이션 데이터를 저장해야 할 필요성도 제기하고 있습니다.

이러한 모든 추세에 따라 조직은 매일 수집하는 데이터의 양을 크게 늘릴 수 있었습니다. 그러나 이러한 데이터가 저장되는 방식에 대해서는 덜 집중했기 때문에 많은 조직의 데이터 저장 비용이 지속 가능하지 않게 되었고 일부 엔지니어링 리더들은 비용 관리와 저장되는 데이터 볼륨 관리 사이에서 선택해야 할 필요성을 느끼고 있습니다. 이러한 우려는 특히 로그 관리 데이터에서 두드러집니다. 엔지니어링 리더들은 저장 비용을 줄이기 위해 데이터가 저장되는 위치, 즉 가장 비용 효율적인 저장 옵션이 사용되는 위치와 데이터 저장 방법, 즉 즉각적인 액세스가 필요하지 않은 데이터에 대한 비용 효율적인 공급업체 옵션이 있는지 재고해야 합니다.

고객 사례: 다국적 게임 회사

유럽의 한 비디오 게임 개발업체는 인기 있는 온라인 게임의 성공적인 베타 런칭을 준비하고 있었습니다. 이 회사는 런칭 후 한 번에 최대 천만 명의 플레이어가 접속할 정도로 트래픽 피크가 높기 때문에 로그 볼륨이 하루에 120억 건의 로그 이벤트를 초과할 것으로 예상했습니다. 전통적인 로깅 도구를 사용하면 많은 양의 로그를 인덱싱하는 데 드는 비용이 엄청났을 것입니다.

로그 관리 솔루션을 통해 로그 수집과 로그 인덱싱을 분리함으로써, 값비싼 로그 관리 비용 발생의 우려 없이 팀이 모든 로그를 수집하여 가져올 수 있도록 했습니다. 로그 파일의 크기나 일일 최대 수집 볼륨 모두 인덱싱 비용에 영향을 미치지 않기 때문에 엔지니어들은 로그를 미리 필터링하거나 로그 컨텐츠를 제거할 필요가 없었습니다. 엔지니어링팀은 수십억 건의 로그를 실시간으로 동적으로 인덱싱하고 필터링하여 중요한 로그를 찾아 문제를 사전에 해결할 수 있었습니다. 이 비디오 게임 개발업체는 베타 런칭 후 매일 120억 건의 로그 이벤트를 비용 효율적으로 수집하고 인덱싱하는 동시에 고객에게 안정적이고 원활한 환경을 제공할 수 있었으며, 결과적으로 33개월 후에 성공적인 출시를 이루어 낼 수 있었습니다.



▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe

구독하기

subscribe

Datadog
Datadog

공유하기