loading...

에이전틱 AI로 증가하는 클라우드 비용 관리 방안

이 글은 IDG의 아티클을 전재하여 제공합니다.
[원문보기]

기업의 클라우드 네트워크 지출 중 상당 부분은 피할 수 있었던 실수와 수작업 프로세스 탓에 낭비되고 있으며, 최근 급증한 AI 도입이 이 문제를 더욱 심화시키고 있습니다. 엔터프라이즈 클라우드 지출이 걷잡을 수 없이 증가하고 있으며, 전체 기업의 절반 이상은 클라우드 예산 중 40% 이상이 방지할 수 있었던 실수나 비효율적인 프로세스 때문에 낭비되고 있다고 추산하고 있습니다. AI 도입이 빠르게 확산하면서 상황은 더욱 악화하고 있습니다. 클라우드 네트워킹은 종종 간과되는 영역이지만, AI 기반 데이터 이동의 수요가 커지면서 문제는 더욱 복잡해지고 있습니다. 특히 에이전틱 AI가 확산할 경우 네트워크 트래픽은 기하급수적으로 증가할 수 있으며, 그 흐름을 예측하기도 훨씬 어려워질 수 있습니다.

예상치 못한 클라우드 비용 증가

시장조사기관 플렉세라(Flexera)가 지난 3월 말 발표한 ‘클라우드 현황 보고서’에 따르면, 현재 전체 엔터프라이즈 워크로드의 절반 이상이 퍼블릭 클라우드에서 운영되고 있으며, 올해 클라우드 지출은 전년 대비 28% 증가할 것으로 예상됩니다. 전 세계 700명 이상의 클라우드 의사결정권자를 대상으로 한 조사 결과, 전체 기업 중 40%는 연간 퍼블릭 클라우드 지출이 1,200만 달러(약 164억 원)를 초과한다고 답했습니다. 이는 지난해의 36%보다 늘어난 수치입니다. 하지만 전체 클라우드 지출 중 27%는 불필요하게 낭비되고 있는 것으로 나타났습니다. 이는 4년 전 32%보다 낮아진 수치지만 여전히 높은 수준입니다. 특히 네트워킹 비용이 주요 낭비 요인으로 지목됐습니다.

영국 버크셔에 위치한 레딩대학교의 운영책임자 케빈 모티머는 “클라우드에서 숨겨진 비용은 컴퓨팅 영역이 아니라 네트워크와 스토리지에서 발생한다. 퍼블릭 클라우드에서는 대규모 네트워크 인프라를 손쉽게 구축할 수 있지만, 이 중 상당 부분은 실제로 불필요한 경우도 있다.”라고 했습니다. 모티머는 클라우드가 필요에 따라 확장 및 축소가 가능하기 때문에 기존 배포 방식보다 유리하다고 언급했습니다. 그러나 실제로는 네트워크를 비활성화하더라도 백그라운드에서는 여전히 자원을 소모하며 클라우드 비용이 발생한다고 설명했습니다. 레딩대학교 역시 실제로 대형 네트워크가 생성돼 예기치 않은 비용과 보안 문제가 동시에 발생한 사례가 있었다고 했습니다. 또한 데이터를 클라우드로 전송하거나 클라우드에서 꺼내는 데 드는 비용, 즉 데이터 이그레스(egress) 비용도 고려해야 한다고 강조했습니다. 모티머는 “이그레스 비용에 대해서는 아무도 얘기하지 않는다.”라고 설명했습니다.

클라우드 비용 최적화 전문기업 노스(North)의 공동 설립자이자 최고경영자인 매트 비링거는 “클라우드 네트워킹은 조용한 예산 파괴자”라며 “대부분 컴퓨트 비용에만 집중하다가, 나중에야 전체 비용의 절반이 리전 간 데이터 전송에서 발생했다는 사실을 뒤늦게 알게 된다.”라고 설명했습니다. “이런 비용은 문제로 인식되기 전까지는 외부에 잘 드러나지 않는 비용이다.”라고 덧붙였습니다.

클라우드 거버넌스 기업 스택렛(Stacklet)이 2024년 10월 발표한 보고서에서도 비슷한 결과가 나타났습니다. 조사 대상 기업의 절반은 클라우드 지출의 40% 이상이 낭비되고 있다고 응답했습니다. 특히 기업 규모가 클수록 낭비 비율도 높아지는 경향을 보였습니다.

클라우드 컨설팅 기업 아스페리타스(Asperitas)의 클라우드 부문 리더 스콧 휠러는 “이 같은 비용 낭비는 여러 원인에서 비롯된다. 여전히 많은 기업이 자본 지출(CapEx)에서 운영 지출(OpEx)로 전환된 구조에 적응하지 못했다.”라고 분석했습니다. 예를 들어, 클라우드 비용을 전담해 관리하는 팀이나 담당자가 아예 존재하지 않거나, 존재하더라도 그것이 주된 책임이 아닌 경우가 많다고 설명했습니다. 휠러는 “담당자가 비용 외에도 여러 업무를 동시에 맡고 있어서, 클라우드 지출은 부차적인 이슈가 되기 쉽다.”라고 분석했습니다. 특정 프로젝트를 위해 예산을 배정해 놓고, 이후 실제로 그 예산이 계속 필요한지를 다시 점검하지 않는 기업도 존재한다고 합니다. 휠러는 “예산을 다시 검토하는 일이 귀찮기 때문에 그냥 넘어가는 경우가 많다.”라고 전했습니다. 휠러는 비용을 모니터링하고, 데이터 보존 정책을 관리하며, 설정 오류나 기타 클라우드 문제를 감지할 수 있는 다양한 도구가 이미 존재한다고 했습니다. “애저, 구글, AWS에서 관련 도구를 기본적으로 제공하고 있으며, 비용 관리를 위한 외부 솔루션도 많다. 하지만 문제는 이를 제대로 설정해 사용하지 않는 데 있다.”라고 설명했습니다. 휠러에 따르면, 한 고객사는 최근 연간 200만 달러(약 27억 원)의 클라우드 비용을 절감할 수 있는 로그 데이터 저장량 축소 프로젝트를 제안받았지만, 20만 달러(약 2억 7천만 원)의 초기 비용이 든다는 이유로 이를 실행하지 않았습니다. 휠러는 “리더십 입장에서는 다른 일들을 더 우선순위로 두고 있어서, 클라우드 비용 최적화는 뒷전으로 밀리는 경우가 많다.”라고 언급했습니다.

일부 기업은 리스크 부담 때문에 클라우드 비용 절감을 쉽게 결정하지 못하기도 합니다. 클라우드 비용 최적화 기업 클라우드제로(CloudZero)의 설립자이자 최고기술책임자(CTO) 에릭 피터슨은 “클라우드 자원을 줄인다는 건 간단하지 않다. 어떤 이는 ‘굳이 시스템을 줄이다 사용자 접속이 차단되면 내 커리어에 위험이 생기지 않을까? 차라리 조금 더 지출하는 게 낫지 않을까?’라고 생각한다.”라고 전했습니다. 하지만 피터슨은 이러한 태도는 경제가 좋을 때나 가능한 논리라고 지적했습니다. 경기 침체 상황에서는 낭비되는 비용을 그냥 넘길 수 없다는 의미입니다.

자바 플랫폼 기업 아줄(Azul)의 의뢰로 센서스와이드(Censuswide)가 지난 3월 말 발표한 보고서에 따르면, CIO 300명을 대상으로 한 조사에서 83%는 올해 클라우드 지출이 예상보다 많았다고 답했습니다. 그럼에도 불구하고 클라우드 인프라는 여전히 온프레미스보다 비용 효율이 높은 것으로 나타났습니다. 같은 조사에서 CIO의 80%는 클라우드 이전을 통해 전체 비용이 줄었다고 답했습니다. 하지만 향후 더 많은 워크로드를 클라우드로 이전할 계획도 가지고 있습니다. 현재 전체 인프라 및 애플리케이션 워크로드의 68%가 퍼블릭, 프라이빗, 또는 하이브리드 클라우드에 배치돼 있으며, 향후 5년 내 이 비율은 75%까지 증가할 것으로 전망됩니다. 이는 클라우드 비용 낭비가 더 커질 가능성도 있다는 의미입니다.

경제 상황이 더 나빠질 경우 기술 책임자에게는 클라우드 예산 낭비를 막기 위한 압박이 더욱 심해질 것으로 보입니다. 비용 효율성은 클라우드 이전을 추진하는 주요 이유 중 두 번째에 불과하다. 가장 중요한 이유는 바로 AI와 데이터 분석입니다. 하지만 AI 관련 지출은 과도해질 수 있으며, 그만큼 예측하기도 어렵습니다.

AI로 인해 복잡해지는 클라우드 비용 구조

IDC는 지난 4월 발표한 보고서에서, AI가 2030년까지 전 세계 경제에 미치는 누적 효과가 22조 달러(약 3경 원)에 이를 것으로 전망했습니다. IDC 애널리스트 카를라 라 크로체는 보고서에서 “전 세계 조직이 AI 투자에 대한 의지를 계속해서 강화하고 있다.”라고 설명했습니다. IDC는 AI 인프라 지출의 72%가 클라우드에 집중되고 있다고 분석했습니다. 그러나 AI는 막대한 양의 데이터를 필요로 하는 기술이며, 이 데이터를 클라우드 내외로 이동시키는 데 드는 비용은 매우 빠르게 커질 수 있습니다.

가트너는 2025년 생성형 AI 관련 지출이 6,440억 달러(약 881조 원)에 이를 것으로 내다봤습니다. 이는 전년 대비 76% 증가한 수치입니다.

웨이크필드 리서치(Wakefield Research)가 4월에 발표한 보고서에 따르면, IT 임원 1,000명을 대상으로 한 조사에서 63%는 생성형 AI를 전사적으로 통합했다고 밝혔고, 추가로 24%는 이미 도입을 마친 상태라고 답했습니다. 이들 중 62%는 100% 이상의 투자수익률(ROI)을 경험했다고 밝혔습니다. 에이전틱 AI에 대한 기대는 이보다도 컸습니다. 전체 응답자의 94%는 생성형 AI보다 더 빠르게 에이전틱 AI를 도입할 계획이라고 답했으며, 평균 ROI는 171%로 예상됐습니다.

AI 시대 이전에는 데이터가 중력처럼 중심이 돼 애플리케이션과 서비스를 끌어당겼습니다. 하지만 지금은 AI가 더 강력한 중력 역할을 하며 데이터를 끌어당기고 있습니다. 이 변화는 네트워크 설계에 중대한 영향을 미칩니다. 그러나 이러한 변화가 미치는 영향을 많은 기업이 인지하지 못하고 있습니다. 많은 엔터프라이즈 AI 실험이 서로 다른 팀에서 동시에 진행되고 있으며, 이들은 가능한 모든 곳에서 데이터를 끌어옵니다. API를 통해 데이터에 접근해 모델 학습을 시작할 수 있습니다. 하지만 그 과정에서 페타바이트(PB)급 데이터가 네트워크를 넘나든다는 사실을 모를 수 있습니다.

이러한 데이터 이동이 하나의 클라우드 공급자 내에서 일어날 경우 그나마 비용이 덜하지만, 실제로는 외부 프레임워크를 활용하는 경우가 많습니다. 예를 들어, 어떤 부서는 오픈AI를, 또 다른 부서는 구글의 AI 서비스를, 또 다른 곳은 앤트로픽의 시스템을 사용할 수 있습니다. 이렇게 되면 내 클라우드 공급자 외부에서 데이터가 인터넷을 통해 이동하게 되고, 이로 인해 이그레스 비용이 발생합니다. 예상치 못한 비용이 발생하는 원인이 됩니다. 기존 생성형 AI에서는 모델을 학습하거나 파인튜닝할 때, 그리고 생성형 AI 질의에 문맥을 더하는 RAG(검색 기반 생성) 임베딩을 적용할 때 대량의 데이터가 이동합니다. 질문-응답 상호작용에서 컨텍스트 윈도우가 커질수록 모델이 받아들이는 정보량도 늘어납니다. 거대한 AI 블랙홀은 점점 더 커지고 있습니다. AI가 받아들이는 데이터가 많아질수록 그 영향력은 더 커집니다.

에이전틱 AI는 이러한 구조를 한층 더 확장합니다. 단순한 질문-응답 방식이 아니라, 다수의 에이전트가 협업하며 비결정론적 방식으로 업무를 수행하는 것이 특징입니다. 특정 단계는 원하는 결과가 나올 때까지 반복되며, 필요에 따라 다른 시스템을 호출해 지원받기도 합니다. 그리고 이 에이전트들이 통제를 벗어나지 않도록 설계된 보호 인프라도 존재하는데, 이 역시 생성형 AI로 작동하는 경우가 많습니다. 복잡한 구조가 순식간에 현실이 되고 있습니다.

클라우드 네트워킹 비용을 줄이는 방법

네트워크 아키텍처 설계와 워크로드 흐름 최적화, 중복 제거 등 기본 전략을 바탕으로 클라우드 비용을 절감할 수 있다는 분석이 나왔습니다.

영국 레딩대학교(University of Reading)의 모티머는 고정 대역폭 구매, 데이터 중복 제거, 워크플로우 조정을 통해 클라우드 네트워킹 비용을 통제하고 있습니다. 이 대학교는 영국과 말레이시아 캠퍼스에서 1만 9,000명 이상의 학생을 지원하고 있으며, 연구자들은 시뮬레이션, 모델링, 영상 처리 등의 작업을 통해 매달 테라바이트급 데이터를 생성합니다. 이러한 데이터 작업은 온프레미스 컴퓨팅과 함께 마이크로소프트(MS)의 애저, AWS, 오라클 클라우드 등 다양한 환경에서 운영되고 있습니다. 애저 기반 워크로드 대부분을 익스프레스 라우트(ExpressRoute)를 통해 캠퍼스로 우회시켜 이그레스 비용을 줄이고 있습니다. 이는 고정 대역폭에 대한 고정 요금제를 사용하는 방식으로, VPN과 달리 사용량 변동에 따라 요금이 달라지지 않습니다. 익스프레스 라우트는 처리량에 대한 서비스 수준 협약(SLA)이 보장되는 데다, 가격도 고정돼 있어 예측이 용이합니다. 애저 익스프레스 라우트는 온프레미스 인프라와 MS 데이터센터 간에 전용 프라이빗 연결을 설정할 수 있게 해주는 서비스입니다. 레딩대학교는 이 외에도 루브릭 클라우드 볼트(Rubrik Cloud Vault)를 백업 솔루션으로 도입해 중복 파일을 제거하고, 클라우드 저장 공간을 70%까지 줄였습니다. 이 역시 네트워크 트래픽 비용 절감에 기여하고 있습니다.

하지만 모티머는 결국 기본적인 부분이 핵심이라고 강조했습니다. “동료 대학이나 다른 기관을 보면 데브옵스(DevOps)를 활용해 다양한 것을 잘 만들어내면서도, 정작 데이터 서버 최적화 같은 기본은 놓치는 경우가 많다. 온프레미스 환경에서 잘 해왔던 일들을 클라우드에서도 동일하게 적용해야 한다. 이런 기본적인 질문을 던지다 보면, 비용 절감은 물론 필요 없는 데이터를 삭제하고 정리하는 관리 관행도 자연스럽게 따라온다.”라고 언급했습니다.

모티머는 이를 ‘튜닝’이라고 표현했습니다. “물론 튜닝이 만능 해결책이 아니다. 우리는 가장 비용 효율적인 방식을 찾기 위해 균형점을 맞추려 노력하고 있다.”라고 전했습니다.

클라우드 네트워킹 비용을 줄이는 데 활용할 수 있는 핵심 전략은 여러 가지가 있습니다. 딜로이트컨설팅의 클라우드 핀옵스 총괄 니킬 로이차우두리는 지능형 라우팅, 스토리지 계층화, 정기적인 비용 감사를 대표적인 예로 들었습니다. 또한 그중에서도 가장 중요한 것은 네트워크 아키텍처, 즉 데이터가 실제로 어디에 있는지 결정하는 것이라고 조언했습니다. 로이차우두리는 “대부분의 클라우드 제공업체는 데이터 업로드는 무료로 제공하지만, 서비스를 넘나들거나 온프레미스 데이터센터로 다시 전송하는 경우 비용이 발생한다.”라고 했습니다. 이어 “데이터가 처리될 위치와 스토리지 위치를 일치시키는 것이 중요하다. 이렇게 하면 데이터가 사용 지점 근처에서 처리되고 저장되기에, 이그레스 비용이 낮아지고 성능도 개선된다.”라고 설명했습니다.

노스의 비링거는 로이차우두리가 언급한 전략과 같은 접근이 AI 시대에는 더욱 중요해질 것이라고 내다봤습니다. 비링거는 “에이전틱 AI 시대에는 데이터 이동이 폭발적으로 증가할 것”이라며 “애플리케이션은 더 똑똑해지고 자율성이 강화되며, 동시에 훨씬 더 많은 데이터를 주고받게 된다. 이로 인해 예기치 못한 네트워크 트래픽 증가, 빈번한 스토리지 갱신, 그리고 인프라 계층 간 경계가 더욱 흐릿해질 수 있다.”라고 분석했습니다.

또한 비링거는 “기업들은 이제 인프라 계층 자체에 분석 및 대응 기능을 내장하는 방안을 고민해야 한다. 시스템의 동작이 점점 더 예측하기 어려워지는 상황에서도 내부 상황을 파악할 수 있는 가시성을 확보해야 한다.”라고 조언했습니다.


IDG logo

▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe

구독하기

subscribe

Maria Korolov
Maria Korolov

IDG

공유하기