loading...

AI 추론의 무대가 확장된다: 클라우드에서 엣지까지

이 글은 IDG의 아티클을 전재하여 제공합니다.
[원문보기]

핵심 인사이트


  • AI 추론은 학습된 모델이 실제 환경에서 데이터를 해석하고 판단을 수행하는 단계로, AI의 실질적 가치를 만들어내는 핵심 과정입니다.
  • AI 추론은 지연과 비용, 보안 요구를 고려해 클라우드 중심의 학습과 엣지 기반의 실시간 추론을 결합하는 하이브리드 전략이 AI 인프라의 새로운 표준으로 자리 잡고 있습니다.

소규모 언어 모델, 경량 프레임워크, 특화 하드웨어를 비롯한 다양한 기술 혁신이 AI를 클라우드 밖으로 끌어내어 네트워크 엣지에 위치한 클라이언트, 서버, 디바이스로 확산시키고 있습니다. Red Hat의 엣지 프로젝트 관리 부문 수석 디렉터인 Joshua David는 “글로벌 엣지 AI 시장은 현재 가파른 성장 궤도에 올라 있다”라고 말합니다. 실제로 엣지 AI 시장 규모는 2034년까지 1,430억 달러에 이를 것으로 예상됩니다.

엣지 AI의 성장세는 업계 전반이 AI 학습 중심에서 벗어나 추론 중심으로 이동하는 흐름과 맞물려 있습니다. AI 학습이란, 머신러닝(ML) 모델에 적절한 데이터를 제공해 모델을 준비시키는 과정이지만, 추론은 운영 환경에서 모델을 실제로 활용해 지식을 적용하거나 예측을 수행하는 단계입니다.

엔터프라이즈 데이터 관리 및 통합 기업 인포매티카(Informatica)의 제품 관리 부문 부사장 Sumeet Agrawal은 “강력하면서도 에너지 효율적인 AI 프로세서의 발전과 사물인터넷(IoT) 기기의 확산이 이러한 흐름을 가속하고 있으며, 복잡한 AI 모델을 엣지 디바이스에서 직접 실행할 수 있게 되었다”라고 설명합니다. 이와 관련해 Morgan Stanley는 아티클에서 AI 산업이 “새롭고, 잠재적으로 훨씬 더 큰 단계인 AI 추론 단계로 접어들고 있다”라고 분석합니다. AI 추론 단계는 소비자 및 기업용 애플리케이션 전반에 걸쳐 AI 모델이 광범위하게 채택된다는 점이 특징적입니다.

엣지 컴퓨팅은 퍼블릭 클라우드와는 다른 장점을 제공합니다. 퍼블릭 클라우드는 확장성과 사용 편의성 측면에서 강점이 있지만, 추론 관점에서는 한계도 분명합니다. 지연 시간이 증가하고 데이터 프라이버시 우려가 커지며, 연산 처리와 데이터 유입·유출 과정에서 비용 부담이 증가한다는 점이 대표적입니다. 반면 AI를 엣지에서 실행하면 이러한 문제 상당 부분을 해소할 수 있습니다. Red Hat의 수석 디렉터 Joshua David는 “엣지 AI는 지연 시간 감소, 비용 절감, 보안과 프라이버시 강화 등 여러 핵심적인 이점을 제공한다”라고 설명합니다.

아마존이 최근 일부 머신러닝 학습 작업에 주로 사용되는 GPU 이용 요금을 15% 인상한 사례처럼, 중앙 집중형 학습을 중심으로 한 클라우드 AI 비용은 예측하기 어려운 방향으로 흘러가고 있습니다. IDC는 2027년까지 IT 리더의 80%가 AI 추론 수요를 충족하기 위해 클라우드 업체의 엣지 서비스를 활용할 것으로 전망하고 있습니다.

물론 이러한 전환이 순탄하지만은 않을 전망입니다. 실시간 성능에 대한 높은 요구, AI 스택이 차지하는 큰 시스템 자원 부담, 파편화된 엣지 생태계는 여전히 주요 과제로 남아 있습니다. 이 글에서는 엣지 AI를 둘러싼 기술 개발 현황을 살펴보고, 엣지 환경에서 AI를 실행하기 위한 새로운 기술과 운영 방식, 그리고 AI 시대에 컴퓨팅의 미래가 어떻게 진화할지 전반적으로 살펴보겠습니다.

엣지 AI의 성장을 이끄는 요인

Red Hat의 수석 디렉터 Joshua David는 “엣지 AI 확산의 가장 큰 원동력은 실시간 데이터 처리에 대한 절실한 요구”라고 설명합니다. 중앙화된 클라우드 기반 AI 워크로드에 의존하는 대신, 엣지에서 직접 데이터를 분석하면 데이터가 생성되는 지점에서 즉각적인 의사결정을 내릴 수 있다는 점이 핵심이라는 분석입니다. 여러 전문가도 같은 의견을 내놓고 있습니다. 인포매티카의 부사장 Sumeet Agrawal은 “엣지 AI에 대한 관심이 폭발적으로 증가하고 있다”라고 전하며, 특히 산업 현장이나 자동차 분야처럼 순간적인 판단이 중요한 환경에서는 지연 시간 감소가 가장 큰 장점으로 작용하고 있다고 설명합니다.

또한 클라우드로 데이터를 보내지 않고 머신러닝 모델에 개인정보나 기업 고유의 맥락 정보를 활용하고자 하는 수요 역시 커지고 있습니다. 오픈소스 애플리케이션 플랫폼 제공사 템포럴 테크놀로지(Temporal Technologies)의 시니어 스태프 소프트웨어 엔지니어이자 AI 기술 책임자인 Johann Schleier-Smith는 “프라이버시는 매우 강력한 동인”이라면서, 의료나 금융처럼 규제가 엄격한 산업에서는 민감한 정보를 로컬에서 처리하는 것이 규제 준수를 위해 필수적이라고 분석했습니다.

오픈소스 인프라 기업 수세(SUSE)의 엣지 사업 부문 부사장 겸 총괄 책임자인 Keith Basil 역시 “엣지 AI에 대한 관심은 분명히 증가하고 있다”라고 언급합니다. 그는 제조 분야를 대표적인 사례로 꼽으며, 기업이 생산 라인을 운영하는 대형 서버부터 소형 센서에서 발생하는 데이터를 처리하는 영역까지 다양한 활용 사례에 엣지 AI 도입을 검토하고 있다고 설명합니다. 글로벌 제조 자동화 전문 기업인 록웰 오토메이션(Rockwell Automation)에 따르면 제조 기업의 95%가 향후 5년 이내에 AI/ML, 생성형 AI 또는 인과 기반 AI에 이미 투자했거나 투자를 계획하고 있다고 합니다. 또한 2024년 인텔의 CIO 보고서에서는 제조 분야 리더의 74%가 AI가 매출 성장에 기여할 잠재력이 있다고 응답했습니다.

로컬 AI 연산의 가장 큰 효과는 비용 절감입니다. 인포매티카의 부사장 Sumeet Agrawal은 “전송해야 할 데이터양이 줄어들면서 비용과 대역폭을 크게 최적화할 수 있다”라고 설명합니다. 특정 워크로드를 엣지에서 처리하면 비용 절감과 에너지 소비 감소 효과가 나타납니다. 2025년 1월 아카이브(Arxiv)에 발표된 논문 ‘하이브리드 엣지 클라우드의 에너지 및 비용 절감 효과 정량화’ 논문에 따르면, 순수 클라우드 처리 대신 에이전트 기반 AI 워크로드에 하이브리드 엣지 클라우드를 사용할 경우 조건에 따라 에너지 사용량을 최대 75%, 비용은 80% 이상 절감할 수 있다고 합니다. 논문 저자인 Siavash Alamouti는 “엣지 처리는 로컬 컴퓨팅의 맥락을 직접 활용해 연산 복잡도를 낮추고, 클라우드 규모에서 발생하는 막대한 에너지 수요를 피할 수 있다”라고 설명했습니다.

로컬 AI를 가능하게 하는 기술

엣지 AI의 필요성은 분명합니다. 그렇다면 이를 실제로 구현하기 위해서는 어떤 기술이 필요할까요? 자원이 제한된 엣지 환경에서 AI 연산을 실행하려면 소규모 언어 모델, 경량 프레임워크, 최적화된 배포 방식이 결합되어야 합니다.

(1) 소규모 언어 모델(SLM)

지금까지 대부분의 기업은 앤트로픽의 클로드, 구글의 제미나이, 오픈AI의 GPT 모델과 같은 범용 서비스 기반의 LLM을 활용해 AI를 중앙에서 운영해 왔습니다. 그러나 최근 AI 모델 기술이 발전하면서 이런 구조에도 변화가 나타나고 있습니다. 특히 자체 배포가 가능한 소규모 언어 모델(SLM)은 특정 사용 사례에서 클라우드 AI 플랫폼에 대한 의존도를 낮추고 있습니다.

(2) 최적화 전략

엣지 디바이스는 연산 능력과 대역폭이 제한적이기 때문에, 로컬 AI의 시스템 부담을 줄이는 것이 특히 중요합니다. 이를 위해 소규모 언어 모델을 최적화하는 기술이 엣지 AI 구현을 뒷받침하는 핵심 영역으로 떠오르고 있습니다. 대표적인 전략 가운데 하나는 모델 압축 기법인 양자화입니다. 양자화란, 모델 크기와 연산 요구량을 줄이는 방식으로, 엣지 환경에 적합한 형태로 AI 모델을 경량화하는 방법입니다. 이러한 기법을 통해 NPU, 구글의 Edge TPU, 애플의 Neural Engine, NVIDIA Jetson device와 같은 특화 하드웨어에서 SLM을 실행할 수 있습니다.

운영 측면에서는 운영체제, 하드웨어 드라이버, AI 모델을 하나로 묶은 즉시 배포 가능한 패키지도 도움이 됩니다. 이러한 베이스 이미지가 엣지 AI 상용화를 현실화하는 접근 방식이 될 것입니다.

(3) 엣지 런타임과 프레임워크

새로운 런타임 및 프레임워크 역시 엣지 환경에서의 AI 추론을 최적화하는 데 중요한 역할을 합니다. Red Hat의 수석 디렉터 Joshua David는 경량 생성형 AI 런타임인 llama.cpp와 함께, 로컬 하드웨어에서 모델 추론을 지원하는 오픈비노(OpenVINO)와 라이트RT(LiteRT, 이전 TensoFlow Lite) 같은 프레임워크를 예로 들었습니다. 인포매티카 역시 llama.cpp와 GGUF 모델 포맷 같은 프로젝트는 다양한 소비자용 디바이스에서 고성능 추론을 가능하게 하고 있으며 MLC LLM과 웹LLM(WebLLM)도 웹 브라우저와 다양한 네이티브 플랫폼에서 AI를 직접 실행할 가능성을 확장하고 있다고 언급한 바 있습니다.

(4) 클라우드 네이티브 호환성

엣지 AI가 클라우드 네이티브 생태계 및 쿠버네티스와의 호환성을 확보하는 것 역시 중요한 과제로 떠오르고 있습니다. 쿠버네티스가 이미 엣지 환경으로 빠르게 확산되고 있기 때문입니다. 쿠버네티스 환경에서 엣지 추론을 지원하는 프레임워크인 KServe나 엣지 환경에서 다양한 동적 디바이스와 간헐적으로 연결되는 리프 디바이스를 쿠버네티스에서 쉽게 활용할 수 있도록 지원하는 Akri 등이 그 예입니다.

(5) 개방형 표준

마지막으로 엣지 AI 확산 과정에서 개방형 산업 표준이 중요한 역할을 할 것으로 보입니다. 빠르게 확장되고 있는 엣지 AI 하드웨어와 소프트웨어 환경은 상호운용성 문제를 일으키기 때문에 산업용 엣지 자동화 분야에서 표준을 정립하는 것이 중요할 것으로 전망됩니다.

(6) 엣지 AI의 현실적 장벽

기술은 이미 준비되고 있지만, 엣지 AI를 실제로 운영하는 방식은 아직 성숙 단계에 이르지 못했습니다. 개념 검증 단계에서 벗어나 엣지 AI 애플리케이션을 실제 운영 환경으로 옮기기까지는 여러 과제를 극복해야 할 것입니다.

가장 근본적인 한계는 엣지 디바이스가 지닌 자원 제약입니다. 메모리와 연산 능력이 제한적이기 때문에, 막대한 연산 자원을 요구하는 크고 복잡한 AI 모델을 배포하는 데는 어려움이 따릅니다. 자원이 제한된 하드웨어 환경에 맞게 모델 크기를 최적화하면서도, 사용자가 기대하는 고성능 상위 모델 수준의 정확도를 유지해야 한다는 점 역시 여전히 해결해야 할 과제입니다.

또한 엣지 AI 운영에 대한 실무 경험도 아직 충분히 축적되지 않았습니다. 특화된 엣지 디바이스는 하드웨어 구성이 복잡하고, 대부분 즉시 사용 가능한 상태로 동작하지 않는다는 점이 주요 장애물입니다. 엣지 환경에서 모델을 배포하고 모니터링하며 관리할 수 있는 End-to-end 플랫폼이 부족해, 현재로서는 복잡한 수작업 방식에 의존할 수밖에 없는 것입니다. 표준화되고 성숙한 클라우드 컴퓨팅 환경과 달리, 엣지 AI는 하드웨어와 소프트웨어, 통신 프로토콜 전반에 걸쳐 공통된 프레임워크가 부족한 상황으로, 이로 인한 호환성 문제와 추가 작업이 발생한다는 문제점이 존재합니다.

마지막으로 분산된 AI 모델 네트워크를 관리하는 문제도 복잡한 운영 과제로 꼽힙니다. 수많은 디바이스에 배포된 모델을 대상으로 보안 업데이트와 버전 관리, 성능 모니터링을 동시에 수행하는 것은 매우 어려운 작업이며 엣지 AI를 효과적으로 확장하기 위해 기업이 반드시 해결해야 할 과제가 될 것입니다.

이러한 장벽을 극복하기 위해 전문가들은 몇 가지 실천 방안을 제시합니다.

  • 연결성이 낮은 환경에서의 추론과 같이 엣지 AI가 적합한 경우에만 도입합니다.
  • 비 기술 분야 경영진에게 지속적으로 비즈니스 가치를 설명합니다.
  • 완전한 엣지 또는 완전한 클라우드가 아닌 하이브리드 전략을 고려합니다.
  • 하드웨어 종속성을 최소화하도록 아키텍처 계층을 추상화합니다.
  • 엣지 환경의 제약에 최적화된 모델을 선택합니다.
  • 업데이트, 모니터링, 유지보수를 포함한 전체 모델 수명 주기를 처음부터 설계합니다.

중앙 집중형에서 분산형 AI로

엣지 AI에 대한 관심이 빠르게 높아지고 있지만, 전문가들은 로컬 처리가 중앙 집중형 클라우드에 대한 의존도를 의미 있게 낮추지는 않을 것으로 보고 있습니다. 전문가들은 “엣지 AI가 본격적으로 주목받는 시점은 오겠지만, 도입 속도는 클라우드에 비해 뒤처질 것”이라는 입장입니다.

엣지 AI는 퍼블릭 클라우드를 대체하기보다는 새로운 역량을 더해 보완하는 방향으로 발전할 가능성이 큽니다. 수세(SUSE)의 부사장인 Keith Basil은 “기존 인프라를 대체하는 것이 아니라, 엣지에 AI를 배치해 더 똑똑하고 효율적이며 반응성이 높은 환경을 만드는 방식이 될 것”이라고 전망합니다. 이는 기존 운영체제를 사용하는 엔드포인트를 보완하거나, 온프레미스 서버 운영을 최적화하는 형태로 이어질 수 있습니다.

전문가들은 공통적으로 엣지 디바이스의 역할과 역량이 단기간 내 크게 강화될 것이라고 설명합니다. 하드웨어와 최적화된 모델, 배포 플랫폼이 빠르게 발전하면서 사물인터넷, 모바일 디바이스, 일상적인 애플리케이션 전반에 AI가 더욱 깊이 통합될 전망입니다. 이제, 엣지 AI는 빠른 성장을 앞두고 있으며, 사용자 중심의 분산형 AI로서의 근본적인 전환을 이끌 것으로 보입니다.

FAQ

Q. 엣지 AI란 무엇이며, 기존 클라우드 AI와 무엇이 다른가요?

엣지 AI는 AI 모델의 추론을 데이터가 생성되는 현장이나 디바이스에서 수행하는 방식입니다. 클라우드 AI가 중앙에서 대규모 학습과 처리를 담당한다면, 엣지 AI는 지연을 줄이고 보안과 실시간 대응이 필요한 영역에서 AI를 실행하는 데 강점이 있습니다.
Q. 엣지 AI가 확산되면 클라우드의 역할은 줄어들게 되나요?

그렇지 않습니다. 엣지 AI는 클라우드를 대체하는 기술이 아니라, 클라우드의 역할을 확장하는 방식입니다. AI 모델의 학습과 통합 관리는 여전히 클라우드가 담당하며, 엣지는 실시간 추론을 보완하는 구조로 하이브리드 아키텍처가 표준으로 자리 잡고 있습니다.
Q. 기업은 어떤 경우에 엣지 AI 도입을 고려해야 하나요?

네트워크 지연이 허용되지 않거나, 데이터 프라이버시 규제 요건이 중요한 환경, 또는 제조, 물류, 현장 운영처럼 실시간 판단이 필요한 경우 엣지 AI 도입 효과가 큽니다. 이때 클라우드와 엣지를 통합적으로 운영할 수 있는 플랫폼과 관리 역량이 중요합니다.
IDG logo

▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe

구독하기

subscribe

Bill Doerrfeld
Bill Doerrfeld

CIO의 Contributing Writer

공유하기