loading...

클라우드 기반 AIOS로 혁신하는 AI 워크로드 지능화

AIOS 소개

개요

AIOS(Artificial Intelligence Operating System)는 대규모 언어 모델(LLM)을 운영체제의 두뇌로 삼아, 기존 OS의 역할을 뛰어넘어 지능형 에이전트로서의 기능을 내재한 새로운 패러다임의 운영체제입니다. 최근 AIOS는 여러 연구에서 주요 의제로 부상하고 있으며, 더욱 정교한 AI 기반 서비스와 애플리케이션을 개발할 수 있도록, 클라우드 서비스 제공자뿐만 아니라 글로벌 주요 OS 제조업체들도 AIOS 기술을 내장형 LLM 또는 커널(kernel) 레벨에서 직접 통합하려는 시도를 활발히 전개하고 있습니다.

본 글에서는 AIOS의 등장 배경과 시장 환경 변화, 그리고 주요 클라우드 사업자들이 정의하는 AIOS의 개념과 방향성을 중점적으로 다루고자 합니다. AIOS의 주요 특징과 어떤 기술적/산업적 변화가 이를 주도하고 있는지, 그리고 클라우드 제공자 측면에서는 AIOS를 어떻게 해석하고 있는지를 자세히 살펴보겠습니다.

주요 특징

AIOS는 최근 부각되고 있는 개념과 기술 출현 단계로, 일반적으로 LLM을 운영체제의 커널로 활용하는 AIOS는 다음과 같은 핵심 구성요소를 포함합니다.

<표 1> AIOS의 핵심 구성요소

구성요소 기능
LLM 관리자(LLM Core) 다양한 LLM 인스턴스를 추상화하여 통합 관리
LLM 스케쥴러(LLM Scheduler) AIOS 제공자 영역에서 세션 또는 이기종(heterogenious) GPU 기반 스케줄링 알고리즘으로 LLM 요청 처리
컨텍스트 관리자(Context Manager) LLM 추론 중단점을 저장하고 복원하는 컨텍스트 스위칭 기능
메모리 관리자(Memory Manager) LLM 요청자의 단기 메모리와 장기 메모리 관리
저장소 관리자(Storage Manager) 영구 데이터 저장 및 벡터 데이터베이스 기반 검색
도구 관리자(Tool Manager) 다양한 API 도구의 표준화된 로딩 및 활용
접근 관리자(Access Manager) 요청 기반 접근 제어 및 사용자 개입 인터페이스

AIOS는 LLM 서비스를 핵심으로 제공하고 LLM 인프라의 효율적 운영을 위해, 자원 예약 및 동적 할당, 동시 실행과 컨텍스트 스위칭, API와 SDK를 포함한 도구 서비스 및 접근 제어 등의 기능을 커널 계층에서 제공합니다.

AIOS는 전통적인 운영체제와 비교할 때 여러 가지 공통점과 차별화된 특징을 함께 가지고 있습니다.

전통적 OS 아키텍처 AIOS 아키텍처
img-250910-01-cloud-aios-1
AIOS와 전통적 OS의 아키텍처 비교
img-250910-01-cloud-aios-2
AIOS와 전통적 OS의 아키텍처 비교

[그림 1] AIOS와 전통적 OS의 아키텍처 비교(출처: Yingqiang Ge, et al. [4])

<표 2> AIOS와 전통적 OS의 서비스 비교

서비스 전통적 OS AIOS
아키텍처 레이어
  • 단일 커널 중심
  • 프로세스, 메모리, 파일, 디바이스 관리
  • 기존 OS 커널 위에 별도 LLM 커널 레이어 추가
  • 커널 구성 모듈: LLM Scheduler, Context Manager, Memory/Storage Manager, Tool Manager, Access Manager
자원 예약 및 리소스 할당, 동시 실행 지원
  • 프로세스, 스레드 단위로 표준 스케줄러와 메모리 관리
  • 멀티프로세싱, 멀티스레딩 기반 동시성 관리
  • LLM 요청 단위로 전용 스케줄링, 메모리 관리를 수행하여 GPU, 메모리, I/O 등 자원을 동적으로 최적화 배분
  • 다수의 LLM 요청 동시 실행을 OS 차원에서 지원, 동시 사용 시 충돌이나 경쟁을 완화하도록 설계
컨텍스트 스위칭
  • CPU 레지스터, 메모리 맵, 스레드 상태 중심
  • 체크포인트, 가상메모리 스와핑 등 범용 기법
  • 컨텍스트 매니저가 LLM 작업의 상태 스냅샷, 복원을 관리하여 LLM 요청 간 LLM 컨텍스트 전환을 효율화
  • LLM 작업 상태를 보존, 재개하도록 특화된 스냅샷, 복원 경로 제공
애플리케이션
  • 전통적 앱에서 직접 기능 구현(일정, 검색, 문서 등)
  • LLM 애플리케이션이 기능을 수행하도록 OS 차원에서 통합 관리, LLM 중심 개발을 지원
개발자 인터페이스
  • POSIX/시스템 콜, 표준 SDK
  • LLM API 호출 + AIOS SDK로 LLM 앱이 추론과 OS 작업을 단계적으로 조합하도록 지원
도구 서비스의 접근 통제/권한 관리
  • 각 앱이 개별 통합
  • 사용자, 그룹, ACL 등 전통적 보안 모델
  • 도구 관리자가 LLM API, 툴킷을 OS 레벨에서 제공
  • 접근 관리자가 LLM 요청 간 권한과 자원 접근을 엄격히 제어
하드웨어 자원 인식
  • CPU 중심, GPU는 드라이버, 런타임에 위임
  • LLM 워크로드 특성을 고려해 CPU, GPU, 메모리, I/O를 LLM 요청자 기준으로 최적화 관리
목표/효과
  • 범용 컴퓨팅 성능, 안정성
  • LLM 요청 단위로 리소스 최적화, 컨텍스트 전환, 동시 실행을 체계화해 생산성과 효율 향상

시스템 자원 관리, 동시 실행, 접근 제어, 그리고 하드웨어 인식 등 기본적인 운영체제 역할에 있어서는 일반 애플리케이션과 LLM 애플리케이션 모두 효율적인 자원 활용을 목표로 한다는 공통점이 있습니다.

하지만 전통적인 운영체제는 애플리케이션이나 프로세스, 그리고 스레드를 중심으로 자원을 관리하며, 개발자는 시스템 콜과 같은 전통적 인터페이스를 통해 작업을 수행합니다. 반면, AIOS는 LLM을 중심으로 여러 LLM 클라이언트가 동시에 효율적으로 동작할 수 있도록 전용 스케줄러와 컨텍스트 관리 기능을 추가합니다. 또한, OS 수준에서 LLM API, 툴, 자원 접근 권한을 통합적으로 제어하여 에이전트 운영에 최적화된 환경을 제공합니다.

즉, 기존 OS가 범용 프로세스·스레드와 시스템 콜 방식 자원 분배에 초점을 맞추는 것과 달리, AIOS는 LLM 기반 에이전트의 동시적 효율성과 통합적 접근제어·자원 관리에 중점을 둔 설계라는 점에서 근본적인 차이가 있습니다.

AIOS 최신 논문 및 동향 소개

AIOS를 심층적으로 이해하기 위해 참고한 Kai Mei, et al.의 논문 "AIOS: LLM Agent Operating System(arXiv:2403.16971)"은 여러 연구에서 인용되고 있으며, 관련 논문과 LLM 및 AI 에이전트 분야의 최신 동향을 다루는 블로그가 꾸준히 게재되고 있습니다. 특히 AIOS는 다양한 에이전트 프레임워크(ReAct, Reflexion 등)와 비교한 실험, 그리고 성능 개선 결과를 통해 연구자와 실무자 모두에게 큰 관심을 받고 있습니다. 논문에서 AIOS는 인공지능 운영체제가 아니라 "LLM 에이전트 운영체제(LLM Agent Operating System)"로 정의되며, 다음과 같은 아키텍처로 구성됩니다.

img-250910-02-cloud-aios [그림 2] AIOS의 아키텍처(출처: Yingqiang Ge, et al. [4])
AIOS의 아키텍처

LLM Agent OS 아키텍처 특징

LLM 에이전트 운영체제는 AI 에이전트에 포커싱하여 대규모 언어 모델(LLM) 기반 지능형 에이전트의 효율적 실행과 자원 관리를 위해 설계된 새로운 운영체제 아키텍처입니다.

  • 자원 및 서비스 분리: LLM, 외부 도구 등 핵심 리소스와 LLM 특화 서비스를 에이전트 애플리케이션과 분리하여, 커널이 핵심 역할을 담당합니다.
  • 에이전트 프레임워크 독립성: 다양한 에이전트 프레임워크에서 AIOS 커널의 기능을 공통적으로 활용할 수 있도록 설계되어 있습니다.
  • AIOS-Agent SDK: 커널의 기능을 활용할 수 있는 포괄적 API 세트를 제공, 에이전트 개발자가 손쉽게 자원 관리, 스케줄링 등 커널 서비스를 사용할 수 있습니다.

LLM Agent OS 커널의 주요 기능

기존 운영체제의 자원 관리 및 서비스 제공 방식을 LLM 기반 에이전트 환경에 맞게 재해석하여, 효율적인 자원 활용과 확장성을 동시에 제공하는 점이 특징입니다.

  • 스케줄링(Scheduling): 여러 에이전트의 요청을 효율적으로 처리하기 위한 스케줄링 기능을 제공합니다. 이를 통해 동시성(concurrency) 문제를 해결하고, 시스템 전체의 효율성을 높입니다.
  • 컨텍스트 관리(Context Management): 각 에이전트의 실행 상태와 컨텍스트를 관리하여, 중단점 저장 및 복원, 에이전트 간 컨텍스트 전환을 지원합니다.
  • 메모리 관리(Memory Management): LLM 및 에이전트의 메모리 사용을 효율적으로 관리하여, 자원 낭비 없이 여러 에이전트가 동시에 실행될 수 있도록 합니다.
  • 스토리지 관리(Storage Management): 에이전트의 실행 기록, 데이터, 모델 파라미터 등을 안전하게 저장하고, 필요시 빠르게 접근할 수 있도록 지원합니다.
  • 접근 제어(Access Control): 각 에이전트가 사용할 수 있는 리소스와 서비스에 대한 접근 권한을 제어하여, 보안성과 안정성을 확보합니다.
  • 런타임 에이전트 관리: LLM 및 외부 도구(예: 검색, 계산 등)의 효율적 실행과 자원 할당을 커널이 직접 관리합니다.
  • 성능 개선: AIOS 커널을 도입하면 기존 에이전트 프레임워크 대비 최대 2.1배 빠른 실행 성능을 달성할 수 있습니다.
img-250910-03-cloud-aios [그림 3] LLM Agent OS (논문의 AIOS) 적용 시 Throughput, Latency 개선 효과
LLM Agent OS (논문의 AIOS) 적용 시 Throughput, Latency 개선 효과
  • 확장성: 다양한 에이전트 프레임워크와 도구, LLM 모델을 통합적으로 관리할 수 있어, 대규모 에이전트 생태계 구축에 적합합니다.

AIOS 생태계 관련 동향

다양한 접근으로 AI를 운영체제에 적용하려는 시도가 활발하며, 실험 단계부터 상용화를 지향하는 사례까지 논문과 여러 시도를 통해 확인할 수 있습니다. 아래 표는 이러한 최근 동향을 정리한 것입니다.

<표 3> 부상하는 AIOS 아키텍처와 상용화 동향

분류 사례 특징 참고
연구적 AIOS/AgentOS 아키텍처 Rutgers AIOS
  • LLM 에이전트를 OS 프로세스처럼 취급
  • 스케줄링·자원 관리·메모리 계층 제공
KAOS
  • 멀티에이전트 자원 관리/협업을 OS 레벨에서 지원
BYOS
  • 커널 설정을 LLM이 최적화/추천
UFO2 (Desktop AgentOS)
  • HostAgent + AppAgent 구조, Windows GUI 제어/격리 실행
  • 실제 데스크톱 상호작용
MemGPT (현 Letta)
  • LLM 메모리를 OS 계층 구조 방식으로 재설계
  • 장기 기억 중심
OSWorld
  • OS-UI 상호작용 학습 벤치마크 제공
  • 평가/연구 도구
상용 OS 통합형 (AI Runtime) Windows Copilot Runtime
  • Windows에 AI API·NPU 통합, OS/앱 AI 기본 기능 제공
  • 런타임 + API 집합
Warmwind OS
  • 클라우드 퍼스트, AI가 사용자 역할을 수행하는 실험적 OS
  • 초기 단계
플랫폼/엔터프라이즈 AI 인프라 RHEL AI
  • RHEL/OpenShift 기반, 모델 학습/서빙/배포 안정화
  • LLMOps 배포판

위 사례 중 실제 OS 제조사가 적용한 두 가지 사례, Microsoft Copilot과 Red Hat Enterprise AI를 간략히 소개합니다.

Microsoft Copilot

Microsoft Windows Copilot Runtime은 Windows 플랫폼에 AI를 깊이 내장해, 개발자와 사용자가 모두 활용할 수 있는 강력한 AI 실행 환경을 제공합니다.

img-250910-04-cloud-aios [그림 4] Microsoft의 Windows Copilot Runtime (출처: Microsoft [5])
Microsoft의 Windows Copilot Runtime

주요 특징은 다음과 같습니다.

  • AI 내장 운영체제: Windows OS의 모든 계층에 AI가 통합되어, 개발자가 AI 기능을 쉽게 활용할 수 있도록 설계되었습니다.
  • Copilot Library: 40개 이상의 온디바이스 AI 모델과 다양한 API(예: 이미지 생성, OCR, 실시간 번역, 사용자 활동 기반 Recall 등)를 제공합니다. 이 라이브러리는 개발자가 추가적인 모델 구축 없이도 고급 AI 기능을 앱에 통합할 수 있게 해줍니다.
  • AI 프레임워크 및 도구: DirectML, ONNX Runtime, PyTorch, WebNN 등 다양한 AI 프레임워크와 AI 모델 배포 도구를 지원합니다.
  • NPU(Neural Processing Unit) 최적화: Copilot+ PC와 같은 최신 하드웨어의 NPU를 활용해, 빠르고 효율적인 온디바이스 AI 실행이 가능합니다.
  • 생산성 및 보안 기능: Recall, Cocreator, Studio Effects, Live Captions 등 AI 기반의 새로운 사용자 경험과 생산성 기능이 대거 탑재되어 있습니다.

이러한 변화는 Windows를 단순한 OS에서 AI 중심 플랫폼으로 전환시키고 있습니다.

RHEL AI(Red Hat Enterprise Linux AI)

RHEL AI는 엔터프라이즈 환경에 특화된 오픈소스 AI 플랫폼으로, 최근 동향은 아래와 같습니다.

img-250910-05-cloud-aios [그림 5] RHEL의 AI Developer Preview (출처: Red Hat [6])
RHEL의 AI Developer Preview
  • Granite 모델 및 InstructLab 도구: 오픈소스 Granite 모델을 기반으로, 기업이 자체 프라이빗 데이터를 활용해 맞춤형 AI 모델을 쉽게 조정할 수 있도록 지원합니다. InstructLab은 데이터 기반 튜닝을 간소화합니다.
  • OpenShift AI 연계: RHEL AI는 Red Hat OpenShift AI와 통합되어, 완전 관리형 AI 애플리케이션 플랫폼을 제공합니다. 이를 통해 대규모 AI 모델 배포 및 관리가 용이해졌습니다.
  • 엔터프라이즈 혁신 가속화: 기업들은 RHEL AI를 통해 생산성 향상, 운영 효율화, 데이터 기반 의사결정 등 다양한 비즈니스 혁신을 실현하고 있습니다.

최근 RHEL 10 버전에서는 AI, 이미지, 보안 기능이 대폭 강화되는 등 하이브리드 클라우드 및 산업별 맞춤형 AI 적용이 확대되고 있습니다.

클라우드 서비스 공급자의 AIOS

최근 연구 및 시장 동향을 종합해 볼 때, 클라우드 제공자의 AIOS는 기존의 전통적인 운영체제 역할을 넘어, 클라우드 매니지먼트 영역에서의 자원 관리 기술까지 폭넓게 통합하여 새로운 AI 중심 클라우드 플랫폼의 핵심 커널 역할을 수행하도록 설계되어야 합니다.

Samsung Cloud Platform(SCP)의 AIOS 커널 아키텍처 역시 이러한 개념을 반영하여, 생성형 AI 지원에 최적화된 OS로 설계되었습니다. 실제로 AIOS는 다양한 클라우드 자원(Virtual Server, GPU Server, Kubernetes, Cloud Functions 등)과 긴밀히 연동되며, LLM 기반 서비스 제공, 데이터 보안, 비용 최적화, 그리고 높은 개발 생산성 등을 폭넓게 지원합니다.

SCP 클라우드 환경에서 AIOS는 기존 리눅스나 윈도우 가상머신 OS 커널과 별도로 AIOS 커널이 추가되는 구조를 채택합니다. 고객이 생성한 가상머신(VM)은 기존의 운영체제 커널(리눅스, 윈도우)을 그대로 유지하며, 여기에 LLM 엔드포인트가 클라우드 서비스 차원에서 기본적으로 추상화되어 제공됩니다. LLM 서빙은 클라우드 서비스 영역에서 관리되며, 이와 관련된 AIOS 커널 기술은 서빙, 메모리, 저장소, 네트워크, 보안 등 다양한 관리 스택으로 통합 제공됩니다.

고객은 별도의 복잡한 설정 없이 생성한 가상머신 리소스에서 손쉽게 LLM 서비스를 활용할 수 있으며, 실제로는 클라우드 제공자 영역의 통합 AIOS 커널 스택이 리소스 관리, 확장, 보안 등 서비스 운영을 전담하여 안정성을 높입니다.

img-250910-06-cloud-aios [그림 6] Samsung Cloud Platform의 AI 특화 기능 (출처: 삼성SDS)
Samsung Cloud Platform의 AI 특화 기능

AIOS는 삼성 클라우드 플랫폼(SCP) 서비스 전반에 AI 지능화를 실현하는 운영체제입니다.

  • SCP Virtual Server, GPU Server, Kubernetes, Functions에서 LLM 즉시 사용: 다양한 SCP 상품(Virtual Server, Kubernetes, Functions 등)에서 생성한 모든 컴퓨팅 자원에 대해 자원 생성 즉시 LLM 서비스를 바로 활용할 수 있습니다. 운영체제나 개발 환경에 관계없이, AIOS가 제공하는 API, SDK를 통해 바로 LLM 호출이 가능합니다.
  • 안전하고 보안이 강화된 SCP 네트워크 활용: LLM Endpoint는 SCP 프라이빗 네트워크를 통해 안전하게 제공되며, 클라우드 내부에서 데이터가 이동하므로 데이터 유출 위험이 크게 줄어듭니다. 또한 권한 분리, 접근 제어, 사용자 인증 등 다양한 보안 기능이 함께 적용되어, 기업이 안심하고 AI 서비스를 이용할 수 있습니다.

이와 같은 기능을 바탕으로, SCP 서비스는 AIOS를 통해 기업 및 개발자가 더욱 빠르고 효율적으로 생성형 AI 서비스를 활용하고, 안정성과 보안을 극대화할 수 있도록 지원합니다. AIOS는 앞으로도 고도화된 클라우드 인프라와 GPU 중심의 AI 생태계를 기반으로, 기업과 개발자 모두에게 실질적인 가치와 미래 성장의 발판을 제공할 것입니다.

References

▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe

구독하기

subscribe

명제상
명제상 클라우드 전문가

삼성SDS 클라우드서비스사업부 클라우드개발실 SCP Platform아키텍처그룹

저는 Samsung Cloud Platform에서 AI/ML 서비스 중 AIOS의 기획, 설계, 개발을 담당하고 있습니다. 또한, GPUaaS의 다양한 서비스 기술을 클라우드 환경에 적극적으로 접목하고자 다양한 방안을 모색하고 있습니다.

공유하기