loading...

ML 모델, 모니터링이 중요한 이유

ML 모델, 모니터링이 중요한 이유

이 글은 IDG의 아티클을 전재하여 제공합니다.
[원문보기] : https://www.ciokorea.com/column/

변화하는 가정과 끊임없이 바뀌는 데이터는 머신러닝 모델을 프로덕션에 배포한 후에도 작업이 끝나지 않는다는 의미다.

애자일 개발팀은 마이크로서비스, 애플리케이션, 데이터베이스를 관찰할 수 있어야 하고, 운영 문제를 파악하기 위한 모니터링 기능을 갖춰야 하며, AI옵스를 활용하여 관리 가능한 인시던트를 경고 알림과 연계시켜야 한다.

사용자와 비즈니스 이해관계자가 (모델) 개선을 요청할 때 많은 데브옵스 팀은 애자일 방법론을 따라 피드백을 처리하고 새 버전을 배포한다. 만약 요청이 없더라도 데브옵스 팀은 앱을 업그레이드하고, 기본 구성 요소를 패치해야 한다는 점을 알고 있다. 그렇지 않으면 오늘 개발된 소프트웨어가 내일의 기술 부채가 될 것이다.

ⓒGetty Images Bank

머신러닝 모델의 라이프사이클 관리는 소프트웨어보다 더 복잡하다. 와이랩스(WhyLabs)의 공동설립자 겸 엔지니어링 부문 책임자 앤디 당은 “모델 개발 라이프사이클은 하이 레벨에서 소프트웨어 개발 라이프사이클과 유사하지만 훨씬 더 복잡하다. 소프트웨어는 코드로 취급되지만 ML 모델의 기반인 데이터는 복잡하고, 고차원적이며, 동작을 예측할 수 없다”라고 전했다.

코드, 구성 요소, 인프라 외에도 모델은 알고리즘, 구성, 학습 데이터세트를 사용하여 구축된다. 이는 설계 당시에 선택 및 최적화되기 때문에, 시간이 지나면서 가정 및 데이터가 변경되면 업데이트를 해야 한다.

머신러닝 모델을 모니터링하는 이유

애플리케이션의 성능, 안정성, 오류 조건을 모니터링하는 것과 마찬가지로, 머신러닝 모델 모니터링은 데이터 과학자에게 모델 성능에 관한 가시성을 제공한다. 모니터링은 모델이 예측에 사용되거나 해당 ML이 변동성 높은 데이터 세트에서 실행될 때 특히 중요하다.

이터레이티브(Iterative)의 공동설립자 겸 CEO 드미트리 페트로프에 따르면 “ML 팀이 모델을 개선하고 모든 것이 의도한 대로 실행되길 원하기 때문에 모델 모니터링은 성능 및 문제 해결에 목표를 둔다.”

무브웍스(Moveworks)의 수석 제품 관리자 라훌 카얄라는 “ML 모델 모니터링은 기업이 ‘AI 예측의 이점’과 ‘예측 가능한 결과에 대한 니즈’ 간의 균형을 맞추는 데 도움을 줄 수 있다”라며, “자동화된 알림을 통해 ML 운영팀이 이상치를 실시간 감지하여 피해 발생 전에 대응할 시간을 확보할 수 있다”라고 설명했다.

모델옵(ModelOp)의 공동설립자 스튜 베일리는 “강력한 모니터링과 자동 교정 기능을 결합하면 문제 해결 시간을 단축할 수 있다. 이는 비즈니스 가치를 극대화하고 위험을 줄이는 데 있어 핵심이다”라고 언급했다.

특히 데이터 과학자는 예상하지 못한 이상치를 파악할 수 있어야 한다. 카얄라는 “AI 모델은 확률적이어서 다양한 결과를 생성할 수 있다”라면서, “때때로 모델은 정상 범위를 크게 벗어나는 결과인 이상치를 생성할 수 있다. 이상치는 비즈니스 결과에 지장을 줄 수 있으며, 이를 간과할 경우 심각한 결과를 초래할 수 있다. 아울러 AI 모델이 실제 환경에 영향을 미치도록 하려면 AI가 직접적으로 영향을 미치는 제품 및 비즈니스 지표의 추세와 변동 사항도 모니터링해야 한다”라고 말했다.

예를 들어 주식의 일일 가격을 예측한다고 해보자. 시장 변동성이 낮을 때 LSTM(Long Short-Term Memory) 알고리즘이 기본적인 예측을 제공할 수 있으며, 포괄적인 딥러닝 알고리즘은 정확도를 향상시킬 수 있다. 하지만 대부분의 모델은 시장 변동성이 매우 높을 때 정확한 예측을 하는 데 어려움을 겪을 것이며, 모델 모니터링은 이를 경고할 수 있다.

다른 유형의 ML 모델은 분류(classification)를 수행하며, 정밀도 및 재현율(Precision and Recall) 지표는 정확도를 추적하는 데 도움이 될 수 있다. 정밀도는 모델이 True라고 분류한 것 중에서 실제 True인 것을 측정하는 반면, 재현율은 실제 True인 것 중에서 모델이 True라고 예측한 것을 측정한다(sensitivity).

또 ML 모니터링은 ML 모델 드리프트(예: 예측 대상의 기본 통계가 변경됐을 때의 개념 드리프트 또는 입력 데이터가 변경됐을 때의 데이터 드리프트 등)를 경고할 수 있다.

세 번째는 설명 가능한 ML이다. 이 문제는 모델 편향과 관련 있는데, 여기서 학습 데이터는 모델을 왜곡하여 잘못된 예측을 생성하는 통계적 결함을 가진다. 이러한 문제로 신뢰가 약화되고, 비즈니스 문제가 발생할 수 있다. 모델 성능 관리는 개발, 학습, 배포, 모니터링 단계에 걸쳐 이런 문제 해결을 목표로 한다.

피들러(Fiddler)의 수석 과학자 크리슈나람 켄타파디는 편향 위험이 감소된 ‘설명 가능한 ML’에는 모델 성능 관리가 필요하다고 말했다. 그는 “ML 모델이 과도하게 편향되지 않도록 하려면 기업은 모델 학습부터 검증, 분석, 개선까지 전체 라이프사이클에 걸쳐 모델 행동에 관한 컨텍스트와 가시성을 제공하는 솔루션이 필요하다”라며, “모델 성능 관리는 모델의 신뢰성을 보장하고, 엔지니어와 데이터 과학자가 편향을 식별하며, 근본 원인을 모니터링하고, 이러한 인스턴스 발생 이유를 확인하는 데 도움이 된다”라고 설명했다.

ML 모니터링 베스트 프랙티스

‘모델옵스, ML 모니터링, 모델 성능 관리’는 머신러닝 모델이 예상대로 작동하고, 신뢰할 수 있는 예측을 제공하도록 하는 관행 및 도구에 대한 용어다. 그렇다면 데이터 과학 및 데브옵스 팀은 이를 구축할 때 어떤 관행을 고려해야 할까?

도미노 데이터 랩(Domino Data Lab)의 수석 필드 데이터 과학자 조쉬 포두스카는 “모델 모니터링은 중요하고 지속적인 프로세스다. 드리프트된 모델의 정확도를 개선하려면 ‘ground truth(모델이 예측해 주길 바라는 답)’ 라벨과 함께 최신 데이터로 다시 학습시켜야 한다”라고 전했다.

아노도트(Anodot)의 공동설립자 겸 수석 데이터 과학자 아이라 코헨은 “ML 모델 모니터링에 중요한 점이 있다. 입력 변화가 문제를 일으킬 수 있기 때문에 모델의 출력 및 입력을 모니터링해야 한다”라면서, 모델 성능을 직접 또는 충분히 빠르게 측정할 수 없을 때 프록시 측정법을 사용하라고 권장했다.

삼성SDS 브라이틱스 머신러닝 - 다양한 분석 자동화 기능을 통해 누구나 쉽고 빠르게 AI 분석 서비스를 개발하고 활용

이어 “데이터 과학자는 모델 모니터링을 위한 도구가 필요하다. 모델을 수동으로 모니터링하는 것은 확장성이 없으며, (대시보드와 보고서가) 많은 AI 모델이 배포될 때 생성되는 모니터링 데이터의 복잡성과 볼륨을 처리할 수 없다”라고 말했다.

•   페트로프는 “모델 개발 수명 주기 초기에 도구와 자동화를 업스트림에 배포하여 모니터링 요구사항을 지원하라”라고 권고했다.

•   당은 “데이터 엔지니어와 과학자는 데이터가 예상 형식인지 확인하기 위해 예비 검증을 실행해야 한다. 데이터와 코드가 CI/CD 파이프라인을 통해 이동하면서 검증 및 제약 조건 검사를 통해 데이터 유닛 테스트를 수행할 수 있어야 한다”라고 조언했다.

•   코헨은 “각 모델의 입력과 출력을 학습한, 확장할 수 있는 이상 감지 알고리즘을 사용하여 표준에서 벗어날 때 이를 알리는 한편 AI를 효과적으로 활용하여 AI를 모니터링하라”라고 전했다.

•   카얄라는 “특징 분포의 드리프트를 추적하라. 분포의 큰 변화는 최적의 성능을 얻기 위해 모델을 재학습시켜야 한다는 의미다”라고 말했다.

•   베일리는 “많은 기업이 포괄적인 모델 거버넌스 프로그램의 일환으로 모델 위험과 ROI를 모니터링하여 모델이 비즈니스 및 기술 KPI를 충족하는지 확인하고 있다”라고 언급했다.

소프트웨어 개발은 주로 코드 유지관리, 애플리케이션 성능 모니터링, 신뢰성 향상, 운영 및 보안 사고 대응에 중점을 둔다. 머신러닝에서도 끊임없이 변화하는 데이터, 변동성, 편향, 기타 요인에 따라 데이터 과학팀은 수명 주기 전반에 걸쳐 모델을 관리하고 모니터링해야 한다.

IDG logo

▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe

Isaac Sacolick
Isaac Sacolick 인공지능/애널리틱스 전문가

StarCIO의 CIO이며, Huffington Post와 Forbes로부터 탑 소셜 CIO로 선정된 바 있다.