AI 도입률 높이려다 비용만 폭증? ‘토큰맥싱(Tokenmaxxing)’이 던지는 경고

2026-06-29 Grant Gross

이 글은 IDG의 아티클을 전재하여 제공합니다.
[원문보기]

Executive Summary

생성형 AI 도입 초기에는 사용량 지표가 확산 속도를 파악하는 데 유용할 수 있습니다. 그러나 토큰 사용량을 핵심 KPI로 설정할 경우 임직원은 실제 성과보다 사용량 확대에 집중하게 되며, 이는 비용 증가와 ROI 악화로 이어질 수 있습니다.
토큰 사용량은 AI 활용 여부를 확인하는 선행 지표일 뿐 생산성이나 업무 성과를 직접 설명하는 결과 지표는 아닙니다. 따라서 활용량과 함께 업무 결과물, 품질, 비용 효율성, 프로세스 개선 효과를 함께 측정해야 합니다.
AI 활용 경쟁을 유도하는 지표는 조직의 AI 적응 속도를 높일 수 있지만, 잘못 설계된 경우 ‘토큰맥싱(Tokenmaxxing)’이라는 왜곡된 행동을 유발할 수 있습니다. 이는 과도한 AI 호출과 불필요한 모델 사용을 촉진하는 대표적 사례입니다.
기업의 AI 거버넌스는 ‘얼마나 많이 사용했는가’보다 ‘어떤 가치를 창출했는가’를 중심으로 재설계되어야 합니다. AI 운영 관리의 핵심은 사용량이 아니라 성과와 효율성의 균형입니다.

생성형 AI가 기업 업무 전반으로 빠르게 확산되면서 많은 기업들은 임직원의 AI 활용도를 높이는 데 집중하고 있습니다. AI 투자에 대한 실질적인 성과를 확보하기 위해서는 우선 구성원들이 새로운 도구를 적극적으로 사용하도록 만드는 과정이 필요하기 때문입니다.

이 과정에서 일부 글로벌 기업들은 AI 사용량을 측정하는 지표로 토큰(Token) 소비량을 활용하고 있습니다. 더 나아가 사내 리더보드를 운영해 임직원 간 AI 활용 경쟁을 유도하는 사례도 등장하고 있습니다. 아마존, JP모건, 메타, 디즈니 등 일부 기업에서는 AI 사용량 순위를 공개하거나 활용도를 장려하는 방식이 도입된 것으로 알려졌습니다.

그러나 이러한 접근 방식은 예상치 못한 부작용을 낳고 있습니다. 최근 업계에서는 ‘토큰맥싱(Tokenmaxxing)’이라는 신조어가 등장했습니다. 이는 업무 성과를 높이기 위해 AI를 사용하는 것이 아니라 단순히 더 많은 토큰을 소비하기 위해 AI를 과도하게 활용하는 행태를 의미합니다.

실제로 한 디즈니 직원은 9일 동안 46만 회 이상 Claude AI를 호출한 사례가 보고되기도 했습니다. 이러한 현상은 AI 도입 확대라는 본래 목적과 달리 비용 증가와 비효율을 초래할 수 있다는 점에서 기업 IT 리더들의 새로운 고민거리로 떠오르고 있습니다.

사용량은 측정하기 쉽지만, 성과를 설명하지는 못한다

토큰 사용량이 널리 활용되는 가장 큰 이유는 측정이 쉽기 때문입니다. 생성형 AI 플랫폼은 기본적으로 토큰 소비량을 자동 기록하기 때문에 별도의 분석 체계 없이도 손쉽게 수집할 수 있습니다.

AI 분석 기업 펜도(Pendo)의 토드 올슨 CEO는 토큰 사용량이 AI 활용 여부를 판단하는 초기 지표로는 의미가 있다고 설명합니다. 실제로 토큰 사용량이 전혀 없다면 해당 직원은 AI를 사용하지 않고 있으며, 따라서 AI로부터 어떤 가치도 얻지 못하고 있을 가능성이 높습니다.

문제는 모든 구성원이 AI를 사용하기 시작한 이후부터 발생합니다. 일정 수준 이상 AI가 조직에 정착한 뒤에는 사용량 자체가 더 이상 성과를 설명하지 못하기 때문입니다. AI 활용 초기 단계에서는 ‘사용 여부’가 중요하지만, 이후에는 ‘어떻게 활용하고 있는가’가 더욱 중요해집니다.

단순히 토큰을 많이 사용한다고 해서 업무 생산성이 높아지거나 의사결정 품질이 향상되는 것은 아닙니다. 오히려 사용량만을 강조하면 직원들은 AI를 사용하는 행위 자체를 목표로 삼게 될 수 있습니다. 결국 사용량은 도입 단계에서 필요한 선행 지표일 뿐이며, 성숙 단계에서는 비즈니스 성과를 설명하는 핵심 지표로 활용하기 어렵습니다.

잘못된 KPI가 만드는 왜곡된 행동

인프라 서비스 기업 킨드릴(Kyndryl)의 로건 울프(Logan Wolfe)는 많은 기업들이 토큰 사용량을 생산성의 대리 지표로 사용하고 있다고 지적합니다. 하지만 토큰 사용량은 매우 쉽게 조작할 수 있는 지표입니다.

그는 이를 과거 소프트웨어 개발 조직에서 사용되던 ‘코드 라인 수(Line of Code)’ 평가 방식과 비교합니다. 개발자가 작성한 코드의 양만을 평가 기준으로 삼을 경우 복잡하고 비효율적인 코드가 증가하는 현상이 나타났습니다. 많은 코드를 작성하는 것이 반드시 좋은 소프트웨어를 만드는 것과 동일하지 않았기 때문입니다.

토큰 사용량 역시 마찬가지입니다. 토큰 소비가 KPI가 되면 임직원들은 효율성이나 품질, 리스크 감소와 같은 결과보다 사용량 자체를 늘리는 데 집중하게 됩니다. 예를 들어 간단한 문서 요약 작업에도 고비용의 최신 대규모 언어모델을 사용하는 경우가 발생할 수 있습니다. 더 저렴한 모델이나 자동화 도구로 충분히 해결할 수 있는 작업임에도 불구하고, 토큰 소비량을 늘리기 위해 불필요하게 고성능 AI를 사용하는 것입니다. 이러한 현상은 AI 활용 문화가 아니라 AI 소비문화를 만들 수 있으며, 조직 전체의 AI 투자 효율성을 저하시킬 위험이 있습니다.

AI 비용과 ROI에 미치는 영향

토큰맥싱의 가장 큰 문제는 예산 통제에 있습니다. 생성형 AI 운영 비용은 여전히 상당한 수준이며, 대규모 조직에서는 토큰 사용량 증가가 곧바로 운영비 증가로 연결됩니다. 특히 최신 AI 모델은 뛰어난 성능을 제공하는 대신 높은 연산 비용을 요구합니다. 여기에 데이터센터 운영비와 에너지 비용 상승까지 더해지면서 기업의 AI 운영비 부담은 지속적으로 증가하고 있습니다.

이러한 상황에서 토큰 소비량을 중심으로 한 인센티브 체계는 AI 투자 경제성을 악화시킬 가능성이 높습니다. 실제 비즈니스 가치가 늘어나지 않는 상태에서 사용량만 증가한다면 기업은 더 많은 비용을 지불하면서도 기대한 ROI를 확보하지 못하게 됩니다.

AI 코드 리뷰 플랫폼 Qodo의 CEO 이타마르 프리드먼(Itamar Friedman)은 이를 건강관리와 비교합니다. 매일 걷는 거리만 측정하고 칼로리 섭취량이나 건강 상태를 전혀 확인하지 않는 것과 같다는 설명입니다. 많이 걷는다고 반드시 건강해지는 것이 아닌 것처럼, 많은 토큰을 사용한다고 반드시 생산성이 향상되는 것은 아닙니다. 따라서 토큰 사용량은 참고 지표로 활용할 수 있지만 단독 지표로 사용하는 것은 매우 위험한 접근 방식입니다.

개발 조직에서 더욱 커지는 위험

토큰맥싱은 특히 소프트웨어 개발 조직에서 더 큰 문제를 야기할 수 있습니다. 최근 많은 기업들이 개발자에게 AI 코딩 도구를 제공하고 있으며, 이를 통해 개발 생산성을 높이고자 하고 있습니다. 그러나 개발자의 성과를 AI 사용량이나 생성된 코드 양으로 평가할 경우 품질 문제가 발생할 수 있습니다. AI가 생성한 코드가 실제 운영 환경에 반영되지 못하거나, 보안 취약점과 버그를 포함한 상태로 배포될 위험이 높아지기 때문입니다.

개발 조직의 진정한 생산성은 작성된 코드의 양이 아니라 실제 서비스에 반영된 코드의 가치로 측정해야 합니다. 얼마나 많은 코드를 생성했는가보다 얼마나 많은 코드가 검증을 거쳐 운영 환경에 안정적으로 적용되었는가가 중요합니다. AI 역시 마찬가지입니다. 생성된 결과물이 실제 비즈니스 프로세스 개선과 고객 가치 창출에 연결되지 않는다면 많은 토큰 소비는 의미를 갖기 어렵습니다.

AI 성과 측정의 새로운 기준이 필요하다

전문가들은 AI 활용도를 측정할 때 사용량 중심의 접근에서 벗어나야 한다고 강조합니다. 토큰 소비량은 중요한 데이터이지만 전체 그림의 일부에 불과하기 때문입니다.

향후 기업들은 토큰 사용량과 함께 업무 결과물, 비용 효율성, 품질 개선 효과, 자동화 수준, 운영 환경 적용률 등을 종합적으로 평가해야 합니다. 특히 AI 사용 과정에서 발생한 낭비 비용과 최적화 가능 비용을 함께 측정하는 체계가 필요합니다.

궁극적으로 기업이 측정해야 할 것은 AI 사용량이 아니라 AI가 만들어낸 성과입니다. 조직이 얼마나 많은 토큰을 소비했는가보다 AI를 통해 얼마나 빠르고 정확하게 업무를 수행했으며, 얼마나 많은 비즈니스 가치를 창출했는가가 핵심입니다. 생성형 AI 도입이 확산될수록 기업의 경쟁력은 더 많은 AI를 사용하는 데서 나오지 않습니다. 올바른 방식으로 AI를 활용하고, 이를 성과로 연결하는 능력에서 결정될 것입니다.

FAQ

토큰맥싱(Tokenmaxxing)이란 무엇인가요?

AI 활용 성과보다 토큰 사용량 자체를 늘리는 데 집중하는 행동을 의미합니다. 주로 토큰 소비량 기반의 경쟁이나 평가 체계에서 발생합니다.
토큰 사용량은 왜 중요한 지표인가요?

AI 도구 활용 여부와 초기 도입률을 확인할 수 있기 때문입니다. 다만 생산성이나 ROI를 직접 설명하는 지표는 아닙니다.
토큰 사용량이 많으면 생산성도 높아지나요?

반드시 그렇지는 않습니다. 많은 토큰 소비가 실제 업무 성과, 품질 향상, 비용 절감으로 이어진다는 보장은 없습니다.
기업은 어떤 AI KPI를 함께 관리해야 하나요?

업무 처리 시간 단축, 운영 반영률, 품질 개선, 비용 효율성, 자동화 수준, 비즈니스 성과 등의 지표를 함께 관리해야 합니다.
AI 거버넌스에서 가장 중요한 기준은 무엇인가요?

AI 사용량 자체보다 조직이 창출한 실질적 가치와 ROI를 측정하는 것입니다. 성과 중심의 평가 체계가 장기적인 AI 경쟁력을 결정합니다.