고객 지향 데이터 경영 전략 - AI 기반 VoC 텍스트 데이터 분석

2019-10-14 남윤철

기업은 사업을 영위하는 과정에서 다양한 고객 데이터를 축적합니다. 과거에는 데이터를 쌓아두기만 했던 기업들이 최근 들어 360º 고객 View 기반 인사이트 확보, 전략적 의사결정 및 디지털 혁신 역량을 높이기 위해 그간 축적해 둔 데이터를 분석, 활용하는데 적극 나서고 있습니다. 특히 비즈니스적 가치가 나날이 높아지는 고객 VoC 데이터는 대부분이 '텍스트' 형태로 저장, 관리되고 있기 때문에 이를 활용한 데이터 기반 운영 혁신(Digital Operation Excellence)을 이루기 위해서는 텍스트 데이터에 대한 분석 역량이 요구됩니다.

기존 방법론 - Taxonomy 분석

텍스트 데이터의 분석 기법은 종류나 속성에 따라 다양하지만 대표적인 것으로 머신러닝 기반의 '텍스트 마이닝(Text Mining)'을 들 수 있습니다. 이는 비정형 텍스트 데이터를 자연어 처리와 형태소 분석 기술로 정제하고 단어를 추출해 빈도 수를 제시하여 순위나 인식의 유사성, 일반성을 찾아내고 분석합니다. 약어나 도메인 지식을 반영하고 분류를 위해 사전을 만들며 텍스트의 '형태' 중심으로 매핑하거나 연계 분석을 통해 인사이트를 도출하게 됩니다.
특정 분류체계 없이 워드클라우드¹ 형태로 다빈도나 트렌드를 분석하기도 하고 목적에 맞는 일반적인 분류체계, 즉 Taxonomy 방식으로 사전을 만들어 분석하기도 합니다.

Taxonomy 텍스트 분석 방법론:VoC TexT원문 : 자연어처리>Text 분석 컨셉: 불만 민원 발생원인에서 Voc분류체계 및 Rule과 키워드 매핑>통계분석및인사이트는 금액은 올라가고 점점 중심에 모임

그림1 - Taxonomy 텍스트 분석 방법론

실제로 소셜 리스닝(Social Listening)이라 해서 SNS나 다양한 채널 상의 고객 보이스, 자사 상품에 대한 평가나 긍·부정 버즈(Buzz) 등의 수집 분석, 수작업으로 정리한 운영 데이터의 분석 통계, 특정 인사이트를 사업 운영에 반영하거나 경영혁신 활동의 단초로 활용하는 경우 등 자연어 처리를 기반으로 하는 Taxonomy 방식의 분석은 그 활용도 측면에서 일정 수준 안착한 모습을 보이고 있습니다.

하지만 기업 CS센터(콜센터 또는 소비자 상담·고객만족 영역)에 저장되어 있는 고객의 VoC 데이터를 분석하는 경우는 상황이 조금 다릅니다. VoC 데이터를 분석하기 위해 Taxonomy 방식의 시스템을 구축했으나 활용도가 저조하거나 심지어 시스템이 사장되는 경우를 종종 발견할 수 있습니다. 이같은 상황이 발생하는 이유는 다음과 같습니다.
첫째, 현업 업무에 도움이 되는 콘텐츠가 별로 없는 경우
둘째, 통계 데이터, 워드클라우드, 감성 분석² 등 도출된 인사이트를 몇 번 보고 나면 더 이상 새로울 것이 없는 경우

이는 모두 Taxonomy 분석 기법의 한계이자 텍스트 데이터의 분류사전이 너무 제한적으로 만들어진 것에 기인합니다.

현업의 활용도가 높은 VoC 텍스트 분석 시스템 구축

기업의 IT 혹은 디지털 혁신 조직에서 애써 구축한 시스템이 현업 활용도가 떨어지거나 접속빈도가 낮아져 사장되는 이유는 시스템이 제공하는 콘텐츠의 '범위'와 '깊이'가 제한적이기 때문입니다. 적어도 VoC를 분석한 결과라면 일반적인 기업의 밸류 체인(Value Chain) - 개발>구매>제조>물류>마케팅>판매 및 서비스(금융의 경우 마케팅>상품>심사계약>보상>서비스) 영역에서 근무하는 현업들이 수시로 참조할 만큼 유용해야 합니다. 즉, VoC 텍스트 데이터 분석 시스템으로부터 업무에 도움이 되는 인사이트를 얻을 수 있는 체계 또는 콘텐츠 분석 결과가 꾸준히 업데이트 되어야 합니다. 그래야만 시스템 활용도가 높아지고 진정한 고객지향을 추진하는데 의미가 있을 것입니다.

일반적으로 VoC 텍스트 데이터에는 상품 및 서비스에 대한 불만, 민원 외에 더 다양한 정보들이 담겨 있기 마련입니다. 예를 들어 경쟁사와의 비교, 운영상의 비효율(Operational Issues)을 질책하거나 상품 및 서비스의 개선 포인트에 대한 의견은 물론 평판, 고객 개인의 호불호 등을 들 수 있습니다. 하지만, 실제 업무에서는 불만, 민원을 처리하기에 급급한 나머지 다양한 개선 의견은 묵살되기 쉽습니다. 게다가 이러한 데이터를 분석한다 하더라도 Taxonomy 방식으로 처리하기에는 한계가 있습니다.

VoC 분석의 지향점은 크게 두 가지로 나누어 볼 수 있습니다.

첫째, CS센터의 VoC 분류 업무 효율화입니다.
대부분의 기업들은 수많은 VoC 내용을 직원이 일일이 읽어본 후, 불만의 원인, 유형, 담당부서를 결정해 통보하는 과정을 수기로 운영하고 있습니다. 반면 VoC 분석 기반 자동 분류를 적용하면 사안 분류부터 유관부서 통보에 이르는 전과정이 자동화 되어 처리시간을 단축할 수 있을 뿐만 아니라 VoC 발생 원인이나 인사이트를 자동으로 도출할 수 있게 됩니다.

둘째, 앞서 설명한 전사 활용 측면입니다.
VoC 텍스트 분석 시스템의 활용도를 높이기 위해서는 텍스트 데이터의 정보와 맥락(Context)을 분류하여 회사 내 모든 사업부가 볼 수 있도록 전사 차원에서 지향하는 Value-Added 분류체계를 만들고 이에 따라 데이터를 분석해야 합니다. 불만, 민원만 걸러내는 것이 아닌, 사업에서 활용할 수 있는 맥락이나 의도(Intention) 등을 걸러낼 수 있는 분류체계를 말하는 것입니다.

예를 들면 고객이 "경쟁사 제품에 있는 기능이 우리 제품에는 왜 없죠?"와 같은 VoC를 남겼을 때 이 데이터는 불만도, 민원도 아니기 때문에 고객 접점(CS 창구)에서 그냥 흘려 버리거나 유관 부서로 전달되지 않을 가능성이 높습니다. 아직 STT(Speech To Text) 기술의 정확도 수준이 90% 미만인 상황에서 대부분의 CS센터에서는 취합된 VoC를 당장 처리해야 할 시급성 순으로 요약, 정리해서 보고하기 때문에 이같은 일이 발생합니다. 게다가 해당 VoC의 빈도수가 적다면 워드클라우드에도 나타나지 않습니다. 모든 고객이 우리 회사에 로열티가 있어 적극적으로 의견을 개진해 줄 것이라는 환상에서 벗어나 고객의 작은 의견에도 귀를 기울이고자 한다면 이 부분은 대단히 중요합니다. 작지만 의미있는 VoC가 텍스트 데이터로 걸러져서 분석되고 유관부서로 전달된다면 이에 맞추어 운영현황을 점검해 보거나 검토할 수 있을 것입니다.

Value-Added 분류체계는 고객의 보이스를 여러 각도에서 걸러내 분석할 수 있도록 관점(Viewpoint)을 제공합니다. 이의 구축을 위해서는 기업·사업부별 전략, 운영 방향, 프로세스나 경쟁사 대비 열·우위 전략 등이 사전에 이슈트리 기반 분석 활용 시나리오나 마스터플랜 등의 형태로 먼저 정의되어야 하고, 이를 바탕으로 VoC 분류체계를 만드는 것이 중요합니다.

이러한 분석 활용 시나리오 및 분류체계는 AI 대화형 서비스(챗봇)에도 적용되어야 하며 다양한 고객 문의에 대한 기업 답변과 사후 처리까지 모든 영역에 빠짐없이 대응할 수 있는 기준이 되어야 합니다. 이를 토대로 분석 시스템을 구축하면 전사적으로 높은 활용도와 인사이트 체계를 확보할 수 있습니다. 통상 이같은 VoC 분석 프로젝트는 CS 부서나 디지털 추진 조직에서 주도하겠지만 사내 모든 운영부서 인력들이 참여하여 VoC 데이터 활용 방안·주제 및 분석 관점을 먼저 논의하는 것이 프로젝트의 성패를 좌우합니다.

VoC 데이터에 비즈니스적 해석 붙이기: Labeled 데이터 확보

VoC는 고객이 말하고자 하는 의미(Meaning), 의도(Intention)가 다양한 뉘앙스로 표현됩니다. 이를 비즈니스적으로 이해하고 업무 지식에 눈높이를 맞춘 언어로 해석해야지만 전사적으로 활용할 수 있습니다. 이름이나 레이블 없이 쌓여 있는 데이터는 동일 유사 형태의 키워드일 뿐 그 이상의 의미는 없습니다.
김춘수 시인의 시 (꽃)을 보면 "내가 그의 이름을 불러 주기 전에는 그는 다만 하나의 몸짓에 지나지 않았다. 내가 그의 이름을 불러 주었을 때 그는 나에게로 와서 꽃이 되었다"처럼 데이터를 비즈니스적 의미로 불러주고 분석의 토대로 삼아야지만 그 데이터가 경영혁신의 꽃(?)이 될 수 있습니다. 이를 데이터 레이블링이라고 합니다. 레이블링(Labeling)은 전처리된 VoC 텍스트 데이터에 고객 의도를 구분해서 비즈니스적으로 어떤 의미를 갖는지 (이를 테면 해시태그처럼 태깅해주는) 이름(레이블)을 붙이는 작업입니다.

전처리된 텍스트 데이터에 '특정 알고리즘'을 적용해 이 데이터의 비즈니스적 의미를 Value-Added 분류로 레이블링하여 분석합니다. 예를 들면, 특정 VoC 텍스트 데이터가 '상품 기획의 이슈'인지, '서비스의 불만'인지, '경쟁사 대비 열·우위의 이슈'인지를 파악할 수 있습니다. 즉, 단순 문구, 단어의 형태소적 유사성을 기준으로 분석하는 것이 아니라, 특정 알고리즘을 통해 문장, 문구의 결합에서 Value-Added 분류의 의미를 달아주는 것입니다.

Value-Added 레이블링 텍스트 분석 방법론:VoC TexT원문>Text 분석 컨셉: Value-added레이블링(불만/민원,전략적의미,분석니즈)에서 의도/의미 라벨링,검증기반오토레이블링>분석: naturall Language processing Labeled Data Deep Learning

그림2 - Value-Added 레이블링 텍스트 분석 방법론

참고로 다빈도와 변별력이 결합된 알고리즘을 통해 동일한 키워드이지만 상이한 의미를 구분할 수 있도록 '의도(Intention)'를 분류하여 레이블링 할 수도 있습니다. 이렇게 레이블드된 텍스트 데이터(Labeled Data)는 향후 BERT³ 등의 딥러닝 적용이 가능한 기반 데이터가 되어 사전을 업그레이드 하지 않더라도 자체 강화학습을 통해 VoC를 분석할 수 있도록 만들어 줍니다. 따라서 초기의 수고로움만 잘 넘기면 이후에는 실익이 더 커질 수 있습니다.

Value-added 레이블링과 Taxonomy의 차이점은 다음과 같습니다.

텍스트 분석 방법론 비교
구분	Value-Added 레이블링 - for AI 분석	Taxonomy 기반 분류체계 - General
내용	· Value(전략의 의미,현업 분석 니즈) 기반 VoC의 '의도 파악' 및 라벨링	· 분석用 목적(카테고리)별 단순 텍스트(키워드)분류
수행 내용	· 전략적 활용 가치 기반 원문 데이터 라벨링 · 데이터 검증 및 오토 라벨링 수행 - 일부 데이터 수기 분석, 라벨링 및 검증 ▶ 유사 데이터 반자동 라벨링 및 검증 ▶ 잔여 데이터 오토 라벨링 수행	· 비정형 데이터의 유의미한 정형 데이터 분류 - 전체 사전(Dictionary) 기반 100% 수기 분류/맵핑
장, 단점	· Labeled 데이터 기반 AI 자동 학습 기반 확보 · 분류체계 업그레이드 및 유지보수 不要	· Rule과 사전, 분류체계의 유지보수 難 · 학습 가능 형태의 Labeled 데이터 확보 必要

표1 - 텍스트 분석 방법론 비교

레이블링 방법론이 해결되었다면 이제는 남아 있는 과거 VoC 데이터에 레이블링을 할 차례입니다. 자동 레이블링 소프트웨어 툴을 활용하면 과거 Taxonomy 사전 방식 대비 10% 정도의 공수만 투입해도 비교적 용이하게 레이블링을 할 수 있습니다. VoC 양에 따라 'Value-Added 분류'와 'Value-Labeled 데이터 체계'를 완료하는데 분석 기반 검증까지 포함하여 통상 짧게는 2개월, 길게는 4개월이 소요되며, 전체 과정 중에서 레이블링 결과가 제대로 분류, 작동하는지를 점검하는 검증단계가 가장 많은 비중을 차지합니다.

텍스트 데이터의 AI 기반 딥러닝을 위한 교두보: Value-Labeled 데이터 체계

4차 산업혁명을 주도하는 핵심기술 중 하나인 AI는 인간의 '인지'와 '판단'을 모방하는 특징을 가지고 있습니다. 인간의 방식으로 이미지(시각)와 언어(음성 및 텍스트)를 이해하고 데이터를 축적해 인간과 유사한 의사결정을 수행합니다. 인간의 수많은 바둑 기보를 학습한 알파고가 이세돌 9단을 누른 지 불과 1년 만에 바둑의 룰셋(Rule-set, 이기는 방법)을 스스로 학습한 알파고 제로가 기존 알파고에 89승 11패로 압승을 거둘 만큼 AI 기술은 빠르게 발전하고 있습니다.

하지만 알파고 개발 총책임자인 유니버시티 칼리지 런던 데이비드 실버 교수는 BBC와의 인터뷰에서 "게임처럼 명백한 룰이 있는 분야와 달리 변수가 많고 예측할 수 없는 현실 세계에 이런 기술을 활용하는 것은 또 다른 영역이다"고 말했습니다. 그가 말한 '또 다른 영역'에는 '텍스트 분석' 분야가 포함될 것입니다.
TV 예능 프로그램에서 어린 꼬마 출연자가 독일어로 옹알이를 하거나, 5개 국어를 하는 누나의 모습은 텍스트 분석 관점에서 많은 시사점이 있습니다. 아이의 지능이 성장하는 초기 단계지만 언어를 부지불식 중에 학습하며, 그 언어의 정답지는 부모의 일상 대화나 교육 현장에서 들은 내용일 것입니다. 보고 듣는 학습이나 정답지 없이 어린 아이가 갑자기 독일어로 옹알이를 할 수 없을 것입니다. 설령 일반적인 커뮤니케이션이나 감정표현(Sentimental Expression)은 옹알이로 가능하다 할지라도, 이같은 방식으로 전문 분야에 대한 언어 학습은 어려울 것입니다.

마찬가지로 기업의 텍스트 데이터도 업(業)에 부합하는 Value-Added된 분류나 레이블링 작업 없이, 범용 AI 알고리즘이 사업 본질과 지식을 학습해서 자동으로 레이블을 생성하고 인사이트를 도출해 내는 것은 지금 당장 상상하기 어려운 게 사실입니다. 현재 기술 발전 단계에 비추어 봤을 때 기업이 VoC 딥러닝 분석을 효과적으로 전개하여 활용도를 높이고자 한다면 최우선적으로 Labeled 데이터를 확보하는 것을 고려해야 합니다.

References:
1. 워드클라우드: 특정 단어의 빈도나 중요성을 글자의 크기로 나타낸 이미지. 단어를 시각적으로 돋보이게 하는 기법.
2. 감성 분석: 소비자의 감성과 관련된 텍스트 정보를 자동으로 추출하는 텍스트 마이닝(Text Mining) 기술의 한 영역.
3. Bidirectional Encoder Representations from Transformers. 구글이 개발한 대화형 인공지능 언어 모델.

에스코어 - 에스코어는 경영 컨설팅 전문성과 소프트웨어 기술력을 바탕으로 성공적인 디지털 트랜스포메이션을 위한 IT 전략 수립, 신기술 소프트웨어 개발 및 기술 서비스를 One-Stop으로 제공합니다. -----> 본 아티클은 ㅡ에스코어 홈페이지에서 PDF 파일로 다운로드 받을 수 있습니다. - PDF 다운로드

이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

남윤철 인더스트리 TIPS 전문가

에스코어㈜ 컨설팅사업부 전략프로세스혁신팀

유통, 서비스, 금융 산업을 대상으로 Digital Transformation 및 Digital Operation Excellence 영역의 컨설팅 리더로 근무하고 있습니다.