소셜 빅데이터 분석과 인공지능

다양한 단어들이 세계지도를 형상화 하고 있고, 그 아래도 다국적 사람들이 다양한 직업군의 의상을 입고 서 있다다양한 단어들이 세계지도를 형상화 하고 있고, 그 아래도 다국적 사람들이 다양한 직업군의 의상을 입고 서 있다

[연재기획] 소셜 데이터와 인공지능(2편)

소셜 네트워크 서비스와 기술 발전

공유, 참여, 개방을 표방하는 웹 2.0의 개념이 제기된 이래로 소셜 네트워크 서비스는 실로 많은 변화를 겪어오고 있다. 웹사이트를 통한 일방적 정보 제공의 시대에서 지금은 소통과 협업이라는 키워드가 중요한 시대로 바뀌었다.
이러한 흐름 속에 맞춤화된 정보를 습득하고 의견을 나누는 것을 가능하게 하는 소셜 네트워크 서비스는 뉴 노멀(new normal)이 되었다.

얼마전까지만 해도 페이스북이나 트위터를 이용하는 사람들이 초기 채택자(early adopter)로 받아들여졌지만, 최근에 들어서야 이 서비스를 시작한 사람들은 후기 다수자(late majority)에 속한다고 봐야할 것이다.

보통 서비스의 생명주기에서 성숙기에 접어들면, 틈새 시장을 노리는 서비스가 나오기 마련이다. 현재 우리가 익히 알고 있는 소셜 네트워크 서비스는 앞에서 제시한 페이스북이나 트위터를 제외하더라도, 인스타그램, 링크드인 등이 활발하게 이용되고 있으며, 리서치 게이트 (연구자들의 소셜 네트워크 서비스) 등과 같이 특정 집단을 대상으로 제공되는 서비스도 어렵지 않게 찾아볼 수 있다.
이처럼 다양한 요구를 충족시키는 새로운 형태의 소셜 네트워크 서비스의 출현을 가능하게 하는 요인 중 하나는 기술의 발전일 것이다.

초기 소셜 네트워크 서비스와 관련된를 기술은 그다지 대단하지 않았다.
통신망이나 서버라는 인프라 위에, 웹사이트나 앱을 만드는 기술, 거기에 덧붙인다면, 피드(feed) 기술과 프로필 분석을 바탕으로 한 친구 추천 기술 정도였다.

그러나, 최근에는 서비스들이 지능화되면서 더 높은 수준의 기술들을 요구하게 되었다. Gartner 그룹이 2011년에 발표한 10대 전략기술을 살펴보면 소셜 어낼리틱스(social analytics)가 포함되어 있다.
소셜 어낼리틱스는 사람, 사건, 아이디어 간 상호작용이나 연관관계를 측정, 분석하고 해석하는 기술이며, 이는 직장이나 사교모임 등의 물리적인 공간에서 뿐만 아니라 온라인 상에서 이루어지는 접촉과 관계에서도 활용될 수 있다.
구체적으로는 소셜 검색, 소셜 필터링, 소셜 네트워크 분석, 감성분석, 소셜 미디어 분석 기법 등과 같은 전문적인 분석 테크닉을 포괄하는 개념이다.
특히, 소셜 검색은 구글과 같은 일반적인 웹사이트 분석이 아닌 소셜 네트워크 서비스에서 생산되는 정보를 검색하는 데 활용되는 기술이다.

소셜 데이터는 정제되어 있지 않은 데이터들이 대부분이고, 단순히 웹사이트에서 제공되는 일방향적인 정보보다는 관계 정보가 부가되기 때문에, 검색의 방식과 내용이 달라야 하며, 이를 고려한 소셜 검색 기술이 개발되고 있다.
그 이외에도 위치기반 기술, 텍스트 마이닝 기술, 인공지능 기술 등이 소셜 네트워크 서비스의 가치를 증대시키는 기술적 요소들이다. 본고에서는 이 중에서 인공지능 기술이 소셜 네트워크 컨텐츠와 소셜 네트워크 서비스 분석에서 어떻게 활용될 수 있을지에 대해 논하고자 한다.

소셜 네트워크 컨텐츠 생성과 인공지능

소셜 네트워크 서비스에서 무엇보다도 중요한 것은 컨텐츠이다.
대부분의 사람들이 소셜 네트워크 서비스를 이용하는 이유에는 자신과 연결된 사람들의 근황을 알고 싶어하기 위함도 있겠지만, 다른 사람들과 의견을 소통하고 유용한 정보를 얻기 위한 목적도 있다.

결국, 소셜 네트워크도 네트워크 외부성(network externality)이 기반이 된 정보의 장이 될 수 밖에 없다. 그러나, 과거 인터넷 사회에 참여하지 못하고, 소외된 계층이 발생하는 현상을 디지털 디바이드(digital divide)라고 부르듯, 소셜 네트워크 서비스에 동화되지 못하는 계층이 발생하게 되었다. 수많은 사람들이 나와 연결된 소셜 네트워크 서비스에서 자신이 올린 글에 대한 사람들의 평가가 두려워 글을 작성하여 내놓지 못하는 현상도 목격하게 된다.

인공지능은 이러한 사람들의 문제를 해결해줄 수 있다.
최근 미국의 한 업체에서 개발된 포스트 인텔리전스(post intelligence)라는 서비스는 어떤 컨텐츠를 소셜 네트워크 서비스에 올려야 할 지 감이 안서는 사람들에게 인공지능 방법을 통해 글을 추천해주는 역할을 한다.

사용자가 소셜 네트워크 서비스에 올린 글들을 분석해 버릇, 말투 등을 분석하고, 팔로어(follower)의 성향까지 분석하여 사용자가 쓸 내용을 제안하는 인공지능을 개발한 것이다.
이 기술을 통해 어떤 글을 올려야 주목을 끌 수 있을 지, 팔로어를 어떻게 모을 수 있을지 등을 제시함으로써, 소셜 네트워크 서비스를 쉽게 이용할 수 있는 방법을 알려준다.
기술적으로 보면, 포스트 인텔리전스는 딥러닝을 이용하여 사용자와 팔로어의 트위트를 분석하고, 팔로어들이 좋아하는 콘텐츠를 학습하고 예측하여 게시할 내용을 추천하며, 사용자 예상반응 등을 알려주는 방식이다.

이를 위해서는 방대한 양의 소셜 네트워크 정보를 인공지능으로 학습시켜야 한다.
사용자들이 쓴 글들의 내용 자체 뿐만 아니라 팔로어들의 평가와 리뷰, 그들의 프로필 등을 모두 분석해야 그 패턴을 찾아내고 새로운 컨텐츠 작성에 이용될 수 있다. 이러한 일들은 데이터의 양과 학습의 속도를 고려할 때, 사람이 담당하기에는 적절하지 않으며, 인공지능이 강점을 지니고 있는 부분이다.

소셜 네트워크 서비스에서의 사용자의 리뷰/평가, 의견, 정보에 대해 인공지능을 활용하여 컨텐츠를 추천하는 서비스에 대한 관심도 날로 증가하고 있다.
예를 들어, 영화 컨텐츠 추천 서비스를 보자. 방대한 영화 컨텐츠를 온라인으로 자유롭게 스트리밍 방식으로 활용할 수 있게 되면서 세계 최대의 온라인 동영상 서비스 업체인 넷플릭스는 정교한 추천 시스템 활용하여 가입자들의 만족도를 높이고 있다.

영화추천기술은 기본적으로 영화 관련 데이터와 기계 학습에 의해서 구현된다. 영화와 관련된 정량 데이터는 영화 장르, 상영시간, 흥행성적 등과 같은 객관적인 데이터이며, 정성 데이터는 영화 분위기, 스토리의 복잡함 등과 같은 관객들의 평을 포함하는 주관적인 데이터일 것이다.

특히 주관적인 데이터는 소셜 네트워크 서비스에 다수 노출되어 있고 이를 텍스트 마이닝 기법들을 활용하여 분석하게 된다.
이렇게 수집된 데이터를 통해 영화 관람객의 선호에 맞게 속성을 추출하고, 분류하고 값을 부여한 후에 데이터 베이스에 저장하여 기계 학습을 통해서 처리하여 특정 관람객의 선호에 맞는 영화를 추천하게 된다.
최근에는 SNS에 올라오는 영화 관련 평가와 정보를 수집하고 시간, 장소, 사회적 맥락을 고려하여 사용자에게 적합한 영화를 인공지능 기법으로 추천해주는 기법들이 적용되고 있다.

인공지능을 활용한 추천기능은 소셜 쇼핑 영역으로 확대될 수 있다. 물론, 이는 온라인 쇼핑 전체에 활용될 수 있는 기술이기도 하다. 유통 시장에서는 상품을 사고파는 활동이 매일 반복되기 때문에 방대한 양의 데이터를 축적할 수 있고, 유통업계는 이러한 특징을 바탕으로 고객에게 적합한 상품을 추천한다.
이미 국내 백화점이나 온라인 쇼핑몰에서는 자체적으로 개발한 인공지능 기술을 이용하여 고객이 선호하는 브랜드를 파악하여 관련 정보를 모바일 앱으로 전송하거나, 인공지능 챗봇을 활용하여 대화 몇번만에 간편하게 상품을 찾을 수 있도록 하였다. 한편, 소셜 쇼핑은 소셜 네트워크 서비스의 텍스트 정보나 혹은 소셜 그래프에서 수집되는 로그 정보들을 이용하여 더욱 지능화된 서비스를 제공하기도 한다.

소셜 네트워크 분석과 인공지능

소셜네트워크 서비스가 일상의 소통 뿐만 아니라 정보의 습득으로 까지 확장되고 있는 상황에서 서비스 이용자들의 관계와 네트워크의 특성 등을 분석하고자 하는 노력은 필수적이다.
소셜네트워크 서비스에는 사용자와 그들의 관계가 존재하기 때문에, 이는 노드와 링크로 이루어진 네트워크를 분석하는 소셜 네트워크 분석이 적용될 수 있는 좋은 조건이 된다. 소셜네트워크 분석은 사람들 사이의 관계, 친밀도, 그룹분류, 연결 강도 등을 측정하는 것이 가능하다.

특히, 매개 중심성, 근접 중심성 등의 지표를 계산하여 각 노드가 네트워크에서 어떤 역할을 차지하고 있는지를 제시해준다. 소셜 네트워크 서비스에서 이러한 중심성들은 한 사용자가 몇명의 사용자들과 직접적으로 연결되어 있는지 혹은 사용자간 관계를 매개하는 정도는 어느 정도인지 등을 파악하는 데 활용될 수 있다.
즉, 소셜 네트워크 서비스에서 핵심 역할을 하는 사용자가 누구인지를 뽑아낼 수 있는 것이다. 또한, 소셜네트워크 분석은 다양한 이론들과 결합하여 네트워크에서 발생되는 특수한 현상들에 대한 통찰력을 제시해주고 있다.

사회적 영향 네트워크이론(social influence network theory), 사회적자산이론(social capital theory), 약한 연결의 힘 이론(theory of strength of weak ties) 등은 소셜네트워크 서비스 분석에도 활용될 수 있다.
예를 들어, 약한 연결의 힘 이론은 약하게 연결된 관계로부터 새로운 정보를 획득할 가능성이 더 높다는 것인데, 우리는 소셜네트워크 서비스에서도 자기와 프로필이 비슷하지 않은 ‘친구’로부터 얻는 새로운 정보가 더 많음을 자주 경험하곤 한다.

소셜네트워크 서비스에서 소셜네트워크 분석을 수행할 때 활용할 수 있는 정보의 종류는 크게 팔로우(follow), 댓글(reply), 리트윗(retweet, 트위터의 경우)으로 구분해 볼 수 있다. 온라인 상에서의 특정인과 친구를 맺거나 그의 글을 보고 싶을 때 팔로우를 하게 되고, 댓글을 달거나 리트윗을 하게 되면 이는 더 적극적인 상호관계를 의미하게 된다.
이러한 관계들을 분석하여 사용자의 영향력이나 전파력을 평가할 수 있고, 나아가 특정 글들의 확산과정을 추적하거나 향후 의견들의 확산을 추정해 볼 수 도 있다.

본 연재의 첫번째 글에서 오피니언 마이닝을 다루었지만, 사실 텍스트만으로 의견을 정확하게 분석하기란 쉬운 일이 아니다. 텍스트로부터 얻을 수 있는 감성분석 결과 이외에 소셜 네트워크에 기반하여 의견 전파구조를 분석할 수 있다면 훨씬 더 유의미한 결과를 얻을 수 있다.
즉, 텍스트 중심이 아닌 사람 중심으로 분석할 때 더 풍부한 정보를 얻을 수 있다. 텍스트가 제공하는 키워드만 분석한다면 어떤 메시지가 전파되는 지만 알 수 있다면, 사람이 올린 텍스트를 둘러싼 관계에 집중한다면, 어떤 사람의 말을 신뢰하는 지, 어떤 메시지가 파급력이 큰 지, 메시지의 전파 경로가 어떻게 되는지에 대한 정보가 제시될 수 있다.

소셜네트워크 분석에서 인공지능이 활용될 수 있는 부분은 네트워크에 존재하는 노드들에 대한 링크 예측(link prediction)이 주요 대상이 된다.
즉, 연결되어 있지 않은 노드들 사이의 관계를 분석하여, 연결될 필요가 있는 노드들을 인공지능 기법을 통해 연결해준다. 링크 예측은 활용범위가 매우 넓다.

인터넷/웹 사이언스에서는 하이퍼링크를 자동적으로 만들어주거나 웹사이트 하이퍼링크를 예측하는데 활용되기도 하고, 전자상거래에서는 추천 시스템을 구축하는데 유용하다. 링크 예측 방법에는 공통이웃(common neighbors)이 얼마나 많은가를 이용하거나, 연결되어 있지 않은 노드들간의 경로거리가 짧은 관계를 찾아냄으로써 잠재적인 링크를 찾아내기도 한다(shortest path distance).

최근 네트워크가 커지고 데이터가 다량으로 축적되면서 기존 노드들간의 링크 존재여부를 학습하고 그 결과를 링크 예측에 적용하는 인공지능 기법들이 다수 활용되고 있다.
Neural network나 Support Vector Machine (SVM) 같은 지도 학습(supervised learning) 알고리듬들은 링크가 발생하는 노드들간의 관계가 어떤 특성을 지니고 있는지 학습하고, 이를 바탕으로 새로운 노드가 출현했을 때 연결될 수 있는 노드를 추천해주거나 또는 기존 노드들 사이에서 연결되어야 함에도 불구하고 연결되지 않고 있는 노드들의 쌍을 도출해준다. 소셜네트워크 서비스의 관점에서 보면, 사용자들간의 연관도 예측을 통해 “친구’를 추천해주고 이들이 속해있는 전체 네트워크의 동적 진화 양상을 예측할 수 있다.

우리가 소셜네트워크 서비스를 접속하면 만나게 되는 ‘알 수도 있는 사람’의 리스트는 이와 같은 인공지능 기반의 링크 예측을 통해서 만들어질 수 있다.
우리는 가끔 오랫동안 연락이 끊겼던 친구들을 이러한 링크 예측을 통해 만나게 되면서 새삼 진화하는 기술의 위대함을 느끼게 되는데, 이런 방법의 성패는 노드들간의 관계를 학습하고 분석하는 ‘속성’을 무엇으로 정의하느냐 일 것이다. 소셜 네트워크 관계를 설명하는 속성들을 잘 설정한다면, 인공지능 기법들은 링크 예측을 매우 똑똑하게 수행할 것이고, 그 결과 소셜 네트워크의 핵심 기능으로 자리잡을 것이다.

소셜 어낼리틱스와 인공지능의 미래

소셜 네트워크 서비스에서 양산되고 있는 빅데이터에 대한 분석은 과거에는 상상하지 못한 일들을 해오고 있지만 동시에 한계점도 지니고 있다.
우선, 빅데이터이기는 하지만 생각보다 쓸모있는 소셜 데이터를 수집하고 분석하는 게 쉽지 않다는 점이다. 우리가 일반적으로 사용하는 언어와 온라인 상에서 쓰여지는 언어가 다를 때가 많고, 특히 거짓 뉴스나 글들을 생산/유포하는 행위가 만연해 있기 때문에 이를 반영하여 분석하는 것은 매우 어렵다.

또한 소셜 빅데이터 어낼리틱스의 핵심은 크다(big)라는 것이 아니라 복잡성(complexity)에 있다는 점이다. 데이터의 방대함에 집중하는 분석 방식은 가치있는 정보를 주기 어렵다. 소셜 데이터가 지닌 복잡성을 실타래 풀 듯 풀어 의사결정 하는데 도움을 줄 수 있어야 한다.

인공지능의 장점과 미래발전 방향이 바로 여기에 있다고 볼 수 있다.
얼마전 끝난 알파고 2.0과 커제와의 대결에서 우리는 인공지능의 학습능력이 얼마나 뛰어난지 확인할 수 있었다.
수많은 기보에 대한 학습도 모자라 하루전 대국결과까지도 학습 해서 진보된 대국을 펼칠 수 있는 걸 보면, 지속적인 학습을 통해 현재 우리가 경험하고 있는 소셜 데이터 분석의 한계를 벗어날 수 있을 것이다.
또한, 소셜네트워크가 지니고 있는 복잡성을 분석하여 텍스트가 지닌 컨텐츠 분석 뿐만 아니라 링크가 지니고 있는 관계 분석까지 확장한 지능적인 정보를 제시할 수 있을 것이다.

데미스 허사비스 구글 딥마인드 CEO는 “알파고 2.0은 기보를 기초적으로 학습한 다음에 자기학습을 통해 기력을 강화한 버전”이라고 말했다. 기보에 없는 바둑의 수까지 새롭게 창조하는 단계로 진화한 셈이다.

앞에서 제시한 인공지능을 기반으로 소셜네트워크에서 링크를 예측하는 것이 바로 여기에 속한다. 머지 않아 우리는 인공지능 덕분에 좀더 똑똑해진 소셜 어낼리틱스를 만나게 될 것이다.
학습을 통해서 사용자의 언어를 문맥에 맞게 해석하고, 거짓 뉴스나 글들을 걸러내며, 사용자 간의 복잡한 관계를 분석하고 예측해낼 수 있을 것이다.
그러기 위해서는 인공지능 알고리즘도 계속 발전해야겠지만, 소셜네트워크 데이터가 지닌 자체적인 특성도 잘 이해되고 반영되어야 할 것이다.
이러한 노력들을 통해 한층 지능적인 소셜 어낼리틱스에 기반한 서비스들이 활발하게 개발되기를 기대한다.



▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

연재기획 소셜 데이터와 인공지
공유하기
윤병운 교수
윤병운 교수 IT테크놀로지 전문가
동국대학교 산업공학과

윤병운 교수는 서울대학교 산업공학과에서 학사, 석사, 박사학위를 받고 영국 캠브리지 대학 CTM(Centre for Technology Management)에서 포닥을 마친 뒤, 현재는 동국대 산업시스템공학과에서 교수로 재직중이다. 윤병운 교수의 연구분야는 기술예측, 기술로드맵, 특허분석, 인공지능, 빅데이터분석, 기술인문사회 융합 등이며, 최근에는 기술 인텔리전스(Technology Intelligence)라는 개념을 정립하고 확산하기 위해서 노력하고 있다.