loading...

AI 시대의 데이터 전쟁 - 빅테크의 ‘사다리 걷어차기’ 전략

AI 기술이 급부상하면서, 데이터를 둘러싼 테크 기업들의 전쟁이 격화되고 있다. 특히 거대 기술 기업들, 이른바 빅테크들은 자신들이 축적한 방대한 데이터의 가치를 그 어느 때보다 높이 평가하며, 이 데이터에 대한 외부 접근을 적극적으로 제한하고 있다. 이는 마치 성공한 이들이 자신들이 올라온 ‘사다리’를 치워버리는 듯한 행보로 느껴진다. 과연 이러한 데이터 접근 제한이 기술 발전과 사용자 경험에 어떤 영향을 미칠지, 그리고 이는 옳은 방향인지 심층적으로 분석해 보고자 한다.

아마존 쇼핑의 '문 걸어 잠그기'

최근 가장 두드러진 사례 중 하나는 바로 아마존 쇼핑의 행보다. 아마존은 다른 기업들의 AI 쇼핑 도구가 자사 커머스 사이트에 접근하는 것을 막기 위한 조치를 취하고 있다. 이는 구글의 새로운 AI 에이전트뿐만 아니라 퍼플렉시티, 앤스로픽의 클로드, 오픈AI의 챗GPT 등으로부터 봇 접근을 모두 제한하는 것을 포함한다. [1] 아마존의 이러한 변화는 웹사이트 코드를 업데이트하여, 타 기업 AI 에이전트의 차단을 추가하는 방식으로 이루어졌다. 검색엔진이나 AI 에이전트가 사이트의 특정 페이지를 수집(indexing)하거나 접근(crawling)하지 않도록 요청하는 목적의 'robots.txt'라는 파일 내용을 업데이트했는데, 이 파일은 법적 구속력은 없지만, 크롤러(구글, Bing, OpenAI, Perplexity 등)는 이를 ‘업계 규범’으로 존중하고, 따라야 할 규칙으로 인정한다. 현재 아마존의 robots.txt 파일은 구글의 프로젝트 마리너(Project Mariner) 에이전트와 다른 구글 쇼핑 에이전트, 그리고 오픈AI, 퍼플렉시티, 클로드의 크롤러를 명시적으로 제한하고 있다. [2]

img-250903-01-ai-data-wars [그림 1] 아마존의 Robots.txt 에 명시한 접근 금지 에이전트 목록 (출처: 아마존)
아마존의 Robots.txt 에 명시한 접근 금지 에이전트 목록을 보여주는 이미지

이러한 조치의 결과는 이미 나타나고 있다. 최근 퍼플렉시티의 챗봇이나 챗GPT에서 아마존 상품을 검색했을 때, 직접 아마존 리스팅 페이지로 연결되는 대신 메이시스(Macy's)나 월마트(Walmart) 같은 다른 소매업체의 제품 링크나 아마존 상품을 큐레이션한 블로그로만 연결이 된다.

이는 아마존이 자사 상품이 외부 AI 챗봇이나 검색 도구 결과에 노출되는 것 자체를 막고 있으며, 자동화된 결제 AI 에이전트에 의한 자동 구매도 차단하고 있음을 시사한다. 구글은 지난 5월부터 웹을 탐색하고 사용자를 대신하여 구매를 포함한 작업을 완료할 수 있는 프로젝트 마리너 에이전트를 출시하기 시작했으며, [3] 또한 상품을 모니터링하고 가격이 하락하면 자동으로 구매하는 쇼핑 도구도 발표했다. 이러한 구글의 움직임에 대한 가장 큰 커머스 아마존의 대응은 매우 단호하다.

img-250903-02-ai-data-wars [그림 2] 구글의 AI 모드 쇼핑 에이전트 (출처: 구글)
구글의 AI 모드 쇼핑 에이전트 예시 이미지로 AI에게 i'm looking for a cute travel bag 이라고 프롬프트를 입력하자 설명과 함께 요구사항에 맞는 가방 상품을 보여주고 있다.

온라인 브랜드의 지속 가능한 가치와 광고 수익 방어

아마존의 이러한 극단적인 정책 변화는 단순히 외부 AI 에이전트의 접근을 막는 것을 넘어, 온라인 브랜드들의 핵심 비즈니스 모델과 직결되는 문제로 해석할 수 있다. 만약 챗봇이나 제품 추천 검색, 개인 쇼핑 에이전트와 같은 AI 도구들이 인기를 얻게 되면, 소매업체들은 고객들이 직접 자사 사이트를 방문하여 브라우징하는 횟수가 크게 줄어드는 상황에 직면할 수 있다. 이는 온라인 브랜드에 심각한 타격을 줄 수 있다. 이들은 고객과의 직접적인 연결과 사이트 방문자로부터 수집하는 데이터를 매우 중요하게 여기기 때문이다.

아마존과 같은 마켓 플레이스는 쇼핑객들이 자사 사이트를 브라우징할 때 보여주는 광고를 통해 수익을 창출하며, 판매자들에게는 검색 결과에 상품이 눈에 띄게 표시되도록 해 수수료를 부과하기도 한다. 아마존의 경우, 지난해 광고 사업에서만 560억 달러의 매출을 올렸으며, 이는 주로 검색 광고에서 발생했다. 따라서 아마존은 외부 AI 도구들이 자사 사이트에 접근하는 것을 막음으로써, 매출의 일부를 희생하더라도 고수익 광고 사업을 보호하려는 것이다.

img-250903-03-ai-data-wars [그림 3] 아마존의 지난 5년 광고 수입 추이 (출처: statista.com)
아마존의 2019 to 2024 (in billion U.S. dollars) 광고 수입 추이로 2019년 12.63 에서 2024년 56.21 로 꾸준히 우상향 중이다.

AI 에이전트의 이러한 데이터 접근은 소비자들이 쇼핑 경험에 AI를 통합하면서 제품을 발견하게 되는 퍼널(product discovery funnel)이 완전히 바뀌는 과정을 의미한다. 더 중요한 사실은 이런 변화를 통해 제품 발견 과정에서 수익을 창출하던 모든 비즈니스 모델이 변화할 것이라는 점이다. 아마존은 이러한 변화 속에서 자사 광고 사업을 보호하고, 궁극적으로는 쇼핑 과정에 대한 더 많은 통제권을 갖기 위해 자체 AI 도구를 강화하고, 다른 회사들의 에이전트와 상호작용하는 방법을 모색하고 있다. 루퍼스(Rufus) 챗봇과 같은 자체 AI 쇼핑 도구를 강화하며, 이 챗봇에 광고를 테스트하기 시작한 것도 이러한 맥락이다.

AI를 이용한 고객 쟁탈전: 데이터 마이그레이션의 새로운 시대

또 다른 “내 데이터 사수하기” 전쟁을 하고 있는 빅테크의 예를 들어보자.

AI 기술은 사용 중인 소프트웨어/서비스를 바꾸는 비용과 노력을 현저히 낮추고 있으며, 이는 기업 고객을 서로 뺏고 뺏기는 새로운 경쟁이 되고 있다. 과거에는 기업들이 방대한 데이터를 기존 앱에서 다른 앱으로 옮기는 데 어려움을 겪어 특정 소프트웨어에 종속되는 경우가 많았다. 하지만 이제 아마존, 마이크로소프트, SAP, 세일즈포스, 팔란티어와 같은 빅테크 기업들이 AI를 활용하여 이러한 문제를 해결하고 있다. AI는 애플리케이션 간 데이터 이동이나 기존 앱을 새로운 형식으로 재프로그래밍하는 코드를 작성하는 과정을 훨씬 쉽고 간편하게 만들어준다.

일례로, 국방부를 포함한 미국 연방기관들은 최근 마이크로소프트와 오픈AI의 AI 모델을 시험하고 있는데, 이는 팔란티어나 록히드 마틴과 같은 계약업체가 운영하는 다양한 분석 애플리케이션에서 데이터를 추출하기 위한 목적이다. [4] 사실 데이터를 추출한다고 모든 비즈니스 프로세스가 동작하는 것은 아니지만, 마이크로소프트의 파워 BI와 같은 경쟁 분석 앱으로 데이터를 옮기겠다고 위협함으로써, 기존 서비스 프로바이더들과 협상 대응력을 높이려는 의도이다.

마이크로소프트 또한 AI를 활용하여 경쟁사 고객을 빼앗아 오려는 자체 계획을 가지고 있다. 마이크로소프트는 과거 세일즈포스와 같은 경쟁사 앱에 의존했던 고객들이 이제 더 기본적인 데이터베이스로 데이터를 옮기고 마이크로소프트 도구를 사용하여 같은 작업을 자동화할 수 있도록 제공한다. 이러한 변화는 특히 독점 소프트웨어에 오랫동안 묶여 있던 기업들에 유리한 선택권을 준다. AI를 사용하여 마이크로소프트나 세일즈포스 같은 회사로부터 오픈소스 대안이나 경쟁 앱으로 전환할 수 있는 돌파구를 찾을 수 있게 되었다. 톰슨 로이터(Thomson Reuters)는 AWS가 제공한 무료 AI 도구 AWS Transform을 사용하여 윈도우 .NET 코드를 리눅스로 재작성한 후, 데스크톱 소프트웨어 유지 비용을 30% 절감했다. [5] 마이크로소프트 라이선스 비용 없이 AWS 클라우드에서 운영할 수 있게 되었다.

슬랙의 데이터 봉쇄

기업 파일 및 데이터 검색에 AI 부가가치를 제공하는 글린(Glean)과 같은 AI 스타트업은 빅테크의 데이터 접근 제한이라는 거대한 장벽에 직면하고 있다. 글린은 직원들이 수많은 애플리케이션을 사용하며 정보를 쉽게 찾지 못하거나 어떤 앱에 어떤 문서가 있는지 기억하지 못하는 전통적인 문제를 해결하는 AI 데이터 검색 툴로 인기를 얻고 있다. 구글 검색 엔지니어 출신이 이끄는 글린은 연간 반복 매출 1억 달러를 넘어설 만큼 탄탄한 성장세를 만들고 있다. 기업 고객의 데이터를 수십, 수백 개의 애플리케이션과 데이터베이스에서 수집하고 정리한 후 오픈AI, 앤스로픽 등의 모델로 구동되는 챗봇을 사용하여 특정 문서나 대화를 찾을 수 있도록 요청할 수 있게 한다. 지난달 글린은 IT 헬프데스크 요청 라우팅, 직원 온보딩과 같은 작업을 처리하는 에이전트 서비스를 출시했다.

img-250903-04-ai-data-wars [그림 4] 글린의 AI 플랫폼 구조 (출처: Glean.com)
글린의 AI 플랫폼 구조를 보여주고 있는 이미지, 다양한 애플리케이션에서 검색하고 원하는 정보를 찾을 수 있도록 도와준다.

그러나 기업용 메신저 서비스 슬랙(Slack)은 최근 다른 소프트웨어 기업이 사용 고객의 허락을 받았더라도 슬랙 메시지를 검색하거나 저장하는 것을 차단했다. 이 움직임은 글린과 같이 빠르게 성장하는 AI 스타트업들의 서비스에 큰 타격이 된다. 글린과 다른 애플리케이션들은 슬랙 API를 통해 데이터를 장기적으로 인덱싱하거나 복사하거나 저장할 수 없게 되었다. 세일즈포스는 이러한 회사들이 고객의 슬랙 데이터를 일시적으로 사용하고 저장하는 것은 허용하지만, 사용 후에는 반드시 데이터를 삭제해야 한다는 방침을 발표했다.

img-250903-05-ai-data-wars [그림 5] 슬랙의 서비스 약관 - ‘제3자 앱이 슬랙 메시지를 인덱싱·저장할 수 없다’ (출처: Slack.com)
슬랙의 서비스 약관 이미지로 내용 중 ‘제3자 앱이 슬랙 메시지를 인덱싱·저장할 수 없다’ 라고 영문으로 기재되어 있다.

세일즈포스 CEO인 마크 베니오프는 AI 시대에 데이터의 전략적 중요성을 공개적으로 강조하며, 글로벌 우량기업 대부분이 자사 앱에 데이터를 저장하고 있기 때문에 세일즈포스가 새로운 기술 흐름에서 늘 유리한 위치에 있다고 주장한다. 슬랙 고객 데이터에 대한 접근을 제한하는 것은 세일즈포스가 자사 AI 제품 개발과 같은 목표를 위해 데이터를 독점적으로 활용하려는 야심을 가지고 있는 것으로 해석된다.

이러한 변경으로 인해 글린은 슬랙 데이터를 자사의 검색 인덱스나 지식 그래프에 추가할 수 없게 되어, 엔터프라이즈 AI 플랫폼으로서의 데이터 활용 능력이 크게 제한될 것이다. 또한 슬랙 데이터에 "쿼리별”로만 접근할 수 있게 되면서, 서비스 제공에 더 많은 비용이 들고 유용성이 저하될 수 있다.

흥미로운 점은 오픈AI조차도 이러한 데이터 전쟁의 영향을 받았다는 것이다. 오픈AI는 챗GPT를 기업의 핵심 생산성 앱으로 만들고자 했고, 이를 위해 고객들이 슬랙 메시지와 파일을 챗봇에서 직접 접근할 수 있도록 슬랙 통합을 원했다. 실제로 일부 챗GPT 고객들은 이 기능을 테스트할 수 있었다. [6] 그러나 이 엔터프라이즈 앱 통합 기능을 3월에 출시하기 몇 주 전에야 세일즈포스의 결정으로 슬랙 통합이 더 이상 가능하지 않다는 결정을 내린다. 슬랙이 배포 예정인 새로운 API를 통해 일부 메시지에 접근할 수 있게 될 가능성도 있지만, 어떤 제한점이 있을지는 불확실하다. 이는 AI 기업들을 경쟁 위협으로 간주하는 전통적인 빅테크 기업과 AI 기업들 간의 격화되는 데이터 전쟁이다. 오픈AI의 멀티유저 채팅 및 협업 기능이 출시된다면 슬랙을 포함한 엔터프라이즈 앱에 경쟁 위협을 충분히 가할 수 있기 때문이다.

SaaS 시대 선두 주자들마저 동참하는 '데이터 전쟁'

이러한 데이터 접근 제한 움직임은 비단 아마존이나 세일즈포스와 같은 거대 기업에만 국한된 현상이 아니다. SaaS 시대를 이끌었던 선두 주자들, 예를 들어 피그마(Figma), 아틀라시안(Atlassian), 노션(Notion)과 같은 기술 기업도 데이터 접근을 둘러싼 전쟁에 동참하고 있다.

피그마

최근 외부 기업들이 피그마 고객 프로젝트에 접근하는 것을 제한하기 시작했다. 피그마 웹사이트에 명시된 이러한 변경은 글린과 같은 기업 검색 서비스가 피그마 API를 통해 피그마 프로젝트 파일과 데이터에 접근하고 저장하는 능력을 제한한다. 궁극적으로 이는 기업 검색 서비스 고객들이 피그마 파일을 쉽게 검색할 수 없다는 것을 의미한다. 피그마의 입장은 성능과 보안을 유지하기 위한 방법이라고 하지만, 다른 AI 기업들이 피그마의 일부 기능을 따라하려 하기 때문에, 피그마가 선제적으로 고객 데이터 접근을 제한하는 것으로 판단할 수 있다.

img-250903-06-ai-data-wars [그림 6] 피그마의 API를 통한 프로젝트 파일 및 데이터 접근 제한 (출처: figma.com)
피그마에서 보여주는 엑세스 제한 메세지를 캡쳐한 이미지, 메세지 내용은 Limited Access - The Projects endpoints are only available for selected use cases and are not available to all apps. If you'd like to use these endpoints, you can request access. 라고 되어 있다.

아틀라시안

글린과 유사한 서비스인 로보(Rovo)를 출시한 후, 지난 2월부터 글린과 같은 외부 기업들이 API를 통해 자사 앱에서 데이터를 가져오는 횟수에 제한을 두기 시작했다. [7] 아틀라시안은 이러한 속도 제한이 API 사용량의 비정상적인 증가에 대한 대응이며, 고객과 파트너 모두에게 신뢰할 수 있는 서비스를 유지하기 위한 것이라고 설명했지만, 내부적으로는 로보를 글린보다 고객이 더 쉽게 사용할 수 있도록 방법을 개발 중이며, 과거 2023년 말에는 글린을 수십억 달러에 인수하려 했으나 실패한 전례도 있기에, 경쟁을 염두에 두고 있다고 판단해 볼 수 있다.

img-250903-07-ai-data-wars [그림 7] 글린 서비스와 매우 유사한 아틀라시안 로보 서비스 (출처: atlassian.com)
아틀라시안의 로보 서비스 예시 이미지로 프롬프트를 입력하여 검색하자 아틀라시안 애플리케이션인 컨플루언스에서 해당 내용을 찾아서 보여주고 추가적인 기능 (소스제공, 이미지 생성) 등을 제시하고 있다.

노션

역시 글린과 유사한 검색 기능을 추가했으며, 이제 글린과 같은 제3자가 자사 데이터에 접근하는 방식을 재평가하는 것으로 보인다. 노션은 제품 문서에서 "수요와 신뢰성에 균형을 맞추기 위해 속도 제한을 조정할 계획"이며, 다른 가격 플랜의 작업 공간에 대해 별도의 속도 제한을 도입할 수도 있다고 밝혔다. [8] 또한 전용 페이지를 할애하여 글린의 기능과 비교하며 데이터 인덱싱과 임베딩, 비용과 같은 데이터 보유자로서의 강점을 크게 강조하고 있다.

img-250903-08-ai-data-wars [그림 8] 데이터 접근 제한 요소를 강조하며 글린과의 차별점을 설명하는 노션 (출처: notion)
Notion 과 Glean 을 비교하여 나열한 이미지.

그런데 이러한 데이터 접근 제한 움직임은 지난 20여 년간 구독형 소프트웨어 시장을 지탱했던 핵심 원칙에 정면으로 위배된다. 경쟁사들조차도 고객들이 API를 통해 앱 간에 데이터를 이동할 수 있도록 허용해 왔다. 이러한 통합은 고객들이 특정 앱에 묶여 있다고 느끼지 않게 함으로써 소프트웨어 기업들이 고객을 유지하고, 나아가 산업 전체가 번성하는 데 크게 기여했다. 그러나 피그마와 아틀라시안, 노션의 데이터 스로틀링(data-throttling), 세일즈포스의 슬랙 고객 데이터 저장 차단 결정은 정반대 방향으로의 전환을 보여준다.

슬랙, 아틀라시안, 도큐사인과 같은 기업들은 API를 통해 다른 제공업체의 제품과 앱을 연결하고 데이터를 공유함으로써 기업 고객에게 가치 있는 존재가 되었다. 그러나 이제 이 데이터 공유는 AI 스타트업들이 이러한 데이터를 사용하여 경쟁 제품을 개발할 계획을 세우면서 잠재적인 부채가 되고 있는 것이다. AI가 유용하려면 데이터 컨텍스트가 모든 것이라는 것을 인식하게 되면서, 기업들이 자사 데이터에 대한 최대한의 컨텍스트에 접근하려 하면서도, 경쟁사들이 동일한 시도를 하는 것을 제한하고 있는 것이다.

이러한 갈등은 점차 표면화되고 있다. SAP와 경쟁하는 스타트업 셀로니스(Celonis)가 셀로니스 애플리케이션을 통해 SAP에 저장된 데이터에 접근하려면 더 많은 비용을 지불해야 한다는 SAP 요구에 법적 대응을 한 경우에서도 볼 수 있다. [9]

제한인가, 개방인가? '사다리 걷어차기'는 옳은가?

데이터 접근 제한이라는 '사다리 걷어차기' 전략은 과연 기술이 나아가야 할 올바른 방향일까? 지난 20여 년간 소프트웨어 산업은 데이터 이동성과 상호 운용성을 기반으로 성장해 왔다. 고객들은 자신의 데이터를 자유롭게 옮기고 다양한 서비스를 조합하여 사용할 수 있다는 믿음 위에서 소프트웨어 구독을 해왔다. 그러나 지금의 움직임은 이러한 믿음을 저버리고, 고객의 데이터를 마치 자신들의 소유물처럼 다루려는 시도로 비칠 수 있다.

세일즈포스의 슬랙 API 변경에 대해, 글린의 CEO인 아르빈드 제인은 "고객들은 다른 엔터프라이즈 애플리케이션에 저장하는 모든 데이터에 대해 궁극적으로 완전한 권리를 가지며, 자신의 데이터로 원하는 무엇이든 할 수 있어야 한다는 간단한 기대를 가지고 있다"고 반박한다. 이러한 고객의 기대와 달리 데이터 접근을 제한하는 것은 결과적으로 전통적인 엔터프라이즈 앱에 대한 고객의 불만을 야기하고, 결국에는 고객들이 다른 대안을 찾도록 유도할 수 있다. 이는 현존하는 기업들이 막으려 했던 바로 그 결과로 이어질 수 있는 역설적인 상황이다. 물론 빅테크는 고객 데이터 보안 및 개인 정보 보호를 명분으로 내세우지만, 문제는 그 이면에 경쟁 견제와 데이터 독점이라는 의도가 엿보인다는 점이다. 이런 빅테크의 의도된 락인에 맞서 약 1,200개의 외부 SaaS 서비스를 제거하고, 깨끗하고 중앙 집중화된 데이터, 그리고 "최소한의 SaaS 벤더 간 마찰"을 목표로, 자체적으로 구축한 AI 네이티브 스택을 구현한 핀테크 선도 기업 클라르나(Klarna)의 예는 많은 점을 시사한다. [10]

워크데이(Workday)의 경우, AI 학습에 고객의 계약 데이터를 사용하는 데 동의를 얻는다는 점에서 다른 기업들과 차이를 보인다. 워크데이는 HR 분야는 기업 간 경쟁이 덜한 영역이므로 고객들이 데이터를 공유하는 데 큰 거부감이 없다고 판단하고 있으며, 데이터 보안과 개인 정보 보호에 대한 오랜 신뢰를 강조한다. [11]

그렇다면 이 데이터 전쟁은 어디로 향하고 있을까? AWS, 구글, 마이크로소프트와 같은 클라우드 제공업체들은 모델 컨텍스트 프로토콜(MCP: Model Context Protocol)과 같은 개방형 표준을 채택하여 챗봇이 지메일이나 깃허브 등과 연결될 수 있도록 하고 있다. 이러한 데이터 공유는 고객에게 제3자를 통하지 않고 직접 가치를 제공할 수 있게 해 주므로 가장 큰 이점을 줄 것이라고 생각한다.

과거 전통적인 엔터프라이즈 소프트웨어의 채택에 데이터 공유가 결정적이었듯이, AI 애플리케이션에서도 어떤 형태로든 유사한 역할이 중요할 것이다. 지금의 '사다리 걷어차기'는 단기적으로는 특정 기업의 독점적 지위를 강화할지 모르나, 장기적으로는 기술 생태계의 혁신을 저해하고, 고객들의 불신을 초래하며, 결국에는 더 개방적이고 유연한 시스템으로의 전환을 가속화할 수 있다.

기술은 본질적으로 연결되고 확장되며, 사용자에게 더 많은 편의와 자유를 제공하는 방향으로 움직여왔다. 이러한 흐름 속에서 데이터의 접근을 제한하고 담을 쌓는 것은 시대의 역행이며, 기술 발전의 속도를 늦추는 부작용을 낳을 뿐이다. 진정한 혁신은 데이터를 가두는 것이 아니라, 안전하고 책임감 있는 방식으로 데이터를 활용하고 공유하며, 이를 통해 새로운 가치를 창출하는 데서 올 것이다.

References

▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe

구독하기

subscribe

김영욱
김영욱

SAP France의 Senior Program Manager

한국에서 컴퓨터 공학을 전공 후, 7년간 한국후지쯔에서 개발자로 근무하고, 1998년 프랑스 파리로 이주하여 Business Objects에서 개발 매니저와 프로그램 매니저를 거쳐, 현재 SAP의 클라우드 ERP 엔지니어링 그룹의 시니어 프로덕트/프로그램 매니저로 근무 중입니다. 책 <프로덕트 매니지먼트>의 저자입니다.

공유하기