2018년 구글에서 제안한 BERT(Bidirectional Encoder Representation from Transformers)는 위의 한계점을 해결하기 위해 대량의 영어 데이터로 학습된 사전학습 언어 모델(Pre-trained Language Model)로 종합 언어 이해 태스크(GLUE) 및 기계독해 태스크(SQuAD v1.1, SQuAD v2.0) 등에서 당시 통계적 언어 모델 대비 큰 차이로 SOTA(State-Of-The-Art)를 달성하였습니다. 이후 BERT와 비슷한 방식으로 학습한 다양한 언어 모델이 제안되었습니다. 본질적인 학습 방법은 BERT와 비슷하기 때문에, 이 장에서는 BERT를 기준으로 어떻게 위의 한계점을 해결하였는지 알아보도록 하겠습니다.
코로나 팬데믹의 장기화로 인해 지금까지 경험하지 못한 새로운 변화를 경험하고 있습니다. 비대면·비접촉 소비, 온라인 수업, 재택 근무 등 다양한 디지털 환경에 빠르게 익숙해지고 있습니다. 예기치 않게 등장한 코로나는 디지털 환경에 대한 빠른 적응을 가능하게 하는 한편, 개인, 학교, 기업 등 사회 전반에 걸쳐 구조적인 변화를 가속하고 있습니다. "사회적 거리 두기" 캠페인은 기업의 일하는 방식에도 큰 영향을 미치고 있습니다. 많은 전문가들은 코로나 이후에 원격근무가 뉴노멀이 될 것으로 예상합니다. Clutch 조사에 따르면, 코로나로 인해 미국 내 근로자의 66% 가량이 원격으로 일을 하고 있는 것으로 확인하였습니다. Google, Facebook 등의 글로벌기업은 직원들이 내년 상반기까지 원격근무를 연장하도록 결정하였습니다.
R&D Cloud for AI는 GPU 장비들을 최대한 효율적으로 활용하기 위해 만들어졌습니다. GPU를 클러스터링하여 하나로 묶고 통합하여 활용하고 관리하는 기술입니다. GPU를 통합하면 전체 가용량이 늘어납니다. 클러스터링 된 자원에 분배 기술을 적용하여 필요한 사용자가 필요한 시점에 필요한 만큼 효과적으로 활용할 수 있게 제공합니다. 또한 AI 개발 환경에 드는 시간을 줄일 수 있도록 자동 환경 세팅을 지원합니다.
Quick Links
최근에는 전체 문서 중 질문에 대한 대상문서를 특정하지 않은 상태에서도 질문에 대한 답을 찾을 수 있는 방향(오픈 도메인 QA)으로 연구개발이 진행 중입니다. 이전의 QA 시스템들은 질문과 함께 대상문서를 입력해야 답을 제공한다는 점에서 현실적인 서비스를 제공하는 데 어려움이 있었습니다. 이러한 기존 QA의 한계를 극복하기 위해서 주어진 질문에 대답하기 위한 대상문서를 자동으로 찾는 기술을 개발하여 활용하고 있습니다. 지금부터 일반적인 기계독해 기술의 정의와 함께, 독해를 넘어 추론까지 가능하게 하는 기술인 다중도약 질의응답(Multi-hop QA) 기술에 대해서 간략하게 알아보겠습니다.
AI 모델의 성능은 학습에 사용하는 데이터의 양이 많을수록 좋아지는 경향이 있기 때문에, 레이블이 있는 수많은 데이터가 필요합니다. 그런데 수십만, 수백만 개의 데이터를 수작업으로 레이블링하는 것은 엄청난 노동력과 시간이 필요합니다. 또한 잘못된 레이블이 있으면 AI 모델의 성능에 악영향을 미치기 때문에, 레이블이 정확한지 검토하는 과정도 필요합니다. 이러한 레이블링의 번거로움 때문에 수작업을 줄일 수 있는 기술에 대해 시장 수요가 커지고 있습니다.