삼성SDS가 개발한 AI 자연어 이해 학습모델, 한국어 기계독해 평가에서 1위 기록!

삼성SDS가 개발한 AI 자연어 이해 학습모델이 한국어 기계독해(MRC, Machine Reading Comprehension) 경진대회 KorQuAD 2.0 성능평가에서 1위를 기록했습니다.

# KorQuAD(The Korean Question Answering Dataset)란?
자연어 이해(NLU, Natural Language Understanding) 학습용 한국어 질의응답 표준 데이터셋입니다. 표제어와 설명을 담은 정보와 그 내용을 기반으로 만들어진 단∙장문의 질의응답으로 구성되어 있으며, 기계독해 AI 학습과 검증을 위해 신뢰성이 높은 위키백과로부터 추출한 데이터에 기반하고 있습니다.

# 기계독해(MRC, Machine Reading Comprehension)란?
기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변 영역을 찾아야 하는 자연어 처리 과제로 자동 질의응답 기술의 핵심 토대가 되는 기술입니다.

※ 참고자료
+ The Korean Question Answering Dataset(KorQuAD 2.0 깃허브)

경진대회는 실제 정답과 정확하게 일치하는 비율을 의미하는 EM(Exact Match)과 정밀도와 재현율을 종합적으로 고려한 수치인 F1 점수로 평가되는데요. 삼성SDS는 두 점수 모두에서 최고 점수인 EM 73.51, F1 86.56를 기록하며 1위에 올랐습니다. 이번에 삼성SDS가 받은 점수는 KorQuAD2.0 독해 문제를 사람이 풀었을 때 받은 EM 점수 68.82점, F1 점수 83.86점을 뛰어넘는 최초의 결과입니다.

삼성SDS의 AI 자연어 이해 학습모델은 방대한 한국어 표현을 효과적으로 학습했을 뿐 아니라 문서의 구조 정보를 효과적으로 학습하여 다양한 분야에 유연하게 적용할 수 있는 특징을 갖고 있는데요. 이를 통해 웹 문서, 상품 매뉴얼, 이용 약관 등의 양식 구조와 길이가 다양한 문서에서도 AI가 빠르고 정확하게 이해하여 사용자의 의사결정에 유용한 정보를 추출할 수 있습니다.

한국어 기계독해 경진대회 KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 웹문서 기계독해를 위한 한국어 질의응답 데이터셋입니다. KorQuAD 1.0에 비해 한국어 표준 데이터 규모를 7만 건에서 10만 건으로 늘리고, AI가 표 또는 리스트 형태에 담긴 정보를 읽어 답변할 수 있도록 표준 데이터 범위도 확대한 것이 특징입니다.

AI 자연어 이해 학습모델 개발을 담당한 삼성SDS AI선행연구Lab 김민수 랩장은 "길이가 길고 복잡한 문서 대상의 자연어 이해는 매우 도전적인 분야인데, 삼성SDS의 자연어 이해 학습모델이 최초로 사람 수준을 능가했다는데 의의가 있다”라고 소감을 밝혔습니다. 향후 삼성SDS는 텍스트와 지식을 다루는 다양한 디지털 트랜스포메이션 사업에 본 기술을 적용하여 자연어 이해 수준을 한층 더 향상시킬 계획입니다. 소셜 팬 여러분의 많은 관심과 응원 부탁드립니다!

이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe