본 기술은 대용량 텍스트로부터 언어의 문법/의미 정보를 학습하여, 언어분석/기계독해/문서분류 등 다양한 응용 태스크에 범용적으로 적용한 가능한 한국어 딥러닝 언어모델(KorBERT)과 기계독해, 문장 간 유사도 인식 등 응용 태스크 별 학습말뭉치를 추가 학습한 딥러닝 응용 기술에 대한 것이다.
● 최근 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 딥러닝에 기반한 언어처리 및 인공지능 기술이 부상되고 있다.
● 딥러닝 언어모델 기술은 가장 최근의 언어처리 기술 발전의 핵심 기술로, 수십 기가바이트(GB) 이상의 텍스트로부터 범용적인 언어의 구문 및 의미 정보를 학습하여 응용 태스크에 적용하는 기술이다. 딥러닝 언어모델 기술은 언어모델을 적용하지 않은 이전의 심볼릭 또는 딥러닝 방법 대비 큰 폭의 성능 개선을 이루었다.
● 본 기술이전의 대상은 다수의 한국어 처리 태스크에서 우수한 성능을 제공하는 엑소브레인 한국어 언어모델(KorBERT), KorBERT 기반 단락 대상 기계독해 기술, 엑소브레인 한국어 형태소 분석 기술, KorBERT 기반 문장 간 유사도 인식 기술, KorBERT 기반 문장/문서 대상 텍스트 분류 기술이다.
● 엑소브레인 한국어 언어모델(KorBERT)은 대용량 텍스트로부터 한국어의 구문 및 의미 정보를 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝 기술이다.
● KorBERT 기반 단락 대상 기계독해 기술은 KorBERT 범용 언어모델을 이용하여 주어진 질문과 단락 텍스트에서 정답 경계(시작/끝)를 추론하는 기술이다.
● 엑소브레인 한국어 형태소 분석 기술은 형태소 단위 한국어 언어모델 활용을 위하여, 입력 한국어 문장에 대해 의미를 가지는 최소 단위인 형태소(명사, 동사, 형용사, 부사, 조사, 어미 등)를 분석하는 기술이다.
● KorBERT 기반 문장 간 유사도 인식 기술은 두 문장 사이의 의미 동등성 관계를 파악하여 유사도를 인식하는 기술이다. 두 문장의 동등성 여부를 결정하는 이진 유사도 인식 기술과 [0~5] 사이의 유사도를 인식하는 기술을 포함한다.
● KorBERT 기반 문장/문서 대상 텍스트 분류 기술은 KorBERT 범용 언어모델을 이용하여, 문장/문서 단위 입력에 대해 사전에 정의한 클래스를 분류하는 응용 기술이다.
* 엑소브레인 한국어 언어모델(KorBERT) 기술은 위키백과 및 신문기사 23.5 GB (약 15년 분량, 47억개 형태소)의 데이터로부터 한국어의 구문 및 의미를 학습한 딥러닝 모델이다. 본 한국어 언어모델은 한국어 의미의 최소 단위인 형태소에 기반한 형태소 단위 모델, 형태소분석 없이 활용 가능한 워드피스(Word-Piece) 단위 모델, 언어모델의 깊이(depth)와 크기를 확장하여 성능을 개선한 라지 모델(Large model)의 3개 모델로 구성되어 있다.
* KorBERT 기반 단락 대상 기계독해 기술은 KorBERT 범용 언어모델을 이용하여 22만 개 이상의 질문-단락-정답 학습데이터를 추가 학습하였으며, 단답형 뿐 아니라 서술형 답변에 대해서도 단락 텍스트 내의 정답 경계(시작/끝) 추론이 가능하다.
* 엑소브레인 한국어 형태소 분석 기술은 형태소 단위 한국어 언어모델 활용을 위하여, 입력 한국어 문장에 대해 의미를 가지는 최소 단위인 형태소(명사, 동사, 형용사, 부사, 조사, 어미 등)를 분석하는 기술이다. 사용되는 태그셋은 45개 세종 태그셋을 기반으로 하고, 기계학습 방법론으로는 sequence labeling 기반 음절 단위 품사 태깅 방법을 사용한다. 분류 알고리즘으로는 Structural SVMs을 사용하고, 전처리/후처리 단계에 대용량 형태소 사전을 결합해서 성능을 개선하였다.
* KorBERT 기반 문장 간 유사도 인식 기술은 두 문장에 나타나는 동일 어휘의 인식을 넘어서서 패러프레이즈 인식을 기반으로 유사도를 측정할 수 있는 장점이 있다. 패러프레이즈 인식을 위해 별도의 유의어/유의어구 사전이 필요하지 않다. 또한 비동등의미 인식을 위한 반의어/반의어구 사전이 필요하지 않다.
* KorBERT 기반 문장/문서 대상 텍스트 분류 기술은 입력 문장/문서에 대하여 KorBERT 언어모델을 이용하여 형태소 단위, 워드피스 단위, 또는 라지 모델 기반의 분류 모델을 학습하는 기술로, 기존 언어모델 이전의 기술 대비 높은 정확도로 사전에 정희한 클래스로 분류가 가능한 응용 기술이다.
* 한국어 언어모델 및 딥러닝 응용 기술
- 엑소브레인 한국어 언어모델 (KorBERT)
- KorBERT 기반 단락 대상 기계독해 기술
- 엑소브레인 한국어 형태소 분석 기술
- KorBERT 기반 문장 간 유사도 인식 기술
- KorBERT 기반 문장/문서 대상 텍스트 분류 기술
* 기술이전 범위
- 한국어 언어모델 3종 (Tensorflow 및 Pytorch 학습모델 파일)
- 기계독해 학습모델 및 소스코드 (Pytorch 학습모델 파일 및 파이썬 소스코드)
- 한국어 형태소분석 엔진 (C++ 라이브러리), 리소스
- 유사도 인식 학습 모델 및 소스코드 (Pytorch 학습모델 파일 및 파이썬 소스코드)
- 일반 클래스 분류 학습모델 및 소스코드 (Pytorch 학습모델 파일 및 파이썬 소스코드)
● 한국어 범용 도메인 질의응답에 활용
● 사용자 질의에 정답을 검색하는 지능형 검색 서비스에 활용
● 한국어 문장의 의미적 관계 분석에 활용
● 텍스트 빅데이터 분석 및 마이닝 기술에 활용