본 기술은 교착어인 한국어의 특성을 고려하여 의미의 최소 단위인 형태소(Morpheme) 기반으로 한국어 텍스트로부터 최적화된 문맥정보를 사전학습한 언어이해 모델(MoBERT) 및 사전학습 기술, 그리고 한국어의 이해와 관련된 다양한 응용 기술들(기계 독해, 텍스트 분류, 패러프레이즈 인식, 단락 재순위화, 정답근거 인식)을 제공한다.
● 자연어 처리 기술 분야는 언어이해와 언어생성 기술로 구분되며, 본 기술은 언어이해 분야에 속하며, 최근 각광을 받고 있는 LLM(Large language model)은 언어생성 분야에 해당한다. 본 기술의 모델 사이즈는 LLM 보다 매우 초소형이나, LLM 대비 저비용으로 빠르고 정확한 결과를 제공하므로, 언어이해와 관련된 다양한 응용분야에서 활용가치가 높다.
● MoBERT 사전학습 기술은 한국어 텍스트를 대상으로 사전학습을 수행하여 언어이해 모델을 구축하는 기술이다. 특정분야의 데이터를 대상으로 새로운 언어이해 모델을 구축하거나, 또는 학습되지 않은 신규 데이터를 추가하여 연장학습을 통해 기존 모델의 성능을 개선할 수 있어 응용분야에 최적화된 언어이해 모델을 구축가능하다.
● MoBERT 기반 기계 독해 기술은 질문과 단락이 주어졌을 때 정답을 추론하는 기술로, 사용자의 질문에 정답을 제공하는 질의응답 기술의 핵심기술로 활용가능하다.
● MoBERT 기반 텍스트 분류 기술은 텍스트 데이터를 입력받아 기 정의된 범주(Category, Class, Label 등) 중 어느 범주에 속하는지 분류하는 기술로, 자연어 처리에서 가장 많이 사용되는 기술(감정분류, 스팸분류 등) 중의 하나로 활용 가치가 매우 높은 기술이다.
● MoBERT 기반 패러프레이즈 인식 기술은 두 문장 사이의 의미 동등성 관계를 파악하여 유사도를 인식하는 기술이다. 두 문장의 동등성 여부를 결정하는 이진 유사도 인식한다. 특히, 적대적 예제에도 강건한 성능을 보일 수 있는 목적 분리형 협동 학습(target-disentangled joint learing) 기술을 적용하였다.
● MoBERT 기반 단락 재순위화 기술은 텍스트 검색 결과에서 단락의 순위를 재조정하기위해 사용되는 기술로, 검색보다 정확도가 높기 때문에 질의응답 및 검색시스템, RAG와 같은 환경에서 필수 기술로 사용된다.
● MoBERT 기반 단락 정답 근거 인식 기술은 질문과 단락이 주어졌을 때 정답에 대한 근거가 될 수 있는 문장들을 인식하는 기술이다.
본 기술은 한국어에 최적화된 언어이해 모델을 기반으로 다수의 언어이해 응용 태스크에서 한국어 최고 수준의 성능을 보이며, 범용적인 도메인에서 쉽게 적용할 수 있도록 미세조정(Fine-tuning) 기술을 적용하여 다양한 산업 분야의 기반 기술로 활용 가치가 높다.
세부적인 기술의 특징은 아래와 같다.
o 한국어 언어이해 모델(MoBERT)
-의미의 최소 단위인 형태소 기반으로 문맥정보를 학습하여 한국어에 최적화된 언어이해 모델
-다양한 한국어 이해 태스크에 최고수준의 성능과 함께 범용적으로 활용 가능한 언어이해 모델
o MoBERT 사전학습 기술
-교착어인 한국어의 특성을 고려하여 내용어와 기능어를 분리하는 MorphemePiece 기반 어휘사전 구축
-RoBERTa 아키텍쳐 기반으로 전체단어 마스킹, 마스킹 비율 상향, 텍스트의 바이너리 변환 등의 최적화를 통한 빠르고 효율적인 사전학습 가능
o MoBERT 기반 기계 독해
-한국어 대상 최고 수준의 기계독해 성능: 한국어 기계독해 챌린지 KorQuAD 1.0에서 F1 95.92로 2위(2024년 2월 기준)
-형태소 분할 및 분할된 형태소의 어절 복원을 통해 정답의 시작/끝 영역을 결정하는 한국어에 최적화된 기계 독해 기술
o MoBERT 기반 텍스트 분류
-한국어 텍스트 분류 기술의 평가에 널리 사용되는 NSMC(Naver sentiment movie corpus v1.0) 개발셋 대상 최고 수준의 성능 92.45%(Accuracy)임
-소량 학습데이터인 경우, 형태소 분할 데이터 증강을 통한 분류 성능의 개선 가능
o MoBERT 기반 패러프레이즈 인식 기술
-두 문장에 나타나는 동일 어휘의 인식을 넘어서서 패러프레이즈 인식을 기반으로 문장 유사도를 예측할 수 있음
-패러프레이즈 인식을 위해 별도의 유의어/유의어구 사전이 필요하지 않으며, 비동등의미 인식을 위한 반의어/반의어구 사전이 필요하지 않음
-특히, 적대적 예제을 포함한 패러프레이즈 표현을 인식할 수 있음
o MoBERT 기반 단락 재순위화 기술
-질문-단락 집합 쌍을 사용하여 크로스 인코딩과 지역적 대비 추정 손실 기반 재순위화 모델 학습
-단락 집합의 상대적 관계를 고려하여 스코어 재측정 및 랭킹을 산정하는 단락 재순위화 모델
o MoBERT 기반 정답근거 인식 기술
-인식된 근거 문장만으로 단락을 재구성하여 기계독해 등의 태스크를 수행하면 성능이 향상됨
-단락내에 질문에 대한 정답이 포함되어 있는지 판단하는 기능으로도 활용 가능
본 기술은 아래의 세부기술 별로 기술이전이 가능하다.
A. 1세부기술명 : 한국어에 최적화된 언어이해 모델(MoBERT)
o 형태소 기반 BBPE(Byte-Level Byte Pair Encoding) 토큰화
o 미세조정(Find-tuneing)을 통해 다양한 한국어 이해 태스크에 범용적으로 활용 가능한 모델
- MoBERT 사전학습 기술 및 MoBERT 기반 기계 독해 기술은 형태소 분석 기술이 필요하며, 이외 기술들은 형태소 분석 기술 없이도 사용 가능함
B. 2세부기술명 : MoBERT 사전학습 기술
o 한국어 텍스트를 형태소 단위로 분할하여 MorphemePiece 기반 어휘사전 구축, 구축된 어휘사전에 기반하여 분할된 토큰을 마스킹하여 사전학습 데이터 구축, 사전학습을 수행하여 트랜스포머 기반의 언어이해 모델을 구축하는 기술
- 형태소 분석 기술 필요
- 신규 데이터에 대한 연장 학습 및 새로운 모델의 학습 가능
C. 3세부기술명 : MoBERT 기반 기계 독해 기술
o 질문/단락/정답으로 구성된 기계독해 데이터의 학습을 통해 MoBERT 모델을 미세조정(Fine-tuning)하여, 질문의 정답(정답의 시작/끝 범위)을 단락에서 추론하는 기술
- 1세부기술(MoBERT) 및 형태소 분석 기술 필요
o 한국어 기계독해 챌린지 KorQuAD 1.0에 제출된 127개 모델 중 F1 95.92로 2위로, 한국어 대상 최고 수준의 기계독해 성능을 보임 (2024년 2월 기준)
D. 4세부기술명 : MoBERT 기반 텍스트 분류 기술
o 텍스트/분류레이블로 구성된 분류 데이터의 학습을 통해 MoBERT 모델을 미세조정하여, 입력된 텍스트를 기 정의된 범주 중 어느 범주에 속하는지 추론하는 기술
- 1세부기술(MoBERT) 필요
o 한국어 텍스트 분류 기술의 평가에 널리 사용되는 NSMC(Naver sentiment movie corpus v1.0) 개발셋에 대해 최고 수준의 성능(Accuracy)을 보임
- MoBERT-Base: 91.21%, MoBERT-Large: 92.45%
E. 5세부기술명 : MoBERT 기반 패러프레이즈 인식 기술
o 두 문장을 입력받아 어휘들 사이의 패러프레이즈 관계, 반의 의미 관계 등의 다양한 문맥 정보를 인식한 후에 두 문장의 의미 동등성을 인식하는 기술
- 1세부기술(MoBERT) 필요
o 본 기술은 일반 패러프레이즈 표현 인식 뿐만 아니라 적대적 예제에도 강건한 성능을 얻을 수 있도록 하기 위해
- 1) 적대적 예제를 포함하는 학습데이터로 모델을 학습시킴
- 2) 예측 공간을 정규화할 수 있도록 기초 유사도 예측과 적대성 예측을 분리 후 협동 학습시킴
F. 6세부기술명 : MoBERT 기반 단락 재순위화 기술
o 질문과 검색 단락 집합이 주어지면, 질문-단락 간의 관계를 추론하여 스코어를 재산정하는 기술
- 1세부기술(MoBERT) 필요
o 질문-단락 추론을 위한 지역적 대비 추정 손실 기반의 학습 기술
G. 7세부기술명 : MoBERT 기반 정답근거 인식 기술
o 질문과 단락을 입력으로 하여 단락 내에서 정답을 추론할 수 있는 모든 근거 문장을 인식하는 기술
- 1세부기술(MoBERT) 필요
- 80,473 셋의 근거인식 학습데이터로 MoBERT 미세 조정
- 전문분야(법률) 검색 단락 1,000개에서 근거 인식 정확률 87.74%
본 기술의 기술이전 범위는 아래와 같다.
A. 1세부기술명 : 한국어에 최적화된 언어이해 모델(MoBERT)
- MorphemePiece 기반 한국어 언어이해 모델 2종: 베이스 모델 및 라지 모델
B. 2세부기술명 : MoBERT 사전학습 기술
- 어휘사전 구축 및 사전학습 코드
- 기술 사용 매뉴얼
C. 3세부기술명 : MoBERT 기반 기계 독해 기술
- 기계 독해 미세조정(Fine-tuning) 및 추론 코드
- 기술 사용 매뉴얼
D. 4세부기술명 : MoBERT 기반 텍스트 분류 기술
- 텍스트 분류 미세조정(Fine-tuning) 및 추론 코드
- 기술 사용 매뉴얼
E. 5세부기술명 : MoBERT 기반 패러프레이즈 인식 기술
- 패러프레이즈 인식 미세조정(Fine-tuning) 및 추론 코드
- 학습데이터 (6만건)
- 기술 사용 매뉴얼
F. 6세부기술명 : MoBERT 기반 단락 재순위화 기술
- 단락 재순위화 미세조정(Fine-tuning) 및 추론 코드
- 법률 및 위키피디아 도메인 학습데이터
- 기술 사용 매뉴얼
G. 7세부기술명 : MoBERT 기반 정답근거 인식 기술
- 정답근거 인식 미세 조정(Fine-tuning) 및 추론 코드
- 기술 사용 매뉴얼
● 템, 빅데이터 분석 시스템 등의 응용분야의 원천기술로 적용 가능
● 한국어 리소스의 언어 및 의미 분석/지식 저장에 활용
● 지능형 정보 검색 및 자연어 질의응답 서비스에 활용
● 챗봇 서비스에서 텍스트 분석 및 마이닝 기술에 활용
● RAG(Retrieval Augmented Generation) 구성 시 뉴럴 검색, 근거 분류, 근거 인식 등의 기술로 활용