본 이전기술은 한국어 사전학습 언어모델의 응용인 문서 자동 분류 기술에 관한 것이다.
사전에 학습된 한국어 언어모델을 기반으로 적용하고자 하는 도메인의 데이터를 이용하여 도메인 적응 사전학습(domain adaptation pre-training, 이하 DAPT)을 추가로 수행하고 대상 응용 기술인 문서 자동 분류에 대해 미세조정(fine-tuning)을 통해 입력 문서에 대해 해당하는 분류(category)를 자동으로 제공한다.
기존 문서 작성자가 수작업으로 분류하던 작업 방식에서 본 기술을 적용하여 문서의 분류를 자동으로 추천하고 작성자는 확인 혹은 필요할 경우 간단한 수정을 통해서 업무 효율을 꾀한다.
범용 언어모델을 DAPT를 통해 도메인에 특화된 언어모델을 구축하고 미세 조정 과정을 통해 자동 분류의 높은 정확도를 목표로 한다.
본 기술의 특징은, 특정 언어에 한정하지 않는 토큰 프리 방법을 통해 구축되어 숫자, 한문을 포함한 외국어, 전문 용어 등에 강건한 구축된 범용 언어모델을 DAPT 기술을 통해 적용하고자 하는 도메인에 맞게 수정한다.
본 기술은, 또한 미세조정 과정에서 다중작업 학습이 가능하여 1개의 모델로 복수개 이상의 task를 수행하여 응용 서비스 운용에 있어 효율적이며, 이를 통해 비용을 절감할 수 있다.
특히, 본 기술의 응용인 문서 자동 분류의 경우 1개 기관에서 복수의 문서 분류 체계를 보유하고 있을 때 각각의 독립된 복수 개의 모델로 이를 관리하는 것보다 다중작업 학습(multi task learning)을 통해 1개의 모델로 복수개의 문서 자동 분류가 가능하여 효율적이다.
1) 도메인 적응 사전학습 기술
- 범용 한국어 언어모델을 이용하여 도메인 데이터를 이용한 언어모델 사전학습 기술
2) multi-task(다중작업) 학습기반 자동 분류 기술
- 한국어 언어모델을 이용하여 다중 작업 학습이 가능한 자동 분류 학습 및 예측 기술
1) 도메인 적응 사전학습 기술
- 범용 한국어 언어모델을 이용한 도메인 적응 학습 기술 소스코드
2) multi-task(다중작업) 학습기반 자동 분류 기술
- 한국어 언어모델을 이용하여 다중작업 학습 기반 자동분류 학습 및 예측 소스코드
전문적인 도메인 지식이 필요한 분야에서 수집된 관련 분야 학습 데이터를 이용하여 DAPT가 가능하며, 도메인 지식에 특화된 언어모델 기반으로 좀더 높은 품질의 자동 분류 서비스가 가능하다.