ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Multi-task classification technology based on Korean understanding and generation language model

Manager
Soojong Lim
Participants
Kim Young Kil, Ryu Jihee, Young-Ae Seo, Seong Jin, Jong Hun Shin, Lee Ki Young, Soojong Lim, Heo Jeong
Transaction Count
1
Year
2023
Project Code
23HS6600, Development of Large Korean Language Model Technology for Efficient Pre-training, Lee Yong-Ju
22HS8200, Development of Large Korean Language Model Technology for Efficient Pre-training, Lee Yong-Ju
­ 본 이전기술은 한국어 사전학습 언어모델의 응용인 문서 자동 분류 기술에 관한 것이다.
­ 사전에 학습된 한국어 언어모델을 기반으로 적용하고자 하는 도메인의 데이터를 이용하여 도메인 적응 사전학습(domain adaptation pre-training, 이하 DAPT)을 추가로 수행하고 대상 응용 기술인 문서 자동 분류에 대해 미세조정(fine-tuning)을 통해 입력 문서에 대해 해당하는 분류(category)를 자동으로 제공한다.
­ 기존 문서 작성자가 수작업으로 분류하던 작업 방식에서 본 기술을 적용하여 문서의 분류를 자동으로 추천하고 작성자는 확인 혹은 필요할 경우 간단한 수정을 통해서 업무 효율을 꾀한다.
­ 범용 언어모델을 DAPT를 통해 도메인에 특화된 언어모델을 구축하고 미세 조정 과정을 통해 자동 분류의 높은 정확도를 목표로 한다.
­ ­ 본 기술의 특징은, 특정 언어에 한정하지 않는 토큰 프리 방법을 통해 구축되어 숫자, 한문을 포함한 외국어, 전문 용어 등에 강건한 구축된 범용 언어모델을 DAPT 기술을 통해 적용하고자 하는 도메인에 맞게 수정한다.
­ 본 기술은, 또한 미세조정 과정에서 다중작업 학습이 가능하여 1개의 모델로 복수개 이상의 task를 수행하여 응용 서비스 운용에 있어 효율적이며, 이를 통해 비용을 절감할 수 있다.
­ 특히, 본 기술의 응용인 문서 자동 분류의 경우 1개 기관에서 복수의 문서 분류 체계를 보유하고 있을 때 각각의 독립된 복수 개의 모델로 이를 관리하는 것보다 다중작업 학습(multi task learning)을 통해 1개의 모델로 복수개의 문서 자동 분류가 가능하여 효율적이다.
1) 도메인 적응 사전학습 기술
- 범용 한국어 언어모델을 이용하여 도메인 데이터를 이용한 언어모델 사전학습 기술

2) multi-task(다중작업) 학습기반 자동 분류 기술
- 한국어 언어모델을 이용하여 다중 작업 학습이 가능한 자동 분류 학습 및 예측 기술

1) 도메인 적응 사전학습 기술
- 범용 한국어 언어모델을 이용한 도메인 적응 학습 기술 소스코드

2) multi-task(다중작업) 학습기반 자동 분류 기술
- 한국어 언어모델을 이용하여 다중작업 학습 기반 자동분류 학습 및 예측 소스코드
­ 전문적인 도메인 지식이 필요한 분야에서 수집된 관련 분야 학습 데이터를 이용하여 DAPT가 가능하며, 도메인 지식에 특화된 언어모델 기반으로 좀더 높은 품질의 자동 분류 서비스가 가능하다.