ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Exobrain Korean language understanding-generation language model pretraining technique v1.0

Manager
Minho Kim
Participants
Minho Kim, Kim Young Kil, Kim Hyun, Hyunki Kim, Ryu Jihee, Kyungman Bae, Yongjin Bae, Hyung Jik Lee, Soojong Lim, Lim Joon-Ho, Jang Myung Gil, Miran Choi, Heo Jeong
Transaction Count
1
Year
2021
Project Code
19HS3200, Development of Knowledge Evolutionary WiseQA Platform Technology for Knowledge Augmented Services, Hyunki Kim
20HS3200, Development of Knowledge Evolutionary WiseQA Platform Technology for Knowledge Augmented Services, Lim Joon-Ho
본 기술은 언어분석/기계독해/문서분류/요약생성/대화생성 등 다양한 언어이해 및 언어생성 유형의 응용 태스크에 범용적으로 적용이 가능한 한국어 이해-생성 딥러닝 언어모델을 사전 학습하는 기술에 대한 것이다.
● 최근 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 딥러닝에 기반한 언어처리 및 인공지능 기술이 부상되고 있다.
● 딥러닝 언어모델 기술은 최근의 언어처리 기술 발전의 핵심 기술로, 수십 기가바이트(GB) 이상의 텍스트로부터 범용적인 언어의 구문 및 의미 정보를 학습하여 응용 태스크에 적용하는 기술이다. 딥러닝 언어모델 기술은 언어모델을 적용하지 않은 이전의 심볼릭 또는 딥러닝 학습 방법 대비 큰 폭의 성능 개선을 이루었다.
● 최근 각광을 받았던 언어 이해 중심의 언어모델의 한계를 넘어서는 생성도 가능한 언어모델이 필요하다.
● 언어 이해 및 생성이 동시에 가능한 한국어 언어모델을 학습하기 위해서는 교착어인 한국어에 적합한 언어단위 사전(vocabulary) 구축 및 효과적인 사전학습 태스크 전략이 필수적이다.
● 엑소브레인 한국어 이해·생성 딥러닝 언어모델 사전학습 기술은 대용량 텍스트로부터 한국어의 구문 및 의미 정보를 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류/요약생성/대화생성 등)에 범용적으로 활용 가능한 딥러닝 언어모델을 학습하는 기술이다.
● 엑소브레인 한국어 이해-생성 언어모델 사전학습 기술은 고성능의 한국어 언어모델 학습에 필요한 언어단위 사전, 사전학습 (입력/출력) 데이터 생성, 사전학습 수행 기술 등을 포함한다.
● Common Crawl, 위키백과, 신문기사 등, 약 95 GB (9억6천만 문장, 97억개 단어, 440억 글자)의 데이터로부터 학습한 한국어 이해생성 언어모델은 언어분석/기계독해/문서분류 등의 언어 이해 능력 뿐만이 아니라, 요약/대화 등의 언어 생성도 가능하다.
O 기술이전의 내용

A. 한국어 이해생성 모델을 위한 언어단위 사전(vocabulary)
- 한국어는 교착어로 내용어(명사, 동사 등)와 기능어(조사, 어미 등)이 결합하여 하나의 어절을 구성하는 특징을 가짐
- 딥러닝 언어모델은 학습을 위하여 입력 문장(문서)를 미리 정의한 약 수 만개의 언어단위로 분절화한 이후, 각 입력 언어단위 사이의 관련성을 계산함
- 한국어 이해생성이 가능한 고성능의 언어모델 학습을 위하여, 주요 기능어 어미 구분이 가능한 언어단위 사전
B. 언어 이해 및 생성을 동시에 학습하는 사전학습 데이터 생성 기술
- 한국어는 교착어로 내용어(명사, 동사 등)와 기능어(조사, 어미 등)이 결합하여 하나의 어절을 구성하는 특징을 가짐
- 어절 내 형태소 간의 관련성 학습을 개선한 마스킹 단위화 기술과 고성능의 언어이해 능력 학습을 위한 다구간 마스킹을 통합한 마스킹 기술
- 언어 이해 능력 학습을 위한 구간 마스킹 복원과 언어 생성 능력 개선을 위한 다음 문자열 예측을 동시에 학습하는 기술
C. 사전학습 수행 기술
- 인코더-디코더 언어모델 사전학습을 위한 파라미터 (Small 모델 및 Base 모델)
- 대용량 학습데이터 기반 사전학습을 위한 다이나믹 학습데이터 생성 기술
- 시스템 메모리보다 훨씬 큰 대량의 학습데이터를 효율적으로 읽어서 학습루틴에 제공해주는 다이나믹 데이터 로딩 기술
D. 사전학습된 한국어 이해생성 언어모델
- 77M 크기의 small 모델과 220M 크기의 base 모델
- Common Crawl, 위키백과, 신문기사 등 약 95 GB (9억6천만 문장, 97억개 단어, 440억 글자)의 한국어 데이터로부터 학습한 딥러닝 언어모델

O 기술이전의 범위
A. 한국어 이해생성 모델을 위한 언어단위 사전(vocabulary)
- 언어단위 사전 모델 파일
B. 언어 이해 및 생성을 동시에 학습하는 사전학습 데이터 생성 기술
- 학습데이터 생성 소스코드
C. 사전학습 수행 기술
- 사전학습 수행 실행코드
D. 사전학습된 언어모델 (small과 base 모델 2종)
- 한국어 사전학습 언어모델 파일
E. 기술 사용 매뉴얼
● 한국어 범용 도메인 질의응답에 활용
● 사용자 질의에 정답을 검색하는 지능형 검색 서비스에 활용
● 한국어 문장의 의미적 관계 분석에 활용
● 텍스트 빅데이터 분석 및 마이닝 기술에 활용
● 한국어 요약 서비스
● 한국어 챗봇 대화 서비스