ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

엑소브레인 한국어 이해-생성 언어모델 사전학습 기술 V1.0

전수책임자
김민호
참여자
김민호, 김영길, 김현, 김현기, 류지희, 배경만, 배용진, 이형직, 임수종, 임준호, 장명길, 최미란, 허정
기술이전수
1
이전연도
2021
협약과제
19HS3200, (엑소브레인-1세부) 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발, 김현기
20HS3200, (엑소브레인-총괄/1세부) 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발, 임준호
본 기술은 언어분석/기계독해/문서분류/요약생성/대화생성 등 다양한 언어이해 및 언어생성 유형의 응용 태스크에 범용적으로 적용이 가능한 한국어 이해-생성 딥러닝 언어모델을 사전 학습하는 기술에 대한 것이다.
● 최근 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 딥러닝에 기반한 언어처리 및 인공지능 기술이 부상되고 있다.
● 딥러닝 언어모델 기술은 최근의 언어처리 기술 발전의 핵심 기술로, 수십 기가바이트(GB) 이상의 텍스트로부터 범용적인 언어의 구문 및 의미 정보를 학습하여 응용 태스크에 적용하는 기술이다. 딥러닝 언어모델 기술은 언어모델을 적용하지 않은 이전의 심볼릭 또는 딥러닝 학습 방법 대비 큰 폭의 성능 개선을 이루었다.
● 최근 각광을 받았던 언어 이해 중심의 언어모델의 한계를 넘어서는 생성도 가능한 언어모델이 필요하다.
● 언어 이해 및 생성이 동시에 가능한 한국어 언어모델을 학습하기 위해서는 교착어인 한국어에 적합한 언어단위 사전(vocabulary) 구축 및 효과적인 사전학습 태스크 전략이 필수적이다.
● 엑소브레인 한국어 이해·생성 딥러닝 언어모델 사전학습 기술은 대용량 텍스트로부터 한국어의 구문 및 의미 정보를 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류/요약생성/대화생성 등)에 범용적으로 활용 가능한 딥러닝 언어모델을 학습하는 기술이다.
● 엑소브레인 한국어 이해-생성 언어모델 사전학습 기술은 고성능의 한국어 언어모델 학습에 필요한 언어단위 사전, 사전학습 (입력/출력) 데이터 생성, 사전학습 수행 기술 등을 포함한다.
● Common Crawl, 위키백과, 신문기사 등, 약 95 GB (9억6천만 문장, 97억개 단어, 440억 글자)의 데이터로부터 학습한 한국어 이해생성 언어모델은 언어분석/기계독해/문서분류 등의 언어 이해 능력 뿐만이 아니라, 요약/대화 등의 언어 생성도 가능하다.
O 기술이전의 내용

A. 한국어 이해생성 모델을 위한 언어단위 사전(vocabulary)
- 한국어는 교착어로 내용어(명사, 동사 등)와 기능어(조사, 어미 등)이 결합하여 하나의 어절을 구성하는 특징을 가짐
- 딥러닝 언어모델은 학습을 위하여 입력 문장(문서)를 미리 정의한 약 수 만개의 언어단위로 분절화한 이후, 각 입력 언어단위 사이의 관련성을 계산함
- 한국어 이해생성이 가능한 고성능의 언어모델 학습을 위하여, 주요 기능어 어미 구분이 가능한 언어단위 사전
B. 언어 이해 및 생성을 동시에 학습하는 사전학습 데이터 생성 기술
- 한국어는 교착어로 내용어(명사, 동사 등)와 기능어(조사, 어미 등)이 결합하여 하나의 어절을 구성하는 특징을 가짐
- 어절 내 형태소 간의 관련성 학습을 개선한 마스킹 단위화 기술과 고성능의 언어이해 능력 학습을 위한 다구간 마스킹을 통합한 마스킹 기술
- 언어 이해 능력 학습을 위한 구간 마스킹 복원과 언어 생성 능력 개선을 위한 다음 문자열 예측을 동시에 학습하는 기술
C. 사전학습 수행 기술
- 인코더-디코더 언어모델 사전학습을 위한 파라미터 (Small 모델 및 Base 모델)
- 대용량 학습데이터 기반 사전학습을 위한 다이나믹 학습데이터 생성 기술
- 시스템 메모리보다 훨씬 큰 대량의 학습데이터를 효율적으로 읽어서 학습루틴에 제공해주는 다이나믹 데이터 로딩 기술
D. 사전학습된 한국어 이해생성 언어모델
- 77M 크기의 small 모델과 220M 크기의 base 모델
- Common Crawl, 위키백과, 신문기사 등 약 95 GB (9억6천만 문장, 97억개 단어, 440억 글자)의 한국어 데이터로부터 학습한 딥러닝 언어모델

O 기술이전의 범위
A. 한국어 이해생성 모델을 위한 언어단위 사전(vocabulary)
- 언어단위 사전 모델 파일
B. 언어 이해 및 생성을 동시에 학습하는 사전학습 데이터 생성 기술
- 학습데이터 생성 소스코드
C. 사전학습 수행 기술
- 사전학습 수행 실행코드
D. 사전학습된 언어모델 (small과 base 모델 2종)
- 한국어 사전학습 언어모델 파일
E. 기술 사용 매뉴얼
● 한국어 범용 도메인 질의응답에 활용
● 사용자 질의에 정답을 검색하는 지능형 검색 서비스에 활용
● 한국어 문장의 의미적 관계 분석에 활용
● 텍스트 빅데이터 분석 및 마이닝 기술에 활용
● 한국어 요약 서비스
● 한국어 챗봇 대화 서비스