O 기술이전의 내용
A. 한국어 이해생성 모델을 위한 언어단위 사전(vocabulary)
- 한국어는 교착어로 내용어(명사, 동사 등)와 기능어(조사, 어미 등)이 결합하여 하나의 어절을 구성하는 특징을 가짐
- 딥러닝 언어모델은 학습을 위하여 입력 문장(문서)를 미리 정의한 약 수 만개의 언어단위로 분절화한 이후, 각 입력 언어단위 사이의 관련성을 계산함
- 한국어 이해생성이 가능한 고성능의 언어모델 학습을 위하여, 주요 기능어 어미 구분이 가능한 언어단위 사전
B. 언어 이해 및 생성을 동시에 학습하는 사전학습 데이터 생성 기술
- 한국어는 교착어로 내용어(명사, 동사 등)와 기능어(조사, 어미 등)이 결합하여 하나의 어절을 구성하는 특징을 가짐
- 어절 내 형태소 간의 관련성 학습을 개선한 마스킹 단위화 기술과 고성능의 언어이해 능력 학습을 위한 다구간 마스킹을 통합한 마스킹 기술
- 언어 이해 능력 학습을 위한 구간 마스킹 복원과 언어 생성 능력 개선을 위한 다음 문자열 예측을 동시에 학습하는 기술
C. 사전학습 수행 기술
- 인코더-디코더 언어모델 사전학습을 위한 파라미터 (Small 모델 및 Base 모델)
- 대용량 학습데이터 기반 사전학습을 위한 다이나믹 학습데이터 생성 기술
- 시스템 메모리보다 훨씬 큰 대량의 학습데이터를 효율적으로 읽어서 학습루틴에 제공해주는 다이나믹 데이터 로딩 기술
D. 사전학습된 한국어 이해생성 언어모델
- 77M 크기의 small 모델과 220M 크기의 base 모델
- Common Crawl, 위키백과, 신문기사 등 약 95 GB (9억6천만 문장, 97억개 단어, 440억 글자)의 한국어 데이터로부터 학습한 딥러닝 언어모델
O 기술이전의 범위
A. 한국어 이해생성 모델을 위한 언어단위 사전(vocabulary)
- 언어단위 사전 모델 파일
B. 언어 이해 및 생성을 동시에 학습하는 사전학습 데이터 생성 기술
- 학습데이터 생성 소스코드
C. 사전학습 수행 기술
- 사전학습 수행 실행코드
D. 사전학습된 언어모델 (small과 base 모델 2종)
- 한국어 사전학습 언어모델 파일
E. 기술 사용 매뉴얼