ETRI-Knowledge Sharing Plaform

KOREAN

BROWSE

Titles

Home Titles Articles

논문 검색
Type		SCI
Year	~	Keyword

Detail

List

Conference Paper 한국어 중심의 토큰-프리 언어 이해-생성 모델 사전학습 연구

Cited - time in scopus

scopus

Share

Authors: 신종훈, 허정, 류지희, 이기영, 서영애, 성진, 임수종

Issue Date: 2023-10

Citation: 한글 및 한국어 정보처리 학술 대회 2023, pp.711-715

Publisher: 한국정보과학회 (KIISE)

Language: Korean

Type: Conference Paper

Abstract: 본 연구는 대부분의 언어 모델이 사용하고 있는 서브워드 토큰화 과정을 거치지 않고, 바이트 단위의 인코딩을 그대로 다룰 수 있는 토큰-프리 사전학습 언어모델에 대한 것이다. 토큰-프리 언어모델은 명시적인 미등록어 토큰이 존재하지 않고, 전 처리 과정이 단순하며 다양한 언어 및 표현 체계에 대응할 수 있는 장점이 있다. 하지만 관련 연구가 미흡, 서브워드 모델에 대비해 학습이 어렵고 낮은 성능이 보고되어 왔다. 본 연구에서는 한국어를 중심으로 토큰-프리 언어 이해-생성 모델을 사전 학습 후, 서브워드 기반 모델과 비교하여 가능성을 살펴본다. 또한, 토큰 프리 언어모델에서 지적되는 과도한 연산량을 감소시킬 수 있는 그래디언트 기반 서브워드 토크나이저를 적용, 처리 속도를 학습 2.7배, 추론 1.46배 개선하였다.

Copyright Policy Privacy Policy

ETRI

218 Gajeong-ro, Yuseong-gu, Daejeon, 34129, KOREA, Contact: sh.kim@etri.re.kr

2016 Electronics and Telecommunications Research Institute. All rights reserved.

Please refrain from automatic collection of e-mail addresses posted on this homepage.