ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Korean Sentence Segmentation and Punctuation Recovery

Manager
Kim Chang Hyun
Participants
Kwon Oh Woog, Kim Young Kil, Kim Chang Hyun, Roh Yoon-Hyung, Young-Ae Seo, Jong Hun Shin, Lee Ki Young, Lee Yo Han, Choi Gyu Hyun, Choi Gyu Hyun, Choi Sung Kwon, Huang Jinxia
Transaction Count
1
Year
2021
Project Code
20HS3900, Core technology development of the real-time simultaneous speech translation based on knowledge enhancement, Kim Young Kil
19HS5500, Core technology development of the real-time simultaneous speech translation based on knowledge enhancement, Kim Young Kil
­ 본 이전기술은 기계학습 모델과 이를 사용하는 라이브러리 형식으로 개발된 한국어 문장 부호 복원 및 분절 기술에 관한 것임.
­ 본 기술이전의 목적은, 문장 부호가 없이 문장의 경계가 불분명한 1개 이상의 한국어 문장이 입력되었을 때 이들 문장 내 부호를 복원하거나, 문장 단위로 입력을 분절하는 기술을 제공하는 것임.
­ 발화 휴지(pause)를 탐지하여, 이를 발화의 끝점으로 사용하는 음성 인식 시스템은 자유 발화 등 문장 경계가 불분명한 전사 결과를 활용하였을 때 성능 하락이 발생할 수 있음. 이에 따라, 문장 단위로 입력을 자르거나, 나타나지 않은 부호를 복원해야 할 필요가 있음
­ 본 한국어 문장 분리 및 부호 복원 기술은 이러한 요구에 대응하기 위해, 경계가 불분명한 단일 또는 복수 문장의 한국어를 분절하고, 부호를 복원한 결과를 제공하기 위한 것임.
- 문장부호가 없고, 문장 경계가 뚜렷하지 않은 자유 발화 음성 인식 전사 결과를 문장 단위로 분리할 수 있으며, 문장 부호를 자동으로 부착
- 문장의 완성 여부 판별에 활용할 수 있음
- 회의록 생성, 자동 통역 결과물 생성 등 문장 단위로 입력되는 경우 더 좋은 성능을 기대할 수 있는 하위 자연언어처리 시스템의 성능을 향상시킬 수 있음
○ 기술이전의 내용
A. 한국어 문장 부호 복원 및 분절 API 라이브러리 소프트웨어

○ 기술이전의 범위

A. 문장 부호 복원 모델 및 분절 지식
- 한국어 문장 분절 및 부호 복원 학습 모델
- 입력 전처리를 위한 부-어휘 토큰화 모델

B. 문장 부호 복원 및 분절 프로그래밍 인터페이스(API) 라이브러리
- 모델 구동 라이브러리 바이너리 및 API
A. 문장 부호 복원 모델 및 분절 지식
- 한국어 문장 분절 및 부호 복원 학습 모델
- 입력 전처리를 위한 부-어휘 토큰화 모델

B. 문장 부호 복원 및 분절 프로그래밍 인터페이스(API) 라이브러리
- 모델 구동 라이브러리 바이너리 및 API
­ 문장 단위의 한국어 자연어 처리 시스템 또는 이들 시스템의 학습을 위한 한국어 말뭉치 정제 및 구축 시 응용 가능
­ 한국어 음성인식 결과를 활용하는 하위 응용 기술의 전처리 계층으로 활용