ETRI-Knowledge Sharing Plaform

KOREAN
논문 검색
Type SCI
Year ~ Keyword

Detail

Conference Paper 세밀한 감정 음성 합성 시스템의 속도와 합성음의 음질 개선 연구
Cited - time in scopus Share share facebook twitter linkedin kakaostory
Authors
엄세연, 오상신, 장인선, 안충현, 강홍구
Issue Date
2020-07
Citation
한국방송·미디어공학회 학술 대회 (하계) 2020, pp.1-3
Publisher
한국방송∙미디어공학회
Language
Korean
Type
Conference Paper
Abstract
본 논문은 시각 장애인을 위한 감정 음성 자막 서비스를 생성하는 종단 간(end-to-end) 감정 음성 합성 시스템(emotional text-to-speech synthesis system, TTS)의 음성 합성 속도를 높이면서도 합성음의 음질을 향상시키는 방법을 제안한다. 기존에 사용했던 전역 스타일 토큰(Global Style Token, GST)을 이용한 감정 음성 합성 방법은 다양한 감정을 표현할 수 있는 장점을 갖고 있으나, 합성음을 생성하는데 필요한 시간이 길고 학습할 데이터의 동적 영역을 효과적으로 처리하지 않으면 합성음에 클리핑(clipping) 현상이 발생하는 등 음질이 저하되는 양상을 보였다. 이를 보안하기 위해 본 논문에서는 새로운 데이터 전처리 과정을 도입하였고 기존의 보코더(vocoder)인 웨이브넷(WaveNet)을 웨이브알엔엔(WaveRNN)으로 대체하여 생성 속도와 음질 측면에서 개선됨을 보였다.
KSP Keywords
End to End(E2E), Text-To-Speech(TTS), Text-To-Speech synthesis, speech synthesis system