ETRI-Knowledge Sharing Plaform

ENGLISH

성과물

논문 검색
구분 SCI
연도 ~ 키워드

상세정보

학술지 k-평균 알고리즘을 활용한 음성의 대표 감정 스타일 결정 방법
Cited - time in scopus Download 4 time Share share facebook twitter linkedin kakaostory
저자
오상신, 엄세연, 장인선, 안충현, 강홍구
발행일
201909
출처
한국음향학회지, v.38 no.5, pp.616-622
ISSN
2287-3775
출판사
한국음향학회
DOI
https://dx.doi.org/10.7776/ASK.2019.38.5.616
협약과제
19HR4400, 시청각 장애인의 방송시청을 지원하는 감성표현 서비스 개발, 안충현
초록
본 논문은 전역 스타일 토큰(Global Style Token, GST)을 사용하는 종단 간(end-to-end) 감정 음성 합성 시스템의 성능을 높이기 위해 각 감정의 스타일 벡터를 효과적으로 결정하는 방법을 제안한다. 기존 방법은 각 감정을 표현하기 위해 한 개의 대푯값만을 사용하므로 감정 표현의 풍부함 측면에서 크게 제한된다. 이를 해결하기 위해 본 논문에서는 k-평균 알고리즘을 사용하여 다수의 대표 스타일을 추출하는 방법을 제안한다. 청취 평가를 통해 제안 방 법을 이용해 추출한 각 감정의 대표 스타일이 기존 방법에 비해 감정 표현 정도가 뛰어나며, 감정 간의 차이를 명확히 구별할 수 있음을 보였다.
KSP 제안 키워드
End to End(E2E)