ETRI-Knowledge Sharing Plaform

KOREAN
논문 검색
Type SCI
Year ~ Keyword

Detail

Journal Article 미디어 오디오에서의 DNN 기반 음성 검출
Cited - time in scopus Download 119 time Share share facebook twitter linkedin kakaostory
Authors
장인선, 안충현, 서정일, 장윤선
Issue Date
2017-09
Citation
방송공학회논문지, v.22, no.5, pp.632-642
ISSN
1226-7953
Publisher
한국방송공학회 (KOSBE)
Language
Korean
Type
Journal Article
DOI
https://dx.doi.org/10.5909/JBE.2017.22.5.632
Project Code
17HR3700, Development of assistive broadcasting tehcnology for invisible and deaf people's media accessibility, Ahn Chung Hyun
Abstract
본 논문에서는 미디어 오디오의 음향 특성 및 문맥 정보를 활용한 DNN 기반 음성 검출 시스템을 제안한다. 미디어 오디오 내에 포함되어 있는 음성과 비음성을 구분하기 위한 음성 검출 기법은 효과적인 음성 처리를 위해 필수적인 전처리 기술이지만 미디어 오디오 신호에는 다양한 형태의 음원이 복합적으로 포함되어 있으므로 기존의 신호처리 기법으로는 높은 성능을 얻기에는 어려움이 있었다. 제안하는 기술은 미디어 오디오의 고조파와 퍼커시브 성분을 분리하고, 오디오 콘텐츠에 포함된 문맥 정보를 반영하여 DNN 입력 벡터를 구성함으로써 음성 검출 성능을 개선할 수 있다. 제안하는 시스템의 성능을 검증하기 위하여 20시간 이상 분량의 드라마를 활용하여 음성 검출용 데이터 세트를 제작하였으며 범용으로 공개된 8시간 분량의 헐리우드 영화 데이터 세트를 추가로 확보하여 실험에 활용하였다. 실험에서는 두 데이터 세트에 대한 교차 검증을 통하여 제안하는 시스템이 기존 방법에 비해 우수한 성능을 보임을 확인하였다.
This work is distributed under the term of Creative Commons License (CCL)
(CC BY NC ND)
CC BY NC ND