ETRI-Knowledge Sharing Plaform

KOREAN
논문 검색
Type SCI
Year ~ Keyword

Detail

Conference Paper 음악-대사 신호 분리 기반 방송물 내 배경음악 식별
Cited - time in scopus Share share facebook twitter linkedin kakaostory
Authors
김혜미, 김정현, 박지현
Issue Date
2019-02
Citation
한국HCI학회 학술 대회 2019, pp.1158-1161
Publisher
한국HCI학회
Language
Korean
Type
Conference Paper
Abstract
음악 식별을 위해 사용되는 기존의 음악 핑거프린팅 기술은 잡음이 거의 없는 전경음 식별을 목적으로 개발되었기 때문에, 드라마에서 배우가 대사를 하는 장면에 삽입된 배경 음악을 식별함에 있어서는 그 성능이 매우 낮다. 본 연구는 음악과 대사가 혼재한 상황에서 영역 분할 기법인 U-Net 방법을 적용하여 대사와 음악을 분리함으로써 드라마나 예능 등 방송물에 삽입된 배경 음악의 식별 성능을 높이고자 한다. 학습데이터셋을 생성하기 위하여 한국에서 방송되는 다양한 장르의 방송물로부터 배경 음악이 포함되지 않는 순수대사 구간 정보를 태깅하고 해당 오디오를 추출하여 방송 대사 데이터셋을 생성하였다. 대사와 혼합할 음악데이터셋으로 다양한 장르가 포함된 9100 여 곡의 대중가요를 선별하였고, 이 중 약 40%의 곡을 학습과 검증에 사용하였다. 식별을 위한 데이터베이스 생성시에는 음악 데이터셋 내 9100 여 곡을 모두 사용하였다. 학습 데이터셋을 생성하기 위하여 음악과 대사를 혼합할 때, 방송물과 유사하도록 음악 소리의 크기를 대사보다 작게 혼합하였다. 음원 분리 네트워크의 입력 스펙트로그램 크기를 변화시키면서 식별 성능을 비교한 결과 음원 분리를 적용한 음원의 음악 식별 성능이 향상되었다.