ETRI Knowledge Sharing Platform : 음악-대사 신호 분리 기반 방송물 내 배경음악 식별

BROWSE

Titles

논문 검색
Type		SCI
Year	~	Keyword

Detail

List

Conference Paper 음악-대사 신호 분리 기반 방송물 내 배경음악 식별

Cited - time in scopus

Authors: 김혜미, 김정현, 박지현

Issue Date: 2019-02

Citation: 한국HCI학회 학술 대회 2019, pp.1158-1161

Publisher: 한국HCI학회

Language: Korean

Type: Conference Paper

Abstract: 음악 식별을 위해 사용되는 기존의 음악 핑거프린팅 기술은 잡음이 거의 없는 전경음 식별을 목적으로 개발되었기 때문에, 드라마에서 배우가 대사를 하는 장면에 삽입된 배경 음악을 식별함에 있어서는 그 성능이 매우 낮다. 본 연구는 음악과 대사가 혼재한 상황에서 영역 분할 기법인 U-Net 방법을 적용하여 대사와 음악을 분리함으로써 드라마나 예능 등 방송물에 삽입된 배경 음악의 식별 성능을 높이고자 한다. 학습데이터셋을 생성하기 위하여 한국에서 방송되는 다양한 장르의 방송물로부터 배경 음악이 포함되지 않는 순수대사 구간 정보를 태깅하고 해당 오디오를 추출하여 방송 대사 데이터셋을 생성하였다. 대사와 혼합할 음악데이터셋으로 다양한 장르가 포함된 9100 여 곡의 대중가요를 선별하였고, 이 중 약 40%의 곡을 학습과 검증에 사용하였다. 식별을 위한 데이터베이스 생성시에는 음악 데이터셋 내 9100 여 곡을 모두 사용하였다. 학습 데이터셋을 생성하기 위하여 음악과 대사를 혼합할 때, 방송물과 유사하도록 음악 소리의 크기를 대사보다 작게 혼합하였다. 음원 분리 네트워크의 입력 스펙트로그램 크기를 변화시키면서 식별 성능을 비교한 결과 음원 분리를 적용한 음원의 음악 식별 성능이 향상되었다.

ETRI

218 Gajeong-ro, Yuseong-gu, Daejeon, 34129, KOREA, Contact: sh.kim@etri.re.kr

Please refrain from automatic collection of e-mail addresses posted on this homepage.

제1유형

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI