ETRI Knowledge Sharing Platform : Music segment detecting technology

기술이전 검색
Year	~	Transaction Count		Keyword

여러 가지 다른 종류의 소리(예: 음악, 음성, 효과음 및 잡음 등)가 혼합된 오디오 신호에서 음악이 나오는 구간을 탐지하는 기술

ㅇ 기존 핑거프린팅 기법의 한계를 돌파할 저작물 식별기술 개발 필요
- 일반적인 오디오 식별기술은 오디오 DNA 또는 오디오 핑거프린트라고 부르는 오디오의 유일성을 확인할 수 있는 신호적 고유 속성을 이용하여 오디오를 인식하는 기술로 잡음이나 왜곡이 거의 없는 환경을 가정함
- 기존의 잡음, 왜곡 환경을 위한 오디오 인식기술은 입력 신호가 음악인 것을 가정하고 있으며 대부분 마이크로폰 녹음에 의한 잔향 왜곡과 10초 이상의 비교적 긴 길이를 대상으로 하고 있음. 그러나 방송콘텐츠에서 사용된 배경음악의 경우 영상의 장르, 내용에 따른 다양한 비고정 형태의 잡음과 편집 과정에서의 템포, 피치, 믹싱 등의 여러 가지 형태의 왜곡이 발생하는 환경으로 기존 기술을 이용할 경우 식별율이 현저히 낮은 상태임
- 영화나 방송콘텐츠의 배경음악으로 사용되는 음악들은 일반 대중가요와는 달리 보컬이 없는 경음악이 많고, 하나의 곡에 대해 편곡을 조금씩 달리한 형태의 유사한 곡이 다수 있고, 식별을 위해 필요한 음악 특징 DB 확보가 쉽지 않음
- 따라서 음악이 포함된 구간을 검출하여 더 정밀하게 식별기술을 적용하거나 차후에 처리할 수 있도록 음악구간을 구분하는 기술이 요구되고 있음
ㅇ 정확한 배경음악 모니터링을 위한 사회적 요구
- 배경음악 내역은 방송사에 모니터링 책임이 있으며, 지상파 3사와 일부 종편 및 케이블 방송사는 직접 모니터링한 결과를 제출하거나 신탁단체에 모니터링 비용을 지급하고 있음
- 현행 모니터링은 일부 프로그램을 샘플링하여 사람이 직접 청음하여 음악 사용횟수만을 카운팅하고 있어 정확한 사용내역 파악이 불가능
- 라이브러리 음악제공 업체는 신탁단체와의 경합회의를 통해 저작권료를 정산받고 있으나 근거없는 분배로 인하여 분쟁이 발생하기도 함
- 일부 라이브러리 업체는 아카이브의 음악 사용시 자동 기록되는 전자 큐시트 방식을 시도했으나 리허설시 사용된 음악이 포함되는 등 내역이 부정확하여 분배자료로 활용하지 못함
ㅇ 오디오 이벤트 검출기술의 성능향상 필요
- 오디오에서 음악 구간을 검출하는 기술과 관련하여 UC3M, UPM 대학에서는 MFCC, spectral entropy, chroma coefficient를 추출하여 GMM- HMM을 이용한 프레임별 음향 클래스를 출력하는 실험에서 약 30시간에 가까운 방송 뉴스 도메인 테스트 셋에 대해 19.21% 오류를 나타내었음
- 딥러닝이 확산되면서 학습용 데이터 확보에 대한 어려움이 커지고 있음. 오디오 데이터에 대해서 기존 오디오를 정제하여 학습용 오디오 데이터를 추출하는 기술에 대한 요구사항이 높으며, 음악구간 검출 기술을 이용하면 학습용 음악 데이터를 손쉽게 구축할 수 있음

- 다양한 종류의 오디오가 혼합된 상태에서 음악이 포함된 구간을 검출 가능
- 딥러닝 기술을 활용한 높은 정확도의 음악 구간 검출
- 적용할 분야의 특성에 맞춰 precision과 recall의 가중치를 일부 조정 가능
- 검출성능: 한국 방송 드라마 기준 검출 정확도 90%, F-score 93% 이상
- 1시간 길이의 방송 콘텐츠에 대하여 검출 시간 약 75초(GTX-1080Ti GPU 기준)

[기술이전의 내용]
- 음악구간 검출을 위한 딥러닝 모델 학습 기술
- 딥러닝 모델을 이용한 오디오 구간 검출 기술

[기술이전의 범위]
- 딥러닝 모델을 이용한 오디오 구간 검출 프로그램 바이너리 실행파일
- 음악구간 검출을 위한 딥러닝 모델 학습 프로그램 소스코드
- 딥러닝 모델을 이용한 오디오 구간 검출 프로그램 소스코드
- 음악구간 검출을 위한 딥러닝 모델 학습 방법 설명서
- 딥러닝 모델을 이용한 오디오 구간 검출 프로그램 설명서

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI