20IH2400, 음악 및 동영상 모니터링을 위한 지능형 마이크로 식별 기술 개발,
박지현
초록
음악 식별 기술은 비교적 기술적 성숙도가 높지만 이는 입력되는 음원에 손상이나 합성이 없는 경우이고, 방송오디오와 같이 대사와 음악이 혼재된 상황에서 작은 소리로 혼합된 배경음악을 식별하는 경우 그 성능은 급격히저하된다. 본 논문에서는 음악-대사 분리 기법을 적용하여 대사가 제거된 음악 신호로부터 배경음악을 식별하고자한다. 대표적인 컨볼루션 기반 음악 음원 분리 네트워크 구조인 U-Net, Wave-U-Net 및 MMDenseNet 기반 음원분리를 위한 기존 기법들을 도입하여 음악-대사 분리에 적합하도록 변형한다. 또한 새로운 음악-대사 분리 기법인DenseNet 구조를 가지는 파형 입력 기반 Wave-DenseNet을 제안한다. 식별기는 랜드마크 기반 오디오 핑거프린트방식을 적용한다. SDR이 음원 분리 성능 지표로 널리 쓰이고 있으나 분리 후 SDR 값의 성능 순위와 식별율의성능 순위가 서로 다름으로 보아 분리 후 얻어진 음악 신호로 식별을 하고자 할 때는 적합한 성능 지표가 아님을확인하였다. 음악-대사 데이터셋으로 음악-대사 분리 후 식별 성능을 비교한 결과 가장 우수한 방법은Wave-U-Net 분리 기법임을 보였다.
저작권정책 안내문
한국전자동신연구원 지식공유플랫폼 저작권정책
한국전자통신연구원 지식공유플랫폼에서 제공하는 모든 저작물(각종 연구과제, 성과물 등)은 저작권법에 의하여 보호받는 저작물로 무단복제 및 배포를 원칙적으로 금하고 있습니다. 저작물을 이용 또는 변경하고자 할 때는 다음 사항을 참고하시기 바랍니다.
저작권법 제24조의2에 따라 한국전자통신연구원에서 저작재산권의 전부를 보유한 저작물의 경우에는 별도의 이용허락 없이 자유이용이 가능합니다. 단, 자유이용이 가능한 자료는 "공공저작물 자유이용허락 표시 기준(공공누리, KOGL) 제4유형"을 부착하여 개방하고 있으므로 공공누리 표시가 부착된 저작물인지를 확인한 이후에 자유이용하시기 바랍니다. 자유이용의 경우에는 반드시 저작물의 출처를 구체적으로 표시하여야 하고 비영리 목적으로만 이용이 가능하며 저작물을 변형하거나 2차 저작물로 사용할 수 없습니다.
<출처표시방법 안내> 작성자, 저작물명, 출처, 권호, 출판년도, 이용조건 [예시1] 김진미 외, "매니코어 기반 고성능 컴퓨팅을 지원하는 경량커널 동향", 전자통신동향분석, 32권 4호, 2017, 공공누리 제4유형 [예시2] 심진보 외, "제4차 산업 혁명과 ICT - 제4차 산업 혁명 선도를 위한 IDX 추진 전략", ETRI Insight, 2017, 공공누리 제 4유형
공공누리가 부착되지 않은 자료들을 사용하고자 할 경우에는 담당자와 사전협의한 이후에 이용하여 주시기 바랍니다.