ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Noise signal separation and audio identification technology for content background music recognition

Manager
Park Jee Hyun
Participants
Kim Jung-Hyun, Kim Hye-Mi, Park Jee Hyun, Seo Yong-Seok, Yoo Wonyoung, Im Dong-Hyuck
Transaction Count
4
Year
2020
Project Code
20IH2400, Intelligent Micro-Identification Technology for Music and Video Monitoring, Park Jee Hyun
19KS1100, Intelligent Micro-Identification Technology for Music and Video Monitoring, Park Jee Hyun
18KS1100, Intelligent Micro-Identification Technology for Music and Video Monitoring, Park Jee Hyun
방송 콘텐츠에 삽입된 음악들을 분석하고 식별하여 방송 내에서 사용된 음악들의 사용내역을 큐시트 형태로 제공하는 기술
ㅇ 방송음악에는 잡음 및 겹쳐지는 소리가 포함되어 있어, 기존의 핑거프린팅 기법으로는 해결하는데 한계가 있음
- 일반적인 오디오 식별기술은 오디오 DNA 또는 오디오 핑거프린트라고 부르는 오디오의 유일성을 확인할 수 있는 신호적 고유 속성을 이용하여 오디오를 인식하는 기술로 잡음이나 왜곡이 거의 없는 환경을 가정함
- 기존의 잡음, 왜곡 환경을 위한 오디오 인식기술은 입력 신호가 음악인 것을 가정하고 있으며 대부분 마이크로폰 녹음에 의한 잔향 왜곡과 10초 이상의 비교적 긴 길이를 대상으로 하고 있음. 그러나 방송콘텐츠에서 사용된 배경음악의 경우 영상의 장르, 내용에 따른 다양한 비고정 형태의 잡음과 편집 과정에서의 템포, 피치, 믹싱 등의 여러 가지 형태의 왜곡이 발생하는 환경으로 기존 기술을 이용할 경우 식별율이 현저히 낮은 상태임
- 방송음악은 주로 극중 분위기를 보조하기 위해 사용되고, 대사의 전달에 방해가 되지 않기위해 작게 삽입되는 경우가 많기 때문에, 클리어 오디오를 식별하기 위한 기존의 핑거프린팅 기술로는 식별하기 어려움
- K-POP과 같이 일반적으로 사용되는 음악과 달리 배경음악은 주로 라이브러리 음악을 사용하는데, 라이브러리 음악은 하나의 테마를 조금씩 다르게 편곡한 유사 음악이 많아 정확한 식별이 어려움
ㅇ 여러소리가 겹쳐지는 경우가 많은 방송 오디오에서 방송음악의 식별율을 높이기 위해서는 다른 소리는 제거하고 음악을 분리해 내는 기술을 적용하는 것이 효과적임
ㅇ 잡음에 강인한 음악식별 기술은 방송음악의 식별뿐 아니라 모바일 음악검색, 매장 음악검색 등 음악검색이 필요한 실생활 서비스에 다양하게 활용이 가능함
ㅇ 1세부 기술 : 잡음 오디오 신호 분리 기술
- 딥러닝을 이용하여 대사와 음악이 혼합된 오디오에서 음악신호 만을 분리
- 딥러닝을 이용하여 잡음이 있는 오디오에서 잡음을 효과적으로 제거
ㅇ 2세부 기술 : 잡음에 강인한 음악식별 기술
- 바이너리 형태의 작은 식별자 크기: 초당 약 86바이트
- 디코더에 독립적인 핑거프린트 추출 구조
- 메모리 기반 식별자 고속 검색 방식
<기술이전의 내용>
A. 1세부 기술 : 잡음 오디오 신호 분리 기술
- 잡음 오디오 분리를 위한 딥러닝 모델 학습 기술
- 딥러닝 모델을 이용한 잡음 오디오 신호 분리 기술

B. 2세부 기술 : 잡음에 강인한 음악식별 기술
- 동영상 내 오디오 스트림에 대한 핑거프린트 추출 기술
- 오디오 핑거프린트 색인 기술
- 핑거프린트 검색 기술

<기술이전의 범위>
A. 1세부 기술 : 잡음 오디오 신호 분리 기술
- 딥러닝 모델을 이용한 잡음 오디오 신호 분리 프로그램 바이너리 실행파일
- 잡음 오디오 신호 분리를 위한 딥러닝 모델 학습 프로그램 소스코드
- 딥러닝 모델을 이용한 잡음 오디오 신호 분리 프로그램 소스코드
- 기술 설명서

B. 2세부 기술 : 잡음에 강인한 음악식별 기술
- 오디오 핑거프린트 추출 프로그램 바이너리 실행파일
- 오디오 핑거프린트 검색 프로그램 바이너리 실행파일
- 오디오 핑거프린트 추출 프로그램 소스코드
- 오디오 핑거프린트 검색 프로그램 소스코드
- 기술 설명서

※ 바이너리 기술이전시 소스코드는 제외됨
ㅇ 적용분야
- 방송 배경음악 검색 및 모니터링 시스템
- 매장음악 모니터링 시스템
- 모바일 음악검색 서비스

ㅇ 기대효과
- 방송음악 저작권료 산정을 위한 선진화된 기술적 수단 제공
- 배경음악 검색 및 추천을 통한 관련 시장 확대와 한류 콘텐츠의 저작권료 수익 확대
- 라이브러리 음악의 손쉬운 사용으로 일반 사용자의 시장 참여 확대