ETRI Knowledge Sharing Platform : Speaker-centric automated video switching from multiple video channels

ETRI-Knowledge Sharing Plaform

기술이전 검색
Year	~	Transaction Count		Keyword

■ 방송미디어 제작 환경은 클라우드/IP를 통한 원격 협업 기술을 거쳐 AI기반의 자동화된 제작 워크플로우 기술로 발전하고 있음
■ 본 기술은 다수의 출연자가 참여하는 대담/회의 방송 제작에서 AI 영상 알고리즘을 적용하여 다채널 입력된 프리뷰(Preview, PRV) 영상으로부터 프로그램(Program, PGM) 영상 선택을 자동화하는 기능을 수행함

■ 일반적으로 비디오 스위처는 다수의 예비영상(PRV)들과 송출영상(PGM)을 실시간으로 전환하여 시청자에게 다양한 제작 영상들을 시청할 수 있도록 하며, 이때 프로그램 제작자(PD)는 Take 또는 Cut(테이크 혹은 컷) 명령을 통해 수작업으로 영상 전환을 제공하고 있음
■ 최근 컴퓨팅 성능 향상과 인공지능 기술 등의 발전으로 제작자의 개입을 최소화한 AI 기반 미디어 제작 및 편집 자동화 방법이 주목 받고 있으며, 제작자는 영상 제작을 효과적으로 수행할 수 있을 것으로 예상됨

■ 상기 기술한 문제들을 해결하기 위해,
● 화자 중심의 PGM 영상을 자동으로 실시간 출력하기 위해서는 입력된 각 영상 채널의 비디오 프레임으로부터 얼굴의 3차원 좌표 생성과 입술 관심영역(LROI) 검출 동작을 수행하고,
● 각 영상 채널로부터 비디오 프레임 단위로 분석하여 화자 구간의 발화 여부를 확률값으로 산출하고,
● 각 영상 채널에 대해 일정 영상 구간(shot)에서 화자 발화 구간 확률값과 스위칭 시간 간격(switching interval) 설정값에 기반하여 후보 샷(candidate shots)들로부터 최종 샷들을 구성하여 PGM 영상으로 생성할 수 있어야 함

■ 영상 속 화자 검출부(Speaker Detection Model): 데이터셋(Dataset) 기반 심층 학습을 통하여 화자가 포함된 Preview (PRV) 영상으로부터 누가 말하는지 판별(발화 유/무)하여 확률값 생성
● 다채널 HD급 영상 동기화 처리 기능
● 딥러닝 기반의 화자 구간 검출 기능
■ 제작자 결정 처리부(PD-Like Decision Rule): 실제 제작자(PD)가 제작한 PGM 영상 품질과 유사한 PGM 영상 도출을 목표로 편집 중요도(비디오 스위칭 민감도, 화자 확률값) 설정을 통한 PGM 영상 자동 생성
● 자동편집 설정값을 통한 프로그램 영상(PGM) 생성 기능
● 샷 채널 소스 영상 식별 기능

o 기술명 : 다채널 화자중심 영상 자동 출력 기술
- 영상 채널별 장면 속 화자 검출 기술
: 다채널 HD급 영상 비디오 프레임 단위의 동기화 처리 기능
: 딥러닝 기반의 화자 구간 검출 기능
- PGM 영상 자동 생성 및 검증 기술
: 자동편집 설정값을 통한 프로그램 영상(PGM) 생성 기능
: 샷 채널 소스 영상 식별 기능
o 기술명 : 다채널 화자중심 영상 자동 출력 기술
- 다채널 화자중심 영상 자동 출력 기술 요구사항 정의서
- 다채널 화자중심 영상 자동 출력 기술 시험절차 및 결과서
- 다채널 화자중심 영상 자동 출력 기술 SW 정적분석결과서
- 다채널 화자중심 영상 자동 출력 기술 SW 소스코드

■ 방송사, 학교, 종교시설, 라이브 커머스 등 실시간 방송 제작시스템 활용
■ IP 비디오 스위처, 원격 방송 모니터링 등 관련 방송장비 산업 응용개발에 활용
■ 개인창작자 및 전문제작자(방송사 등)를 위한 클라우드 SaaS 기반 원격 협업 제작 산업 활성화 기대

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI