ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Video Scene Segmentation based on AI

Manager
Kim Sun-Joong
Participants
Kwak Chang Uk, Kim Sang Kwon, Kim Sun-Joong, Park Jong-Hyun, Jeongwoo Son, Hyun-Woo Lee, Lee Alex, Lee Alex, Choi Yeon Jun, Han Min-Ho, Hahm Gyeong-June, Hahm Gyeong-June
Transaction Count
2
Year
2018
Project Code
18ZH1300, Development of programmable interactive media creation service platform based on open scenario, Park Jong-Hyun
- 본 기술은 영상 콘텐츠를 대상으로 인공지능 기술을 기반으로 장면을 생성하는 기술임. 먼저, 색상 히스토그램의 변화를 기반으로 샷을 분할하고, 분할된 샷의 영상/음성/텍스트 및 딥러닝 기술을 이용하여 행위, 샷 카테고리 특징을 추출한 후, 이를 학습된 딥러닝 기반 장면 분할 모델에 전달하여 장면을 분할함.

- 본 기술은 장면의 경계지점이 태깅된 영상 콘텐츠 데이터를 입력으로 세 개의 convolution 레이어로 이루어진 관계 정보 추출 네트워크와 bidirectional RNN으로 구성된 샷 및 행위 정보 추출 네트워크, 이들을 결합하는 2개의 dense network로 이루어진 단일 딥러닝 네트워크의 앙상블로 구성된 모델을 보유하고 있는 300여편의 영상 데이터로 학습한 장면 분할 모델을 포함함.

- 본 기술은 영상 콘텐츠를 입력으로 색상 히스토그램을 추출하고, 추출된 히스토그램의 유사도를 계산한 후, 계산된 유사도의 변화율을 기반으로 샷의 경계를 추출하고, 해당 샷의 LBP, HS 히스토그램, gray intensity 등의 영상 특징과, 오디오 시그널의 스펙트럼으로 구성되는 음성 특징, 샷 카테고리 및 행위 정보를 추출하여 구축하는 시퀀스 특징을 추출하는 기술을 포함함.

- 본 기술은 새로운 영상 콘텐츠에 대해 샷을 분할하고, 특징을 추출한 후, 모델에 적용하여 장면을 생성하는 기술을 포함함.

- 본 기술은 새로운 영상 콘텐츠를 입력받아 분할 한 후, 이를 서버에 저장하는 서버 및 웹 기반 클라이언트 기술을 포함함.
- 최근 영화, 방송 콘텐츠 등 좋은 품질의 콘텐츠가 대량 생산되고 있고, 이를 사용하여 신규 응용 서비스를 개발함으로써, 신규 수익을 창출하려는 다방면의 시도가 계속되고 있음.

- 이를 위해, 휴대용 기기 등에서 재생할 수 있는 짧은 길이의 영상 생성에 대한 요구가 높아지고 있음. 현재까지 대부분의 클립 서비스는 사람에 의해 수동으로 분할된 영상 클립을 이용하고 있으며, 이에 소요되는 비용이 큰 상황임. 따라서 더 많은 콘텐츠를 기반으로 다양한 서비스 개발을 위한 자동화된 도구 개발이 시급함.

- 자동화된 도구를 통한 장면 분할을 위해서는 콘텐츠를 최소 의미 단위인 샷으로 분할하고, 이를 결합하여 장면을 생성하는 기술이 요구됨. 다양한 영상 콘텐츠의 장르, 촬영 기법 등을 고려하면, 분할 규칙과 같은 경험적인 방법의 한계가 뚜렷하며, 이를 해소하기 위해서는 데이터로부터 장면 경계를 자동으로 학습하여 새로운 영상을 자동 분할 할 수 있는 기술 개발이 필요함.
- 본 기술은 영상 콘텐츠의 최소 의미 단위인 샷을 자동 분할 하기 위해, 샷의 색상 정보를 비교하여 유사도를 계산하고, 얻어진 유사도의 변화를 통해 유의미한 샷을 분할하고 있음. 이를 통해 하드컷뿐만 아니라, 페이드인/페이드아웃 등 점진적으로 변화하는 샷들 사이의 경계에 대한 우수한 분할 성능을 제공함.

- 본 기술은 추출된 샷에 나타나는 다양한 형태의 특징 정보에 대한 자동 추출을 지원하며, 특징 추출의 경우 영상 특징의 경우, LBP, 색상 히스토그램, 음영, 전배경 특성, 모션이 있으며, 음성의 경우 주파수별 에너지 히스토그램을 추출하며, 샷의 정적 특징으로 샷 카테고리 (9가지) 및 행위(50개 클래스)를 인식하여 특징 벡터를 구성하는 기능을 제공함.

- 본 기술은 영상의 다양한 특징을 기반으로 장면 분할을 하기 위한 새로운 구조의 딥러닝 모델을 포함하고 있으며, 대량의 태깅된 영상 콘텐츠를 학습한 모델을 제공함.

- 본 기술은 구축된 딥러닝 모델을 기반으로 새로운 영상 콘텐츠의 장면을 분할하는 기능을 제공함. 상기 기능을 통해 도출된 모든 정보는 JSON 포맷으로 저장되어 이후, 다른 어플리케이션과의 연동성을 높임.

- 본 기술은 상기 기능의 효과적인 활용을 위한 서버/클라이언트 모델을 포함하고 있으며, 웹을 통한 다중 클라이언트 접속을 통해 다수의 영상 콘텐츠를 동시에 처리할 수 있도록 개발함.
가. 기술이전의 내용
- 영상 콘텐츠의 샷 분할 및 특징 추출 기능
- 샷 단위 카테고리 및 행위 추출 기술
- 대용량 데이터를 기반으로 학습된 장면 분할 딥러닝 모델을 이용한 장면 분할 기능
- 웹 기반의 영상 콘텐츠 장면 분할 관리 기능

나. 기술이전의 범위
- 인공지능 기반 장면 분할 기술 시스템 요구사항 정의서 1종
- 인공지능 기반 장면 분할 기술 상세설계서 1종
- 인공지능 기반 장면 분할 기술 시험 절차 및 결과서 1종
- 인공지능 기반 장면 분할 기술 프로그램 3종
. 영상 콘텐츠의 자동 샷 분할 및 특징 추출기
. 인공 지능 기반 영상 콘텐츠 장면 자동 분할기
. 장면 분할 웹 인터페이스
- 본 기술은 모든 영상 콘텐츠의 분할에 적용가능하기에, 방송 및 영화 콘텐츠 기반의 미디어 커머스, 클립 서비스, 콘텐츠 검색 및 추천, 교육용 콘텐츠 생성 등 미디어 서비스 분야뿐만 아니라, CCTV 영상 저장 및 요약을 위한 분할 등 보안 서비스에도 적용이 가능함.

- 본 기술의 주요 수요처는 콘텐츠 사업자, 플랫폼 사업자 등 소수의 대기업과 다수의 중소기업들로 구성되어 일정 수준의 수요처 확보가 가능할 것으로 판단됨