ETRI Knowledge Sharing Platform : Temporal Moment Localization with a Sentence Query

기술이전 검색
Year	~	Transaction Count		Keyword

본 기술 이전은 딥러닝 기술을 활용하여 비디오의 맥락 정보를 추출하고 이해하기 위한 기술로 자연어 질의문과 비디오를 입력으로 비디오에서 질의문에 부합하는 시간 구간인 의미 구간을 탐지하는 기술

비디오 의미 구간 탐지 기술은 사용자에 의해 기술된 질의문을 바탕으로 해당 질의문에 가장 잘 부합하는 비디오의 시간 구간을 찾는 기술로 무편집 비디오 분석, 이벤트 단위 비디오 분류, 이상 이벤트 탐지 등 다양한 비디오 기반 서비스에 활용될 수 있음

최근 딥러닝 기술의 발전에 따라 이러한 비디오 분석 기반 기술 선점과 다양한 서비스 도출이 논의되고 있으나 많은 비디오 기반 요소 기술과 개발 경험이 요구됨에 따라 기술 사업화에 어려움이 있는 것으로 알려져 있음

본 기술은 사용자에 의해 기술된 질의문 임베딩 기술과 질의문과 비디오의 특징을 학습하는 기술, 그리고 이러한 특징 기반 행동 구간 탐지 기술을 포함하고 있음

- 자유 기술한 질의문 기반 비디오 의미 구간 탐지
. 경쟁 기술은 대다수의 비디오에서 구간 탐지는 미리 정해진 행동 카테고리들에대해 행동 발생 구간을 반환
. 본 기술은 자유롭게 기술한 자연어 질의문에 가장 잘 부합하는 구간을 반환

- 효율적인 비디오 의미 구간 탐지
. 경쟁 기술은 대다수의 비디오 이해 기술들이 정확도만을 고려
1) RGB 외에도, 모션정보를 위한 optical flow를 별도 추출. 계산 부담이 커서 속도 저하의 주요인이 됨.
그리고 RGB와 추출한 optical flow 모두 사용하는 Two-Stream 구조로 비디오 특징을 추출하여 사용함.
2) Fine-grained 방식으로 질의문과 비디오를 통합 모델링

. 본 기술은 속도와 정확도를 모두 고려하여,
1) RGB만 사용하는 경량 행동 인식 네트워크로 비디오 특징을 추출
2) 인간의 인지 메커니즘을 모사하여,
다중 관점으로 Coarse-grained 방식으로 질의문과 비디오를 통합 모델링하여
공개 벤치마크 데이터셋에 대해서, 경량화된 모델 사이즈와 실행 속도로, 기존 SOTA에 근접하는 정확도 달성

무편집 비디오와 자연어 질의문을 입력으로 무편집 비디오에서 질의문에 가장 부합하는 구간 정보를 제공하는 비디오 의미 구간 탐지 기술
- 특허 (실시권)
- 관련 소스 코드 및 학습된 모델
- 요구사항 정의서
- 시험 절차서 및 결과서
- 사용자 매뉴얼

- 본 기술은 사용자에 의해 기술된 질의문 임베딩 기술과 질의문과 비디오의 특징을 학습 및 추출 기술, 그리고 이러한 특징 기반 행동 구간 탐지 기술을 포함하는 것으로 기본적인 use case에 대한 프로그램을 제공하고, 사업화 시나리오 및 행동 카테고리 추가에 따라 추가 모델 학습, 전달되는 모듈 기술을 바탕으로 새로운 파이프라인을 구성하는 등의 추가기술 개발이 필요함

1) 콘텐츠 분석 및 검색: 개인 단말에서 사용자 질의문 입력으로 질의에 해당하는 비디오를 자동으로 검색하거나 저장된 비디오를 자동 분류하는 시나리오로 활용 가능

2) 지능형 영상 관제 시스템 활용: 관제사에 의한 질의문 입력에 대해 질의문에 해당하는 비디오 이벤트 구간을 찾아 CCTV 내 이상 상황을 검색하는 시나리오로 활용 가능

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI