ETRI Knowledge Sharing Platform : AI technology for Video Retrieval with Natural Language

기술이전 검색
Year	~	Transaction Count		Keyword

본 기술은 딥러닝 기술을 기반으로 자연어 질의문을 통해 동영상 데이터베이스에서 관련된 동영상을 검색하는 자연어 기반의 동영상 검색 인공지능 기술임

1. 자유 기술한 질의문 기반 동영상 검색
1.1. 기존의 사전에 정의된 고정된 분류 클래스들을 기반으로 동영상을 검색하는 기술은 동영상에서 추출된 메타데이터를 필요로 하고, 검색을 위하여 제한된 단어 집합만을 사용 가능함.
1.2. 기존의 문장 기반 검색 기술은 자막 등에 해당하는 스크립트를 통해 검색하여, 시각적인 정보 활용이 제한되며, 스크립트의 수집과 Speech-to-text를 통한 트랜스크립트 확보 등을 통한 변환을 필요로 함.
1.3. 본 기술은 자유롭게 기술한 자연어 질의문이 묘사하는 상황과 유사한 시각 정보를 가지는 동영상을 검색하는 기술로, 그 분류가 제한되지 않고, 동영상의 스크립트 수집 과정이 불필요함.
2. 효율적인 특징 융합 방법
2.1. 경쟁 기술들은 크게 두 가지의 융합 방법을 사용
2.1.1. 시각 특징과 언어 특징을 동시에 self-attention에 입력하여, 높은 성능을 얻을 수 있지만, 그 계산량이 크게 증가하여 검색 속도 저하
2.1.2. 시각 특징을 언어 특징에 전달하는 cross-attention을 사용하여, 검색 속도를 향상시킬 수 있지만 1) 대비 성능 저하
2.2. 본 기술은 속도와 정확도를 모두 고려하여 양방향 특징 융합 방법을 사용
2.2.1. 언어 특징을 cross-attention을 사용하여 시각 특징에 융합 후,
2.2.2. 시각 특징을 cross-attention을 사용하여 언어 특징에 융합→ 동시에 self-attention에 입력하는 융합 방법 대비 빠른 검색 속도와 더 높은 검색 정확도 달성

- 자유 기술한 질의문 기반 동영상 검색
. 기존의 사전에 정의된 고정된 분류 클래스들을 기반으로 동영상을 검색하는 기술은 동영상에서 추출된 메타데이터를 필요로 하고, 검색을 위하여 제한된 단어 집합만을 사용 가능함.
. 기존의 문장 기반 검색 기술은 자막 등에 해당하는 스크립트를 통해 검색하여, 시각적인 정보 활용이 제한되며, 스크립트의 수집과 Speech-to-text를 통한 트랜스크립트 확보 등을 통한 변환을 필요로 함.
. 본 기술은 자유롭게 기술한 자연어 질의문이 묘사하는 상황과 유사한 시각 정보를 가지는 동영상을 검색하는 기술로, 그 분류가 제한되지 않고, 동영상의 스크립트 수집 과정이 불필요함.
- 효율적인 특징 융합 방법
. 경쟁 기술들은 크게 두 가지의 융합 방법을 사용
: 시각 특징과 언어 특징을 동시에 self-attention에 입력하여, 높은 성능을 얻을 수 있지만, 그 계산량이 크게 증가하여 검색 속도 저하
: 시각 특징을 언어 특징에 전달하는 cross-attention을 사용하여, 검색 속도를 향상시킬 수 있지만, 이전 기술대비 성능 저하
. 본 기술은 속도와 정확도를 모두 고려하여 양방향 특징 융합 방법을 사용

자연어 질의문을 입력으로 하여 동영상 데이터베이스에서 질의문이 묘사하는 상황과 가장 유사한 동영상을 제공하는 인공지능 기술
- 관련 소스 코드 및 학습된 모델
- 요구사항 정의서
- 시험 절차서 및 결과서
- 사용자 매뉴얼

1) 컨텐츠 분석 및 검색: 방송 컨텐츠, 동영상 플랫폼, CCTV 영상, 뉴스 클립 등의 데이터베이스에서 사용자의 질의문에 따라 관련된 동영상이나 클립을 신속하게 검색하기 위해 활용 가능
2) 동영상 사전 분류 작업 및 메타데이터 추출 최소화: 데이터베이스 내의 동영상을 검색하기 위해 필요한 사전 분류, 메타데이터 추출 등의 전처리 작업을 최소하 할 수 있음

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI