ETRI Knowledge Sharing Platform : Video Text Understanding Using Vision-Language Model Competency

기술이전 검색
Year	~	Transaction Count		Keyword

본 기술이전은 시각 언어 인공지능 모델의 역량을 활용하여 영상 내 텍스트를 자동으로 탐지하고 해석하는 기술을 제공한다. 시각 언어 기반 기계학습으로 사전 학습된 딥러닝 모델을 사용자가 탐지하고자 하는 객체에 맞게 전이 학습하며, 정의된 객체 내 텍스트가 포함된 영역을 자동으로 탐지한다. 이후, 검출된 문자 정보를 시각 언어 인공지능 모델을 통해 보정하여 인식정확도를 향상시킨다. 또한, 사용자 정의 객체가 비디오에 존재할 때 이를 효율적으로 활용할 수 있도록 문자 영역을 포함할 가능성이 높은 객체 클래스의 탐지 및 추적 기술을 포함한다. 본 기술은 스마트 시티, 보안 감시, 디지털 마케팅 등 다양한 산업 분야에서 활용될 수 있다. 예를 들어, 영상 내 상표나 광고 내용을 자동으로 감지해 마케팅 전략에 활용하거나, 불법 광고물 및 유해 콘텐츠를 모니터링하여 사회적 문제 해결에 기여할 수 있다. 또한, 텍스트 분석을 통한 통계 데이터 활용으로 비즈니스 인사이트를 도출하는 데에도 활용될 수 있다.

. 시각 언어 인공지능 모델을 활용한 영상 텍스트 이해 기술은 이미지와 영상 내에 포함된 텍스트 정보를 자동으로 추출하고 해석하기 위한 핵심 기술로서, 다양한 산업 분야에서 필수적인 요소 기술임
. 기존의 영상 분석 기술로는 해결하기 어려운 다양한 언어, 복잡한 배경, 열화된 이미지 등의 문제를 시각 언어 인공지능의 역량을 통해 효과적으로 극복할 수 있음
. 본 기술은 딥러닝 기반의 시각 언어 모델을 활용하여 정확도 높은 텍스트 검출 및 인식을 가능하게 하며, 사용자 정의 객체 탐지 및 추적 기술과 결합하여 다양한 응용 분야에 적용할 수 있음
. 이 기술을 통해 스마트 시티, 보안 감시, 디지털 마케팅 등에서 영상 내 텍스트 정보를 활용한 새로운 서비스와 비즈니스 모델을 창출할 수 있음

- 세부기술 1: 시각 언어 인공지능 모델 역량 기반 문자 검출 및 인식 기술
. 시각 언어 인공지능 모델의 역량을 활용하여 영상에서 텍스트 정보를 자동으로 정교하게 탐지하고 해석하는 기술
. 영상 내 문자 후보 영역의 존재 여부 판단 및 위치 조정을 통한 딥러닝 네트워크를 포함하여 정교한 텍스트 영역을 획득
. 실세계 환경에서 획득된 열화된 영상에서 텍스트를 정확하게 분석하기 위해 트랜스포머 디코더 기반의 추론 기술을 적용
. 시각 언어 인공지능 모델을 활용한 언어적 맥락 정보 통합으로 텍스트 인식의 정확도와 분별력을 향상

- 세부기술 2: 시각 언어 탐지 모델 기반 사용자 정의 객체 탐지 및 추적 기술
. 시각-언어 탐지 모델 지식을 활용하고 사용자가 수집한 데이터를 기반으로 전이 학습을 통해 모델을 적응시켜 사용자가 정의한 객체를 탐지하고 추적하는 기술
. 프롬프트 언어 입력을 통한 시각 언어 모델의 초기 지식을 활용하여 사용자 커스텀 데이터 기반 사용자 정의 객체 탐지를 위한 전이 학습 가능
. 외형 매칭(appearance matching)을 통한 객체 추적 기술을 사용하여 동영상과 같이 시간적으로 연속된 프레임에서 동일 객체에 대해 동일한 ID를 추론함으로써 효과적인 문자 검출 및 인식이 가능

본 기술은 시각 언어 인공지능 모델 역량을 활용하여 영상에서 자동으로 텍스트를 이해하기 위한 SW 및 관련 기술로 영상 내 문자 검출 및 문자 인식 모델의 프로그램 소스 코드, 그리고 기 학습된 모델을 포함하여 기술을 이전함 (세부기술 2는 세부기술 1의 종속적인 기술로서, 단독으로 이전이 불가능하며 세부기술 1과 함께 이전 가능)

- 세부기술 1: 시각 언어 인공지능 모델 역량 기반 문자 검출 및 인식 기술
. 바운딩 박스 프로포절을 통해 초기 텍스트 후보 영역을 추출
. 트랜스포머 아키텍처와 시각-언어 인공지능 모델을 결합한 문자 인식 기술
. 각 문자 영역에 대해서 한국어, 영어, 숫자에 해당하는 문자 인식 결과와 신뢰도를 출력

- 세부기술 2: 시각 언어 탐지 모델 기반 사용자 정의 객체 탐지 및 추적 기술
. 사용자가 수집하고 정의한 객체 탐지를 위해 시각-언어 모델의 개선학습 기술을 적용하여 영상 내 복수 개의 해당 객체를 바운딩 박스 형태로 출력
. 시간적으로 연속된 영상 프레임이 주어진 경우, 현시점에 검출된 해당 객체가 다음 이미지에서 동일한 경우 동일한 ID를 부여하는 추적 결과 출력
시각 언어 기계학습 모델 역량을 활용한 영상 텍스트 이해 기술은 영상 내 문자 검출및 인식 기술, 사용자 정의 객체 탐지 및 추적 기술의 추론 코드, 기 학습 모델, 그리고 use case를 포함하여 기술 이전함

o 각 세부 기술별 공통(제공) 부문:
- 관련 소스 코드 및 프로그램
- 학습된 모델
- 기술문서
- 특허 실시권

- 본 기술은 시각 언어 인공지능 모델의 역량을 활용하여 영상에서 텍스트를 자동으로 탐지하고 인식하는 문자 검출 및 인식 기술을 제공할 뿐만 아니라 사용자 정의 객체 탐지와 추적을 위한 기반 기술을 제공함으로써, 기업의 사업화 시나리오에 맞추어 추가적인 학습데이터와 모델 학습(예: 다중 언어 학습, 기호를 포함한 학습 등)을 통해 편리하게 활용이 가능함

- 본 기술을 활용하면 영상에서 텍스트를 분석하여 민감한 정보를 자동으로 식별하고 비식별화 처리할 수 있음. 또한, 텍스트 분석을 통해 광고물의 분류, 효과 측정, 마케팅 전략 수립 등에 활용되어 디지털 마케팅 분야에 효과적일 것으로 기대

1. 실세계 환경의 영상에서 정형/비정형 문자 검출과 인식을 위한 기반 기술로 활용 가능
2. 광고물 자동 분류, 통계 분석, 불법/유해 콘텐츠 차단 기술로 활용 가능
3. 사용자 정의 객체 인식 기술과 결합하여 멀티미디어 지식 정보 서비스로 활용 가능
4. 스마트시티, 보안 감시, 디지털 마케팅 등 다양한 산업 분야에 활용 가능

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI