ETRI Knowledge Sharing Platform : AI-based Illegal Banner Detection Technology Utilizing Vision-Language Models

기술이전 검색
Year	~	Transaction Count		Keyword

본 기술이전은 딥러닝 기반의 시각 언어 인공지능 기술을 활용해 실환경 CCTV 영상 속 현수막의 위치를 파악하고 현수막의 내용을 이해하는 기술로서, 도심에 설치된 다중의 현수막 위치를 추론하고 현수막이 담고 있는 내용을 인식하여 현수막을 분류하는 기술로 구성된다. 또한, 현수막의 실제 영역을 더 정교하게 이해하기 위해 현수막 영역을 분할(segmentation)하고 왜곡을 보정하여 평면화(warping)하는 기술을 포함한다. 본 기술은 도심에서 시민의 안전을 위협하고 생활의 불편을 초래하는 불법 현수막 여부를 내용 이해를 통해서 자동으로 판단할 수 있고, 관제 영상에서 자동으로 현수막이 설치된 위치, 사건의 발생 빈도 등의 데이터 분석을 위한 유의미한 통계자료로 활용될 수 있다.

. 현수막을 탐지하고 내용을 이해하는 문자 검출 및 인식 기반 텍스트 이해 기술은 이미지 내 콘텐츠를 분석하고 다양한 비전 응용을 위해 기초가 되는 기술이나 전체 시스템을 구축하기까지 많은 요소 기술과 학습 기술이 요구됨
. 이러한 문자 검출 및 인식 기술은 이미지 기반 광고 분석, 문서 분석, 콘텐츠 비식별화, 상황 인식, 광고물 분류 등 다양한 응용 분야에 적용이 가능한 기술로 다양한 서비스를 위해 중요한 기술임
. 본 기술은 실환경에서 나타나는 다양한 문자의 형태 변화로 인해 열화된 문자 이미지를 다루기 위한 문자 영역 검출 기술과 문자 인식 정확도 향상을 위해 시각-언어 컨텍스트 정보를 이용한 고수준의 문자 인식 기술을 포함하고 있음
. 비제약 환경에서 현수막과 같은 다양한 형태의 영상 내 텍스트 이해를 위한 사용자 맞춤형 객체 탐지 및 추적 기술을 포함하고 있음

국내에서 수집된 실제 현수막 데이터를 이용해 딥러닝 모델을 학습하여 실환경 CCTV 환경에서 다양한 각도의 현수막을 탐지하고 다양한 형태의 텍스트를 효과적으로 검출 및 인식하는 기술로 주요 특징과 장점은 아래와 같음

- 현수막 영역 검출 및 분할 기술
. 시각 언어 탐지 모델의 역량을 현수막 탐지 도메인에 특화하여 실환경 CCTV 영상 속 다중의 현수막을 찾아 각각의 현수막에 대해서 위치 정보(bounding box)를 추출
. 현수막 내용 인식 성능 향상을 위한 현수막 영역 분할(segmentation) 및 평면화(warping)를 통해 왜곡을 보정하여 저장하는 기술을 포함함

- 현수막 영역 내 문자 영역 검출 기술
. 현수막 내 문자 후보 영역의 존재 여부 판단 및 현수막 내 다양한 형태의 문자 영역을 검출하기 위한 바운딩 박스 프로포절 추출
. 정교한 문자 영역을 추출하기 위한 폴리곤 생성 및 위치 조정 기술을 포함함

- 현수막 문자 인식 기술
. 실세계 환경에서 획득된 열화된 영상에서 문자를 정확하게 분석하기 위해 트랜스포머 디코더 기반의 추론 기술 적용
. 시각 언어 모델을 활용하여 시각 특징과 언어적 컨텍스트 정보 연계로 문자 인식 정확도와 시각 특징 분별력 향상 기술을 포함함

- 현수막 유형 분류 기술
. 문자 인식된 현수막의 내용을 정제하고 거대 언어 모델을 활용하여 정당/공공/민간으로 현수막을 분류하는 기술을 포함함

- 현수막 탐지 및 내용 인식용 학습데이터
. 25,000개 이상의 실환경 현수막 이미지를 이용하여 레이블링한 현수막 탐지 및 내용 인식용 학습데이터로 현수막 이미지와 현수막 내 텍스트 데이터의 쌍으로 구성됨

본 기술은 딥러닝 기반의 시각 언어 인공지능 기술을 활용하여 영상 내에서 현수막의 위치를 탐지하고 현수막의 내용을 이해하기 위한 SW 관련 기술로, 실환경의 현수막 이미지를 활용하여 레이블링한 현수막 탐지 및 내용 인식을 위한 학습데이터뿐만 아니라 이를 이용하여 개발된 현수막 탐지, 현수막 문자 검출 및 인식, 현수막 분류 모델의 학습 및 추론 코드와 학습된 모델 파라미터를 포함하여 기술을 이전함

- 현수막 영역 검출 및 분할 기술
. 시각 언어 탐지 모델의 역량을 현수막 탐지 도메인에 특화하여 실환경 CCTV 영상 속 복수의 현수막을 탐지하고 각각의 현수막에 대해서 위치 정보(bounding box)를 추출하며, 개별 현수막 위치 정보와 영역 분할 및 평면화 결과 출력

- 현수막 영역 내 문자 검출 기술
. 현수막 내 문자 후보 영역의 존재 여부 판단 및 현수막 내 다양한 형태의 문자 영역을 검출하기 위한 바운딩 박스 프로포절 추출 및 정교한 문자 영역을 추출하기 위한 폴리곤 생성 및 위치 조정을 통해 문자 영역 좌표와 신뢰도 출력

- 현수막 문자 인식 기술
. 시각 특징 분별력과 문자 인식 정확도 향상을 위해 비전 트랜스포머 디코더 기반 추론과 시각 언어 컨텍스트 정보를 연계한 문자 인식 기술을 적용하여 개선된 문자 인식 결과와 신뢰도 출력

- 현수막 유형 분류 기술
. 현수막의 문자 인식된 내용을 정제하고 거대 언어 모델을 활용하여 정당/공공/민간 현수막의 유형 분류 결과 및 신뢰도 출력

- 현수막 탐지 및 내용 인식용 학습데이터
. 25,000개 이상의 실환경 현수막 이미지를 이용하여 레이블링한 현수막 탐지 및 내용 인식용 학습데이터로 현수막 이미지와 텍스트 데이터 쌍으로 구성됨
시각 언어 모델을 활용한 AI 기반 불법 현수막 탐지 기술은 실환경 CCTV 영상 속 현수막 위치를 파악하고 현수막의 내용을 인식하여 분류하는 기술로서, 시각 언어 모델을 기반으로 복수의 현수막을 찾아 개별 현수막의 내용을 인식하고 분류하는 학습 및 추론 코드, 실환경의 현수막 이미지를 활용하여 레이블링한 현수막 탐지 및 내용 인식용 학습데이터, 이를 활용하여 학습된 기학습 모델을 포함하여 기술을 이전함
- 관련 소스 코드 및 바이너리 프로그램
- 학습된 모델
- 학습데이터
- 기술문서
- 특허실시권
- 특허
. 인공지능 기반 야외 광고 이미지 탐지 및 분석 장치
. 객체 탐지용 대규모 사전 학습 인공지능 모델을 구비한 컴퓨팅 장치, 객체 탐지 방법 및 태스크 특화 변형 네트워크의 학습 방법
. 태스크 적응형 시각 전문가 라우팅 방법 및 장치
- 기술문서
. 최신 딥러닝 프레임워크
. 이종 혼합인코더를 통한 멀티모달 대형 언어모델 분석 기술 조사
. 영상-언어 결합 기반 탐지 모델의 역량 개선 학습 연구 실험
. 최신 Foundation Model과 활용
. Vision-Language Model의 한국어 인식 역량 향상을 위한 데이터 기반 개선 학습
. 공개 Vision-Language Model의 이미지 내 한국어 텍스트 이해 성능에 대한 정성적 분석
. 저차원 전문가 융합 기반 멀티 태스크 조밀 예측
. 모바 멀티모달 컨텍스트를 위한 비전 인코더 융합 기술 조사
. 멀티 태스크 학습을 위한 데이터셋 및 학습 방법 분석 기술 조사
. 최신 Multimodal Foundation 모델과 활용 연구
. 시각-언어 모델의 한국어 장면 텍스트 이해 역량 평가
- 프로그램
. 사용자 지정 객체 분할을 위한 분할 모델의 역량 전환 학습 프로그램
. 시각 언어 모델 기반 현수막 탐지 프로그램
. 시각 전문가 라우팅 기반 다중 태스크 조밀 예측 프로그램
. 시각-언어모델의 장면 내 한국어 인식 역량 측정 프로그램

. 본 기술은 현수막의 내용을 인지하여 기신고된 현수막 여부 및 정당, 공공, 민간 현수막을 데이터베이스와 비교 등을 통해 판단이 가능하고, 불법적으로 설치된 현수막을 자동으로 신고 및 대응할 수 있는 시스템으로 활용이 가능함
. 본 기술을 활용하여 얻은 정보를 가공하면, 현수막이 불법으로 설치되는 위치에 관한 정보, 불법 현수막의 내용 등에 대한 통계 정보를 얻어 공공 정책 및 의사결정을 위한 근거 자료로 활용할 수 있음

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI