본 기술은 딥러닝 기반의 시각 언어 인공지능 기술을 활용하여 영상 내에서 현수막의 위치를 탐지하고 현수막의 내용을 이해하기 위한 SW 관련 기술로, 실환경의 현수막 이미지를 활용하여 레이블링한 현수막 탐지 및 내용 인식을 위한 학습데이터뿐만 아니라 이를 이용하여 개발된 현수막 탐지, 현수막 문자 검출 및 인식, 현수막 분류 모델의 학습 및 추론 코드와 학습된 모델 파라미터를 포함하여 기술을 이전함
- 현수막 영역 검출 및 분할 기술
. 시각 언어 탐지 모델의 역량을 현수막 탐지 도메인에 특화하여 실환경 CCTV 영상 속 복수의 현수막을 탐지하고 각각의 현수막에 대해서 위치 정보(bounding box)를 추출하며, 개별 현수막 위치 정보와 영역 분할 및 평면화 결과 출력
- 현수막 영역 내 문자 검출 기술
. 현수막 내 문자 후보 영역의 존재 여부 판단 및 현수막 내 다양한 형태의 문자 영역을 검출하기 위한 바운딩 박스 프로포절 추출 및 정교한 문자 영역을 추출하기 위한 폴리곤 생성 및 위치 조정을 통해 문자 영역 좌표와 신뢰도 출력
- 현수막 문자 인식 기술
. 시각 특징 분별력과 문자 인식 정확도 향상을 위해 비전 트랜스포머 디코더 기반 추론과 시각 언어 컨텍스트 정보를 연계한 문자 인식 기술을 적용하여 개선된 문자 인식 결과와 신뢰도 출력
- 현수막 유형 분류 기술
. 현수막의 문자 인식된 내용을 정제하고 거대 언어 모델을 활용하여 정당/공공/민간 현수막의 유형 분류 결과 및 신뢰도 출력
- 현수막 탐지 및 내용 인식용 학습데이터
. 25,000개 이상의 실환경 현수막 이미지를 이용하여 레이블링한 현수막 탐지 및 내용 인식용 학습데이터로 현수막 이미지와 텍스트 데이터 쌍으로 구성됨
시각 언어 모델을 활용한 AI 기반 불법 현수막 탐지 기술은 실환경 CCTV 영상 속 현수막 위치를 파악하고 현수막의 내용을 인식하여 분류하는 기술로서, 시각 언어 모델을 기반으로 복수의 현수막을 찾아 개별 현수막의 내용을 인식하고 분류하는 학습 및 추론 코드, 실환경의 현수막 이미지를 활용하여 레이블링한 현수막 탐지 및 내용 인식용 학습데이터, 이를 활용하여 학습된 기학습 모델을 포함하여 기술을 이전함
- 관련 소스 코드 및 바이너리 프로그램
- 학습된 모델
- 학습데이터
- 기술문서
- 특허실시권
- 특허
. 인공지능 기반 야외 광고 이미지 탐지 및 분석 장치
. 객체 탐지용 대규모 사전 학습 인공지능 모델을 구비한 컴퓨팅 장치, 객체 탐지 방법 및 태스크 특화 변형 네트워크의 학습 방법
. 태스크 적응형 시각 전문가 라우팅 방법 및 장치
- 기술문서
. 최신 딥러닝 프레임워크
. 이종 혼합인코더를 통한 멀티모달 대형 언어모델 분석 기술 조사
. 영상-언어 결합 기반 탐지 모델의 역량 개선 학습 연구 실험
. 최신 Foundation Model과 활용
. Vision-Language Model의 한국어 인식 역량 향상을 위한 데이터 기반 개선 학습
. 공개 Vision-Language Model의 이미지 내 한국어 텍스트 이해 성능에 대한 정성적 분석
. 저차원 전문가 융합 기반 멀티 태스크 조밀 예측
. 모바 멀티모달 컨텍스트를 위한 비전 인코더 융합 기술 조사
. 멀티 태스크 학습을 위한 데이터셋 및 학습 방법 분석 기술 조사
. 최신 Multimodal Foundation 모델과 활용 연구
. 시각-언어 모델의 한국어 장면 텍스트 이해 역량 평가
- 프로그램
. 사용자 지정 객체 분할을 위한 분할 모델의 역량 전환 학습 프로그램
. 시각 언어 모델 기반 현수막 탐지 프로그램
. 시각 전문가 라우팅 기반 다중 태스크 조밀 예측 프로그램
. 시각-언어모델의 장면 내 한국어 인식 역량 측정 프로그램