본 기술은 자연어 질의문을 입력받아 동영상 내에서 관련 구간을 검색하고, 비디오 단위 구간인 클립별 질의문과의 관련도를 정량적으로 평가하는 인공지능(AI) 기술입니다.
○ 본 기술이전의 목적은 급증하는 동영상 콘텐츠에서 사용자가 원하는 특정 구간을 자연어로 쉽게 검색하고, 자연어 질의문과 높은 관련성을 가진 하이라이트를 자동으로 추출하는 시스템 개발하는데 있음.
최근 유튜브, 넷플릭스 등 대규모 동영상 플랫폼의 성장과 함께 효율적인 동영상 검색 및 요약 기술의 필요성이 급증하고 있으나, 기존 키워드 기반 검색은 표현력 제약과 문맥 이해의 한계로 인해 자연어 기반 정밀 검색 기술이 요구됨
본 기술은 단순 검색을 넘어 단위 구간인 클립별 관련도 점수를 제공함으로써, 동영상 하이라이트 생성, 요약, 편집 등 다양한 응용에 활용이 가능함
- 반전 토큰 증강을 통해 원본 토큰과 반전 토큰을 함께 사용하여
관련 없는 클립에 대한 노이즈를 억제하고 정확한 비디오-텍스트 정렬을 달성
- 다중 스케일 시간적 모델링으로 다양한 시간적 해상도에서 특징을 추출하여
짧은 순간부터 긴 구간까지 효과적으로 모델링
- 질의문과의 관련도 정량화 결과 기반 앵커 초기화를 통해 구간 검출 정확도를 향상
- 구간 검출과 하이라이트 검출을 동시에 학습하는 통합 학습 프레임워크로 상호 보완적 성능 향상을 달성
- 경량 구조로 구현되어 실시간 처리가 가능
- 학습이 용이한 구조로, 추가 학습을 통해 다양한 도메인에 적용이 가능
○ 자연어 기반 동영상 구간 검색 및 관련도 정량화 AI 기술
- 특허 (실시권)
- 관련 소스 코드 및 학습된 모델
- 요구사항 정의서
- 시험 절차서 및 결과서
- 사용자 매뉴얼
○ 자연어 기반 동영상 구간 검색 및 관련도 정량화 기술을 포함하는 기본 프로그램에, 사업화 시나리오에 따라 도메인 특화 학습, UI/UX 개발 등 추가 개발을 수행하면, 다음과 같은 서비스 구현이 가능함
- 동영상 플랫폼 서비스: YouTube, Netflix 등에서 사용자가 원하는 특정 장면을 자연어로 검색하고 검색과 관련된 하이라이트를 자동 생성
- 영상 편집 도구: 방송국, 콘텐츠 제작사에서 긴 영상에서 필요한 구간을 신속하게 찾아 편집하는 워크플로우 개선
- 교육 콘텐츠 플랫폼: 강의 영상에서 특정 주제나 개념이 설명되는 구간을 정확히 검색해 학습 효율성 향상
- 보안/감시 시스템: CCTV 영상에서 특정 상황이나 행동을 자연어로 검색해 신속히 상황을 파악하고 적절한 대응
- 스포츠 분석 시스템: 경기 영상에서 특정 플레이나 선수의 활약상을 자연어로 검색하고 하이라이트를 자동 생성