ETRI-Knowledge Sharing Plaform

KOREAN

BROWSE

Titles

Home Titles Articles

논문 검색
Type		SCI
Year	~	Keyword

Detail

List

Conference Paper 시각-언어 모델의 지시어 미세 조정을 통한 설명 가능한 비디오 이상 탐지 연구

Cited - time in scopus

scopus

Share

Authors: 박규백, 문진영

Issue Date: 2026-02

Citation: 영상처리 및 이해에 관한 워크샵 (IPIU) 2026, pp.1-5

Publisher: 한국방송·미디어공학회

Language: Korean

Type: Conference Paper

Abstract: 기존 설명 가능한 비디오 이상 탐지(VAD) 연구는 비훈련 방식으로 탐지 정확도와 설명품질에 한계점이 있었다. 본 연구에서는 시각-언어 모델을 이상 탐지 도메인에 특화하여 이상 점수와 자연어 설명을 동시에 생성하는 종단 간(end-to-end) 학습 프레임워크를 제안한다. InternVL3-8B 모델에 LoRA 를 적용하여 효율적으로 지시어 미세 조정(instruction-tunning)하였으며, 프레임 단위의 라벨과 클립 단위의 캡션으로 구성된 데이터셋으로 학습하였다. 이상 탐지와 설명 생성을 위한 복합 손실 함수를 설계하여 두 태스크를 동시에 최적화하였다. 실험 결과, XD-Violence 에서 91.67%의 AUC 를 달성하며 경쟁력 있는 탐지 성능을 보였고, 구체적 설명을 생성할 수 있음을 확인하였다.

KSP Keywords: End to End(E2E)

Copyright Policy Privacy Policy

ETRI

218 Gajeong-ro, Yuseong-gu, Daejeon, 34129, KOREA, Contact: sh.kim@etri.re.kr

2016 Electronics and Telecommunications Research Institute. All rights reserved.

Please refrain from automatic collection of e-mail addresses posted on this homepage.