ETRI-Knowledge Sharing Plaform

KOREAN
논문 검색
Type SCI
Year ~ Keyword

Detail

Conference Paper 시각-언어 모델의 지시어 미세 조정을 통한 설명 가능한 비디오 이상 탐지 연구
Cited - time in scopus Share share facebook twitter linkedin kakaostory
Authors
박규백, 문진영
Issue Date
2026-02
Citation
영상처리 및 이해에 관한 워크샵 (IPIU) 2026, pp.1-5
Publisher
한국방송·미디어공학회
Language
Korean
Type
Conference Paper
Abstract
기존 설명 가능한 비디오 이상 탐지(VAD) 연구는 비훈련 방식으로 탐지 정확도와 설명품질에 한계점이 있었다. 본 연구에서는 시각-언어 모델을 이상 탐지 도메인에 특화하여 이상 점수와 자연어 설명을 동시에 생성하는 종단 간(end-to-end) 학습 프레임워크를 제안한다. InternVL3-8B 모델에 LoRA 를 적용하여 효율적으로 지시어 미세 조정(instruction-tunning)하였으며, 프레임 단위의 라벨과 클립 단위의 캡션으로 구성된 데이터셋으로 학습하였다. 이상 탐지와 설명 생성을 위한 복합 손실 함수를 설계하여 두 태스크를 동시에 최적화하였다. 실험 결과, XD-Violence 에서 91.67%의 AUC 를 달성하며 경쟁력 있는 탐지 성능을 보였고, 구체적 설명을 생성할 수 있음을 확인하였다.
KSP Keywords
End to End(E2E)