ETRI-Knowledge Sharing Plaform

KOREAN
논문 검색
Type SCI
Year ~ Keyword

Detail

Journal Article 온프레미스 VLM 기반 자율주행 데이터 자동 캡셔닝을 위한 프롬프트 설계 및 품질 분석
Cited - time in scopus Share share facebook twitter linkedin kakaostory
Authors
임소정, 김주완, 이정우, 최정단
Issue Date
2026-04
Citation
한국ITS학회 논문지, v.25, no.2, pp.179-192
ISSN
1738-0774
Publisher
한국ITS학회
Language
Korean
Type
Journal Article
DOI
https://dx.doi.org/10.12815/kits.2026.25.2.179
Abstract
AI 기반 자율주행 기술의 발전으로 대규모 주행 데이터 수집이 가속화됨에 따라 방대한 학습 데이터를 효율적으로 관리하기 위한 데이터 큐레이션 기술의 중요성이 커지고 있다. 특히수작업 캡셔닝은 비용이 높고 일관성이 낮아 AI 기반 자동화 요구가 커지고 있으나, 데이터보안과 비용 문제로 클라우드 API보다 온프레미스(On-premises) 환경에서 실행 가능한 VLM (Vision-Language Model) 활용이 대안으로 주목받고 있다. 본 연구에서는 온프레미스 VLM 환경에서 주행 데이터에 대한 고품질의 자동 캡셔닝을 위해 4단계 프롬프트 전략을 설계하였으며, GPT-5.2, GPT-4o, InternVL2.5-8B에 적용하여 성능을 검증하였다. 각 모델에서 생성된 캡션을 텍스트 유사도, 임베딩 유사도, LLM-as-a-Judge의 세 가지 지표로 분석한 결과 본 연구에서제안하는 프롬프트가 온프레미스 VLM 기반 캡셔닝 실무에 활용 가능한 수준의 성능을 확보했음을 확인하였다. 본 연구의 결과는 방대한 주행 데이터에 대해 저비용의 자동 메타정보 생성에 활용할 수 있으며, 효율적인 데이터 관리 등 학습 데이터 큐레이션 체계 구축에 기여할것으로 기대된다.
Keyword
자율주행 데이터, 이미지 캡셔닝, 시각 언어 모델, 프롬프트 설계
KSP Keywords
language models