ETRI Knowledge Sharing Platform : Vision-Language Model Technology for Safe Response Generation

기술이전 검색
Year	~	Transaction Count		Keyword

최근 인공지능 기술의 발전에 따라, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 시각-언어 모델(Vision-LanguageModel, VLM)이 활발히 개발되고 있다. 대표적인 예로는LLaVA, Qwen-VL, Gemma-IT 등과 같은 모델들이 있으며, 이러한 시스템들은 시각적 맥락을 기반으로 한 질의응답, 이미지 설명, 대화형 응용 등에 폭넓게 활용되고 있다. 그러나 VLM은 그 복합적인 입력 구조로 인해 안전성(Safety) 측면에서 새로운 문제를 야기하고 있다. 특히, 공격자는 이미지 또는 텍스트 중 하나의 모달리티에 악의적 내용을 삽입하거나,두 모달리티 간 상호작용을 악용하여 우회 공격(jailbreak)을 수행할 수 있다. 이러한 공격은 겉보기에는 정상적인 입력처럼 보이지만, 모델이 부적절하거나 유해한 응답을 생성하도록 유도하는 사례를 빈번히 발생시킨다. 이러한 한계점을 극복하기 위해, 본 기술은 시각-언어 모델 내에 시각 보호 모듈(Visual Guard Module, VGM)을 직접 통합함으로써, 이미지의 유해성을 인식하고 동시에 안전한 응답을 생성할 수 있는 새로운 모델을 제안하였다. 이 모델은 AI 모델 내부에 유해성 분류기 20여 종을 통합해 이미지·텍스트 입력에 대해 ▲불법 활동 ▲폭력 ▲혐오 ▲사생활 침해 ▲성적 콘텐츠 ▲자해 위험 ▲전문조언(의료·법률 등) 등 주요 7개 분야의 위험성을 자동 탐지하고, 안전한 응답과 판단 근거를 함께 제시할 수 있다. HoliSafe 기반 정량 실험 결과로는 안전성 정량 평가에서 Safe LLaVA 93%·Safe Qwen 97%의 안전 응답률을 보여줬다. 이로써 ETRI의 기술이 기존 공개모델 대비 최대 10배 이상 안전성 향상을 달성한 것으로 나타났다.

① 생성형 AI 확산에 따른 안전성 내재화 기술의 시급한 필요성
최근 생성형 AI는 이미지·텍스트·멀티모달 기반으로 빠르게 확산되며, 공공·산업·의료·교육·콘텐츠 등 다양한 영역에서 활용되고 있다. 그러나 기존 생성형 AI 모델은 유해 콘텐츠, 불법 행위 조장, 혐오·폭력·성적 콘텐츠 등 다양한 안전 리스크에 충분히 대응하지 못하고 있으며, 특히 이미지와 텍스트가 결합된 상황에서 위험을 종합적으로 판단하는 데 한계를 보이고 있다. 이에 따라 AI 안전성을 사후 규제가 아닌 모델 내부 구조 차원에서 내재화하는 기술에 대한 수요가 급증하고 있으며, 본 기술은 이러한 시장ㅇ사회적 요구에 부합하는 핵심 기반 기술로서 기술이전의 필요성이 크다.

②글로벌 AI 규제 환경 변화에 대응하기 위한 핵심 선도 기술 확보

EU AI Act, 미국 AI 안전 행정명령 등 주요 국가들은 생성형 AI의 안전성·책임성·설명가능성을 필수 요건으로 요구하고 있다. 특히 멀티모달 AI에 대한 위험 관리와 사전 차단 능력은 향후 상용화 및 글로벌 진출의 핵심 관문이 될 전망이다.
Safe LLaVA 기술은 20여 종의 안전성 기준을 모델 구조에 직접 내장하고, 위험 판단 근거까지 제시하는 설명 가능한 안전 AI 기술로서, 글로벌 규제 요구사항을 선제적으로 충족할 수 있는 경쟁력을 갖추고 있다. 이를 민간·공공 분야로 이전함으로써 국내 기업의 해외 시장 진출과 국제 경쟁력 강화를 지원할 필요가 있다.

③ 데이터 의존형 안전기술의 한계를 극복하는 구조적 차별성

기존 AI 안전 기술은 대규모 데이터 파인튜닝이나 후처리 필터링에 의존해 왔으나, 이는 새로운 위험 유형에 취약하고 모델 일반화 성능에 한계를 가진다. 본 기술은 데이터 중심 접근을 넘어 안전성 판단 모듈을 모델 내부 구조로 통합함으로써, 입력 이미지와 텍스트를 동시에 분석하고 맥락 기반 위험 추론이 가능하다는 점에서 기술적 차별성을 가진다.
이러한 구조적 안전성 내재화 기술은 다양한 비전-언어 모델(LLaVA, Qwen, Gemma 등)에 확장 적용 가능하여, 기술이전을 통해 산업 전반에 폭넓게 활용될 수 있는 높은 파급효과를 기대할 수 있다.

④산업·공공 분야의 신뢰 가능한 AI 도입을 위한 필수 기반 기술

의료, 교육, 스마트시티, 공공 서비스, 미디어 콘텐츠 등 안전성이 요구되는 분야에서는 생성형 AI의 도입이 필수적이면서도 가장 큰 진입 장벽으로 작용하고 있다. Safe LLaVA 기반 기술은 위험 탐지-안전 응답-판단 근거 제시를 동시에 수행함으로써, 사용자 신뢰성과 서비스 책임성을 획기적으로 강화할 수 있다.
기술이전을 통해 기업과 기관이 본 기술을 적용할 경우, 안전 문제로 인해 제한되었던 생성형 AI 서비스의 상용화가 가능해지고, 공공·산업 현장에서 실질적인 활용 확산을 촉진할 수 있다.

⑤ 국내 AI 안전 생태계 조성과 K-AI 경쟁력 강화를 위한 전략적 필요성

본 기술은 HoliSafe와 같은 국내 최초의 이미지·텍스트 통합 안전성 벤치마크와 함께 공개되어, 단순 모델 이전을 넘어 평가·검증·고도화까지 포함하는 AI 안전 생태계 구축의 핵심 요소를 제공한다. 기술이전을 통해 국내 기업, 연구기관, 스타트업이 해당 기술을 기반으로 자체 서비스 및 제품을 개발할 경우, 한국형 AI 안전 표준(K-AI Safety) 정립과 글로벌 기술 주도권 확보에 기여할 수 있다. 이는 국가 차원의 AI 경쟁력 강화와 안전한 AI 활용 문화 확산을 위한 전략적으로 중요한 기술이전 대상이다.

- 시각가드모듈(Visual Guard Module)을 통해 입력 이미지 내에 유해한 정보를 분류 기술
- 시각가드모듈과 시각언어모델의 통합 구조를 통한 학습 및 추론 기술
- 시각언어모델의 안전성 정렬을 위한 HoliSafe 데이터셋 구축 방법

안전한 답변생성이 가능한 시각언어모델 기술
- 시각가드모듈(Visual Guard Module)을 통해 입력 이미지 내에 유해한 정보를 분류 기술
- 시각가드모듈과 시각언어모델의 통합 구조를 통한 학습 및 추론 기술
- 시각언어모델의 안전성 정렬을 위한 HoliSafe 데이터셋 구축 방법
- 안전한 답변생성이 가능한 시각언어모델 원천 소스 코드, 가시화 프로그램
- 안전한 답변생성이 가능한 시각언어모델 8종 (Safe LLaVA(7B/13B),Safe Qwen-2.5-VL(7B/32B),Safe Gemma-3-IT(12B/27B)),Safe Qwen-3.5-(0.8B/2B)
- 특허 실시권
- 기술문서

- 본 기술의 적용 분야 공공·의료·교육·콘텐츠·스마트시티 등 안전성과 신뢰성이 요구되는 생성형 AI 서비스 전반과, 이미지·텍스트 기반 멀티모달 AI가 적용되는 산업 전 분야에 활용 가능하다.
- 본 기술의 기대효과는 AI의 유해 콘텐츠 생성과 오남용을 구조적으로 차단함으로써 서비스 신뢰성과 글로벌 규제 대응력을 확보하고, 국내 기업의 안전한 생성형 AI 상용화 및 국제 경쟁력 강화를 기대할 수 있다.

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI