ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

경량 스테이블 디퓨전 기반의 텍스트에서 이미지를 생성하는 기술

전수책임자
이용주
참여자
기술이전수
0
이전연도
2024
협약과제
본 기술이전은 텍스트에서 이미지를 생성하는 기술인 스테이블 디퓨전 XL(SDXL)을 기반으로 경량 이미지 생성이 가능한 경량 스테이블 디퓨전 기술이다. 이를 통해 기존의 고성능의 GPU에서만 가능한 이미지 생성을 보다 저사양의 GPU에서 빠른 속도로 가능하게 하여, 다양한 창작 활동 분야(교육, 의료, 콘텐츠, 문화/예술 등)에 활용이 가능하다.
- 텍스트에서 이미지를 생성하는 기술은 최근 생성형 AI의 핵심 기술 중에 하나이며, 기존의 LLM(Large Language Model)을 필두로 하는 오픈AI의 ChatGPT와 같이 향후, 멀티미디어와 결합된 다양한 국내외 서비스에 핵심원천 기술로 자리매김 할것으로 예상됨.
- 따라서, 이러한 텍스트에서 이미지를 생성하는 기술을 바탕으로 국내 다양한 서비스에 선도적으로 적용할 수 있는 다양한 응용분야(콘텐츠 제작의 전분야, 교육/의료/방송 등 멀티미디어 전분야, 금융/보험/제조 등 산업 및 서비스 전분야)가 있음
- 본 기술은 ETRI에서 자체적으로 개발한 텍스트에서 이미지를 생성하는 기술로 적은 GPU에서도 빠른 속도로 가장 최근의 기술인 스테이블 디퓨전과 동일한 생성 품질을 보장하는 기술을 포함하고 있음.
- 텍스트에서 이미지를 생성하는 모델의 내부 신경망 구조인 U-Net을 경량화한지식 증류 기법
- 파라미터의 대부분을 차지하는 Transformer block을 일부 제거한 압축 모델 KOALA 구축 (모델 & 크기 2배 이상 효율화)
- Teacher모델인 SDXL의 가중치는 동결(freeze)시킨 후 Teacher모델에서 생성된 중간 특징맵 중 Self-Attention 특징맵을 압축모델로 전이시켜 압축 모델을 학습
최근 공개된 텍스트-이미지 생성 모델(Stable Diffusion XL, SDXL, ‘23.07 공개된 최신 버전임)의 대형화로 인해 성능은 향상되었지만 모델 크기(스토리지 저장크기) 및 처리 속도의 부담 증가하고 있다. 특히, 이미지 생성하는 데 가장 큰 비중을 차지하는 U-Net 모델이 비약적으로 커짐으로써 생성 퀄리티는 향상되었지만 그 만큼 모델 가중치와 처리 시간이 증가하여 이를 개선하고 한 기술이 요구되었다. 이에 본 기술이전에서는 지식 증류(Knowledge Distillation)기반의 텍스트에서 이미지를 생성하는 모델의 압축을 통해 동일한 생성 품질을 보장하면서, 생성 속도를 크게 2배 이상 단축시킨 모델을 연구개발하였다.

경량 스테이블 디퓨전 기반 텍스트에서 이미지를 생성하는 기술
- 지식 증류(Knowledge Distillation)기반의 스테이블 디퓨전 알고리즘
- 텍스트에서 이미지를 생성하는 학습 및 추론 기술
- 텍스트에서 이미지를 생성하는 가시화 기술
- KOALA 원천 소스 코드(훈련, 추론, 가시화 프로그램 포함)
- KOALA 학습된 모델 3종(KOALA-1.7B, KOALA-1B, KOALA-700M)
- KOALA 시험 절차서 및 결과서
- 특허실시권, 기술문서
- 본 기술의 적용 분야는 콘텐츠 제작의 전분야, 교육/의료/방송 등 멀티미디어 전분야, 금융/보험/제조 등 산업 및 서비스 전분야에 폭넓게 활용 가능한 대화형 인공지능 시스템을 한단계 높일수 있는 이미지를 포함한 다양한 서비스를 바로 적용할수 있는 기술임.
- 본 기술의 기대효과는 인공지능에 적용되는 전반적인 산업 및 서비스에 대화형 인공지능으로 점차 서비스 트렌드가 바뀌고 있는 시점에, 단순한 텍스트에 기반한 정보 제공에서, 텍스트에서 이미지를 생성하는 기술을 통해, 인터랙티브한 인공지능 형태로 적용분야를 넗힐수 있음. 이를 통해, 단순한 정보 제공자인 인공지능을 멀티미디어 형태의 직관적인 정보 제공인 인공지능이 가능한 수준으로 끌어올릴 수 있는 비즈니스를 제공할수 있음.