본 기술인 ‘온디바이스 AI를 위한 모델 경량화 기술’은 개방형 AI 모델을 온디바이스에서 실행하기 위해서 성능하락을 최소화 하면서 모델 크기를 줄임
- '온디바이스 AI를 위한 모델 경량화 기술‘은 스마트폰, IoT 기기 등 자원 제약이 있는 온디바이스 환경에서 인공지능 모델의 효율적 운영을 위해 모델의 용량을 줄이고 처리 속도를 개선하는 과정을 지원한다. 본 기술은 기기 내부에서 수집되는 실행 데이터를 기반으로 모델의 병목 지점을 분석하며, 최적화된 경량화 알고리즘을 적용하여 메모리 및 연산 자원을 효율적으로 사용할 수 있도록 돕는다. 자동화된 비학습 최적화 기법을 통해 개발자가 최소한의 수작업으로 경량화된 AI 모델을 생성할 수 있도록 지원하여 개발 효율성을 극대화하는 것이 주요 목적이다.
연결 블럭 재구성을 통한 하이브리드 비전 트랜스포머의 학습 후 양자화 기법
(성능 향상) 하이브리드 비전 트랜스포머 구조에 특화된 양자화 오류를 재구성하여 정확도 하락을 최소로하여 최종 모델 정확도를 향상 시
(효율성 향상) 학습 후 양자화 (PTQ)를 기반으로 하며, 라벨이 없는 데이터셋을 사용하여 사전 훈련된 모델을 빠르고 효율적으로 보정 하도록 함
컴파일러 기반 딥러닝 모델 프루닝 기법
(성능향상) 프루닝과 컴파일러 최적화를 결합하여 정확도 뿐만 아니라 대상 기기에서의 실행 속도까지 고려해서 최적의 딥러닝 모델을 생성
(성능향상) 튜닝 시간 또한 단순히 두 기술을 결합하지 않고 비용 함수에 기반해서 최적화를 수행하므로 적은 시간으로도 튜닝을 완료 가능
기술명 : 온디바이스 AI를 위한 모델 경량화 기술
- 연결 블럭 재구성을 통한 하이브리드 비전 트랜스포머의 학습 후 양자화 기법
* 하이브리드 비전 트랜스포머의 실행 기능
* 하이브리드 비전 트랜스포머의 비학습 양자화 기능
* 정확도 보상을 위한 재구성 보상 처리 기능
- 컴파일러 기반 딥러닝 모델 프루닝 기법
* 인공신경망 모델의 실행 코드 튜닝을 위한 기능
* 인공신경망 모델의 프루닝을 위한 실행 기능
* 프루닝과 실행 코드 튜닝을 결합하는 실행 기능
기술명 : 온디바이스 AI를 위한 모델 경량화 기술
- 요구사항 정의서
- 시험 절차서 및 결과서
- 소스코드
- 기술 문서: 2종
적용분야 : AI 모델 경량화가 필요한 온디바이스 또는 저비용 서빙 상황에서 활용.
기대효과 : 향상된 추론 속도와 모델 압축으로 저비용 AI 모델 서빙이 가능하며, 온디바이스 AI를 통한 민감정보 보호도 가능함.