본 기술은 대표 과제인 ''미래 모빌리티를 위한 소프트웨어 정의형 인프라스트럭처 기술 개발"에서 연구 및 개발되는 소프트웨어 정의형 인프라스트럭처(SDI)는 다양한 모빌리티 환경에서의 자원 관리와 실시간성 확보를 핵심 목표로 하며, 본 기술이전 대상인 "이종 가속기간 협력 추론을 위한 신경망 모델 분할기"는 이러한 목표를 실현하기 위한 핵심 요소기술임. 즉, 자원이 부족한 모빌리티 디바이스(SDx)를 위해 AI 모델을 분할하여 SDI(GPU/CPU)와 SDx(NPU)간 협력 추론을 수행함으로써 전체 인프라의 자원 관리 효율을 높이고 모빌리티 디바이스에서 실시간 AI 서비스를 원활하게 제공할 수 있음.
자원 제약적인 모바일 환경에서도 다종 AI 모델을 효과적으로 수행할 수 있도록 하는 모델 관리 기술의 필요성이 커지고 있으며, 본 기술은 이러한 모델 관리를 위해 하나의 AI 모델을 분할하고, 모바일 디바이스에 탑재된 AI 가속기에 맞게 변환하는 기능을 가진다.
- (이종 가속기간 모델 협업 추론) ONNX 표준 신경망 모델을 사용자 지정 지점을 기점으로 분할하고, 전반부 모델을 Hailo NPU에서 수행할 수 있도록 양자화를 거쳐 변환함.
- (모델 분리 및 변환 파이프라인 통합) ONNX 표준 모델을 Hailo NPU용 HEF 모델로 변환하기 위한 해석->양자화/최적화->컴파일 프로세스를 원스텝으로 실행할 수 있는 소프트웨어 도구를 포함함.
본 기술이전의 대상은 "이종 가속기간 협력 추론을 위한 신경망 모델 분할 기술 및 도구"로, 모빌리티 디바이스(NPU)와 SDI(GPU/CPU)간 협력 추론을 위해 하나의 AI 모델을 분할한 후 이종 가속기를 고려해 변환하는 솔루션이다.
- Hailo NPU-GPU간 AI 모델 협력 추론을 위한 신경망 모델 및 변환 시스템
o 사용자 지정 노드를 기점으로 ONNX 모델을 2개의 신경망 모델로 분리
o 분할된 AI 모델들에 대한 ONNX 표준 준수 여부 확인 및 유효성 검증
o 전반부 모델의 ONNX->HEF(Hailo) 로의 모델 변환
- 요구사항 정의서 1종
- 시험 절차 및 결과서 1종
- 통합 파이프라인 및 개별 모듈 실행을 위한 사용자 매뉴얼
- 이종 가속기간 협력 추론을 위한 신경망 모델 분할기 프로그램
리소스가 제한된 모빌리티 디바이스와 강력한 엣지 서버 간의 효율적인 AI 워크로드 분배를 가능하게 하여, 자율주행, 로보틱스, 산업 자동화 등 다양한 분산 AI 시스템에서 전력 효율성, 네트워크 효율성, 확장성을 동시에 향상시키는 핵심 개발 도구로 활용될 수 있다. 또한 하나의 디바이스에 여러 이종 AI 가속기가 탑재되어 있을 경우, 본 기술을 이용하여 이종 AI 가속기 자원을 통합 활용함으로써 AI 추론 한계를 극복할 수 있다.