ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Neural Network Model Splitter for Heterogeneous Accelerator Cooperative Inference

Manager
Jeon Jaeho
Participants
Kang Sung Joo, Ko Dongbeom, Young Joo Kim, Kim Yong Yeon, Seok Jongsoo, Shin Yongjun, Junhee Lee, Jeon Jaeho
Transaction Count
1
Year
2025
Project Code
24HS6400, Development of Software Defined Infrastructure Technologies for Future Mobility, Kang Sung Joo
25HS5400, Development of Software Defined Infrastructure Technologies for Future Mobility, Kang Sung Joo
본 기술은 대표 과제인 ''미래 모빌리티를 위한 소프트웨어 정의형 인프라스트럭처 기술 개발"에서 연구 및 개발되는 소프트웨어 정의형 인프라스트럭처(SDI)는 다양한 모빌리티 환경에서의 자원 관리와 실시간성 확보를 핵심 목표로 하며, 본 기술이전 대상인 "이종 가속기간 협력 추론을 위한 신경망 모델 분할기"는 이러한 목표를 실현하기 위한 핵심 요소기술임. 즉, 자원이 부족한 모빌리티 디바이스(SDx)를 위해 AI 모델을 분할하여 SDI(GPU/CPU)와 SDx(NPU)간 협력 추론을 수행함으로써 전체 인프라의 자원 관리 효율을 높이고 모빌리티 디바이스에서 실시간 AI 서비스를 원활하게 제공할 수 있음.
자원 제약적인 모바일 환경에서도 다종 AI 모델을 효과적으로 수행할 수 있도록 하는 모델 관리 기술의 필요성이 커지고 있으며, 본 기술은 이러한 모델 관리를 위해 하나의 AI 모델을 분할하고, 모바일 디바이스에 탑재된 AI 가속기에 맞게 변환하는 기능을 가진다.
- (이종 가속기간 모델 협업 추론) ONNX 표준 신경망 모델을 사용자 지정 지점을 기점으로 분할하고, 전반부 모델을 Hailo NPU에서 수행할 수 있도록 양자화를 거쳐 변환함.

- (모델 분리 및 변환 파이프라인 통합) ONNX 표준 모델을 Hailo NPU용 HEF 모델로 변환하기 위한 해석->양자화/최적화->컴파일 프로세스를 원스텝으로 실행할 수 있는 소프트웨어 도구를 포함함.
본 기술이전의 대상은 "이종 가속기간 협력 추론을 위한 신경망 모델 분할 기술 및 도구"로, 모빌리티 디바이스(NPU)와 SDI(GPU/CPU)간 협력 추론을 위해 하나의 AI 모델을 분할한 후 이종 가속기를 고려해 변환하는 솔루션이다.

- Hailo NPU-GPU간 AI 모델 협력 추론을 위한 신경망 모델 및 변환 시스템
o 사용자 지정 노드를 기점으로 ONNX 모델을 2개의 신경망 모델로 분리
o 분할된 AI 모델들에 대한 ONNX 표준 준수 여부 확인 및 유효성 검증
o 전반부 모델의 ONNX->HEF(Hailo) 로의 모델 변환
- 요구사항 정의서 1종
- 시험 절차 및 결과서 1종
- 통합 파이프라인 및 개별 모듈 실행을 위한 사용자 매뉴얼
- 이종 가속기간 협력 추론을 위한 신경망 모델 분할기 프로그램
리소스가 제한된 모빌리티 디바이스와 강력한 엣지 서버 간의 효율적인 AI 워크로드 분배를 가능하게 하여, 자율주행, 로보틱스, 산업 자동화 등 다양한 분산 AI 시스템에서 전력 효율성, 네트워크 효율성, 확장성을 동시에 향상시키는 핵심 개발 도구로 활용될 수 있다. 또한 하나의 디바이스에 여러 이종 AI 가속기가 탑재되어 있을 경우, 본 기술을 이용하여 이종 AI 가속기 자원을 통합 활용함으로써 AI 추론 한계를 극복할 수 있다.