ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

On-Device Vision-Language AI System for Robotics

Manager
Kwon Jinse
Participants
Kwon Yongin, Kwon Jinse, Lee Jemin
Transaction Count
1
Year
2025
Project Code
24HS8300, Development of ML Compiler Framework for Ondevice-AI, Kwon Yongin
25HS5900, Development of ML Compiler Framework for Ondevice-AI, Kwon Yongin
본 기술인 '로봇을 위한 온디바이스 시각-언어 통합 기술'은 로봇의 자율성과 실시간 상호작용을 위해, 시각과 언어 정보를 처리하는 멀티모달 AI를 온디바이스 환경에서 효율적으로 실행할 수 있도록 최적 파이프라인 구축 및 고속 처리 시스템을 제공함.
- ‘로봇을 위한 온디바이스 시각-언어 지능 통합 기술’은 클라우드 의존 없이 로컬 온디바이스에서 시각 정보를 인식하고, 이를 자연어 및 음성으로 실시간 변환할 수 있도록 지원하는 기술이다. 본 기술은 카메라 센서를 통해 입력된 이미지의 상황을 해석하고, 사용자에게 음성으로 피드백을 제공함으로써 사람-로봇 상호작용을 가능하게 한다. 특히, VLM과 TTS 모델간의 효율적인 파이프라인과 통신 구조를 통해 전체 시스템의 반응 속도와 안정성을 확보하였다. 본 기술은 다양한 로봇 환경에서 활용될 수 있으며, 외부 통신 없이 독립적으로 작동함으로써 개인정보 보호, 응답 지연 최소화 등 로봇 서비스 구현에 필요한 핵심 요소를 제공하는 것이 주요 목적이다.
VLM과 TTS 모델 간 실행 파이프라인 구축을 통한 연산 효율 향상 기술
(성능 향상) VLM과 TTS 모델 간 런타임 파이프라인을 최적화하여 데이터 흐름을 최소 지연경로로 구성하고, 요청 기반 실행 파이프라인을 구축함으로써 빠른 응답성과 실시간성을 크게 향상시킴.
(효율성 향상) ROS2 기반 Topic-Queue 연동, 모델 사전 로딩(Preloading), 메모리 관리를 통해 시스템 자원 낭비를 최소화하고, 저 지연 발화가 가능하도록 파이프라인을 구축함

On-Demand 기반 빠른 응답성을 위한 파이프라인 및 Queue 관리 기법
(성능향상) 요청 기반으로 파이프라인을 활성화하므로 Idle 상태에서 자원을 절약하므로 불필요한 연산을 줄이고 응답 지연을 최소화함
(효율성향상) Queue 관리 기법을 통해 유연하게 자원 배분이 가능하며, 안정적인 AI 처리가 가능하도록 함.
기술명 : 로봇을 위한 온디바이스 시각-언어 지능 통합 기술
- VLM-TTS 간 실행 파이프라인 최적화 기법
* 시각인식 텍스트 생성(VLM), 음성 합성(TTS) 모델 런타임 파이프라인 기능
* VLM-TTS 발화시간 단축을 위한 데이터 처리 최적화 기능
* 모델 사전 로딩(Pre-loading) 및 메모리 관리 기능

- 로봇과 AI응용간 경량 통신 미들웨어 최적화 기법
* ROS2의 Topic 기반 메시지와 ZeroMQ 프로토콜 간 인터페이스 기능
* On-demand 기반 추론 지원으로 전력 효율성 향상 기능
* Queue 기반 메시지 처리를 통해 안정적인 처리 보장 기능
기술명 : 로봇을 위한 온디바이스 시각-언어 지능 통합 기술
- 요구사항 정의서
- 시험 절차서 및 결과서
- 소스코드
- 기술 문서: 2종
적용분야 : 시각 정보 해석 및 사용자에게 음성 안내가 필요한 가이드 로봇, 안내 로봇 돌봄 로봇, 경비·감시 로봇에 활용
기대효과 : 파이프라인 구조 및 Queue 방식을 통해 응답 시간 단축 및 자우너 활용 효율성 극대화가 가능하며, 온디바이스 AI를 통한 민감정보 보호도 가능함.