ETRI Knowledge Sharing Platform : Automated Generation of Co-speech Gestures and Listening Behaviors for Humanoids and Social Agents

기술이전 검색
Year	~	Transaction Count		Keyword

휴머노이드 로봇, 디지털 휴먼과 같은 자율 에이전트의 대화 상호작용을 위해 발화에 적합한 제스처 모션과 사람 발화를 들을 때의 자연스러운 경청(Active Listening) 행동 실시간 자동 생성 기술

ㅇ 휴머노이드 로봇 시장과 디지털 에이전트 시장이 본격적인 상용화 국면에 진입함에 따라, 자연스러운 대화를 가능케 하는 비언어적 행동 생성 기술이 필수 요소가 되었음
ㅇ 기존의 키프레임 애니메이션이나 규칙 기반 방식은 개발 비용이 높고, 특히 LLM(대규모 언어 모델)을 이용한 자유 발화 상황에서는 적절한 모션을 실시간으로 대응하기 어려움
ㅇ 본 기술은 사람의 발화/경청 데이터로부터 학습된 모델을 사용하여 예외적인 상황에서도 자연스러운 반응을 제공함으로써 휴머노이드, 가상 에이전트 서비스의 몰입감 증대

ㅇ 고품질 제스처 모션 생성
- Diffusion Transformer 기반 생성으로 자연스러운 모션 생성
- 대규모 학습을 통한 일반화 능력 확보. 다양한 입력 발화에 대응 가능
- 특정 구간에 대한 모션 컨트롤 가능. 모션 라이브러리 연동을 통해 시맨틱 제스처 표현
ㅇ 경청 행동 생성
- 경청 행동 시점 추론과 LLM 기반 경청 행동 종류(이해, 공감, 흥미 등) 추론
- 비동기적 추론 파이프라인을 통한 빠른 응답성
ㅇ 실시간 상호작용
- 제스처 생성과 경청 행동 모두 실시간 상호작용 지원
- 실시간 상호작용을 위해 최적화된 오픈소스 음성인식/TTS/LLM 연동 데모 제공
ㅇ 범용성
- 한국어 / 영어 지원 가능
- Raw 제스처 모션 출력으로 다양한 로봇 플랫폼, 디지털 휴먼 플랫폼에 적용 가능
- 기업의 사업화 분야와 요구사항에 따라 기술 최적화 지원

ㅇ (1세부) 한국어/영어 발화 제스처 자동 생성 기술
- 발화에 적절한 상반신 제스처 모션 자동 생성 기술
- 의미적 제스처 모션 라이브러리 및 사용자 정의 제스처 연동 기술
- 휴머노이드/디지털휴먼 제스처 동작 전이 및 로봇 제어 기술

ㅇ (2세부) 경청 행동 자동 생성 기술
- 상대(사람) 발화에 적절한 경청행동(Active Listening; Backchanneling) 생성 기술
- 경청행동의 발생 빈도와 표현 가능 범위를 제어하는 경청 스타일 설정 기술
ㅇ 각 세부 기술 SW (기업 요청 시 소스코드 제공 가능)
ㅇ 실시간 상호작용 데모 SW
ㅇ 기술 소개 자료 및 사용 설명서

ㅇ 휴머노이드 시장은 본격적인 양산 및 상용화 국면에 진입. 사람과의 자연스러운 소통을 가능케 하는 제스처 생성, 경청 행동 기술이 핵심 경쟁력이 될 수 있음. 휴머노이드 뿐만 아니라 사람과 상호작용하는 상업용, 가정용 소셜 로봇에 적용 가능
ㅇ 디지털 휴먼 시장은 생성형 AI와의 결합을 통해 단순 대화를 넘어 정서적 교감이 가능한 ‘인공지능 에이전트’로 진화. 사용자 몰입감을 위한 제스처 및 경청 행동 기술이 필수 요소. 디지털 휴먼 에이전트뿐만 아니라 Virtual 유튜버, 게임 캐릭터에 적용 가능

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI