ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Server-Client-Based Real-Time Audio-Visual Speech Recognition Technology for Kiosk Environments

Manager
Kiyoung Park
Participants
Kang Byung Ok, Kang Jeom Ja, Kim Dong Hyun, Sanghun Kim, Kim Seung Hi, Yoonhyung Kim, Hyun Woo Kim, Sunghee Dong, Kiyoung Park, Park Jeon Gue, Bang Jeonguk, Hwa Jeon Song, Jeongmin Yang, Yoo Byunghyun, Yun Seung, Min Kyu Lee, Lee Yunkeun, Jeon Hyung-Bae, Euisok Chung, Chung Hoon, Choi Mu Yeol, Woo Yong Choi, Ran Han
Transaction Count
1
Year
2025
Project Code
22HS4800, Development of semi-supervised learning language intelligence technology and Korean tutoring service for foreigners, Lee Yunkeun
24JB1200, Multi-channel Multi-modal Audio-Visual Speech Recognition Technology, Kiyoung Park
24ZB1100, Core Technology Research for Self-Improving Integrated Artificial Intelligence System, Hwa Jeon Song
통신서비스 기술과 스마트폰 등 하드웨어 기술의 발달과 심층신경망(Deep Neural Network) 기반의 심층학습(Deep Learning) 기술의 고도화로 음성인식에 기반하는 다양한 형태의 사용자 인터페이스가 세계적인 추세로 확산되고 있다. 이러한 서버기반의 음성인식 기술은 정보포탈 서비스, 차량정보 서비스, 교육/관광 서비스, 비즈니스 서비스, 고객센터 서비스 등에서 사용자의 편의를 극대화하게 된다. 또한 음성인식의 지속적인 성능 고도화에 따라 종래 사람에게 의존하는 회의록 및 속기록 작성이 영역에 따라 실용화가 가능한 수준에 이르렀다.

하지만 주로 회의록 및 속기록의 영역에서 사용되거나, 또는 모바일 디바이스에서 사용되는 기존의 음성인식 기술은 소음이 심한 환경에서는 그 성능이 급격히 저하되는 문제가 있어, 공항, 전시실 등의 소음이 심한 장소에서는 사용하기 어려운 문제가 있다. 이러한 문제점을 해결하기 위한 방법 중의 하나로 소음의 영향을 받지 않는 영상 정보를 음성인식에 이용하고자하는 연구가 활발히 진행 중에 있다.

‘키오스크 환경 서버-클라이언트 기반 실시간 오디오-비주얼 음성인식 기술’은 상점이나 식당, 기차역 등의 매표소, 공공기관의 발권장치 등 소음이 심한 환경에서 설치되는 키오스크 환경에서 음성인식 인터페이스를 원활하게 사용하고자, 음성과 영상을 동시에 사용하여 음성인식을 수행하기 위한 기술이다. 본 기술을 적용함으로써 최근 들어 많이 사용되는 키오스크 환경에서의 음성인식 성능을 높여서 노인 등의 디지털 약자 뿐만 아니라 일반인들도 음성을 통하여 보다 간편하게 사용할 수 있는 서비스 개발이 가능하다.
ETRI 초지능창의연구소 지능정보연구본부에서는 과학기술정보통신부 출연 “실세계 강인음성인식을 위한 실시간 멀티채널-멀티모달 시청각음성인식 시스템 개발”, “준지도학습형 언어지능 원천기술 및 이에 기반한 외국인 지원용 한국어 튜터링 서비스 개발”, “자율성장형 복합인공지능 원천 기술 연구” 사업을 통해 기계학습 및 이에 기반한 비디오와 오디오를 동시에 활용하여 잡음에 강인한 음성인식을 수행하는 기술을 개발하고 있다. 현재 국내의 음성기술 전문 솔루션 업체에서는 다양한 정보통신시스템 및 서비스에 음성인터페이스 기술을 적용, 사업화를 추진하고 있으며, 이번에 기술이전을 추진하는 ‘키오스크 환경 서버-클라이언트 기반 실시간 오디오-비주얼 음성인식 기술’은 현재 연구단계에 있는 오디오-비주얼 음성인식 기술을 상용화하기 위한 프레임웍을 제공하여, 관련 국내 산업을 활성화하며, 향후 이 분야에서 기술 및 시장을 선점할 수 있도록 도와준다.
o 단일쓰레드 또는 멀티쓰레드 기반의 동시접속 환경에서 실시간(online) 오디오-비주얼 음성인식을 위한 리눅스 기반의 서버/클라이언트형 음성인식 기술
o 다양한 오디오-비주얼 음성인식 엔진 적용이 가능
o 오디오-비주얼 데이터 취득이 불가하여 오디오만 취득하는 환경의 경우에도 동작할 수 있도록 오디오 기반의 실시간 음성인식 엔진 및 모델 제공
o 오디오-비주얼 음성인식 프레임워크
- 다양한 오디오-비주얼 음성인식 엔진 통합 가능한 프레임워크 제공
- 서버-클라이언트 구조로 다양한 플랫폼의 클라이언트에서 적용이 가능함
- 다수 동시접속 클라이언트에 대해서 동시처리 가능
- 오디오-비주얼 음성인식 모델 및 추론 엔진은 미포함
o 종단형 실시간 음성인식 모델 및 추론 엔진
- 딥러닝(Deep Learning) 기반 고성능 음성인식 수행
- ESPnet과 같은 오픈소스를 활용하여 한국어 음성인식 수행
- ESPnet을 이용한 추론 엔진 제공
- 추론 엔진에서 활용가능한 한국어 음성인식 모델 제공
o 오디오-비주얼 음성인식 프레임워크
- 파이선 언어 기반의 서버-클라이언트 오디오-비주얼 음성인식 프레임워크
- 파이선 언어 기반의 CLI 기반의 클라이언트 프로그램
- 리눅스 환경에서 실행 가능한 파이선 언어 기반의 서버 프로그램
- 오디오-비주얼 음성인식 모델 및 추론 엔진은 미포함
o 종단형 실시간 음성인식 모델 및 추론 엔진
- ESPnet 기반 음성인식 모델
- 클라이언트-서버 형태의 ESPnet 기반 추론 엔진
o 관련 기술문서 및 지적재산권
본 기술은 키오스크와 같이 1인이 카메라와 마이크가 장착된 장치에 대하여 음성 인터페이스를 통하여 정보를 주고 받는 서비스에 사용될 수 있으며, 음성신호 뿐만 아니라 얼굴을 포함하는 영상정보를 함께 사용하여 음성인식을 수행함으로써 잡음이 심한 환경에서도 우수한 음성인식 성능을 유지할 수 있어서, 다양한 환경에서 편리한 음성 인터페이스를 제공할 수 있다.