ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

내비게이션 단말기용 연속어 음성인식 기술 version 2.0

전수책임자
박전규
참여자
강병옥, 강점자, 김현우, 박기영, 박상규, 박전규, 송화전, 오유리, 이성주, 이윤경, 이윤근, 전형배, 정의석, 정호영, 정훈, 최우용
기술이전수
1
이전연도
2016
협약과제
13VS1500, 모바일 플랫폼 기반 대화모델 적용 자연어 음성인터페이스 기술 개발, 이윤근
14MS1500, 모바일 플랫폼 기반 대화모델 적용 자연어 음성인터페이스 기술 개발, 이윤근
15MS9500, 언어학습을 위한 자유발화형 음성대화처리 원천기술 개발, 이윤근
‘내비게이션 단말기용 연속어 음성인식 기술 version 2’는 차량의 내비게이션에 장착되는 소프트웨어로 기존의 내비게이션 단말기에서 주행중 행선지를 입력하기 위해 터치 스크린을 사용한 문자입력 방식의 불편함을 해소하기 위한 것이다. 주행중 행선지를 변경하거나 새롭게 추가해야 하는 경우 매우 위험할 수 있기 때문에 음성으로 행선지를 입력할 수 있도록 기술 개발한 것이다. 행선지 음성 입력 방식으로는 명칭 또는 주소 입력이 가능하다.
ETRI 자동통역인공지능연구센터에서는 미래창조과학부 출연 “모바일 플랫폼 기반 대화모델 적용 자연어 음성인터페이스 기술 개발” 및 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 사업을 통해 모바일 단말에서 요구하는 음성인터페이스 기술을 개발하고 있다.
현재 국내의 음성기술 전문 솔루션 업체에서는 다양한 정보통신시스템 및 서비스에 음성인터페이스 기술을 적용, 사업화를 추진하고 있으며, 이번에 기술이전을 추진하는 “내비게이션 단말기용 연속어 음성인식 기술 version 2“는 특히 심층신경망(deep neural network)에 기반하는 심층학습(deep learning)” 기술에 기반하는 고성능 단말기용 음성인식 기술로서 현재 기업체에서 보유하지 못한 신기술이므로 이를 기업체에 기술 이전하여 관련 산업을 활성화 하며 개별 기업에서의 중복 기술개발을 피하기 위한 것이다.
- 연속어 음성인식 기술을 적용하여 사용자에게 빠르고 편리한 음성인터페이스를 제공
- 2단계 고효율 탐색 구조를 채택하여 세계 최고 수준의 내장형 연속어 음성인식 기술을 제공
- 환경 및 응용 분야에 flexible한 음향모델(AM) 구조: Multi-space AM(Acoustic Model) 구조를 채택함으로써 적은 양의 훈련 data로 환경/task에 최적화된 성능 획득
- Time-frequency 분석 방법에 의한 고정밀 음성분석 기술 채택: 기존의 음성인식기에서 사용하는 MFCC 기반의 음성분석 기술이 아닌, 음성의 동적 특성을 반영한 새로운 음성분석 기술에 의해 잡음환경에서의 음성인식률 향상
- 화자/환경 고속 적응 기술: 변별학습 기반 고속 적응 기술 및 특징 공간에서의 환경/화자 적응 기술을 적용함으로써, 소용량 tuning DB를 이용한 성능 향상 효과가 뛰어나며 환경/화자 변화에 따른 성능 저하 최소화
- 주요 특징
. 언어 독립성 (language independency)
. 플랫폼 독립성 (platform independency)
. 잡음 음성 개선 (speech enhancement)
. 잡음 환경 끝점 검출 (noise-robust endpoint detection)
. 화자 및 환경 적응 (speaker and environment adaptation)
. 심층 신경망 지원 (deep neural network)
내비게이션 단말기용 연속어 음성인식 기술 version 2
- 단말기 내장형 연속어 음성인식 기술
. 전국 약 300만 POI 대상 One Shot 행선지 음성인식 기능
※ POI(Point Of Interest)의 수는 적용 CPU의 성능에 따라 가변적임
. 전국단위 주소인식 기능 (신구주소 체계 적용)

- 단말기 내장형 음성인식 엔진 SDK
. 오브젝트 라이브러리(object library) 파일: Windows CE, Android, iOS, Linux 등 적용 OS 및 플랫폼에 따라 사용자화(customization) 지원
. 인식용 이미지 파일 및 이미지 파일 생성 도구
. 사용자 지침서
본 기술은 텔레매틱스 단말기 또는 소프트웨어의 행선지 입력, 스마트폰 기반의 음성인터페이스 또는 정보검색에 활용될 수 있다. 본 기술 이전을 통하여 중복 기술개발을 피할 수 있으며, 텔레매틱스 및 휴대폰 등과 같은 소형 단말기의 인터페이스로 자리매김할 수 있을 것으로 기대한다.