* 탐색 엔진 (search engine 또는 decoder)
- 음향 및 언어 모델 등의 지식 베이스에 기반하여 고속/고성능 음성인식 기능을 수행함
- 문장형태의 음성인식을 위해 연속어 음성인식 엔진을 사용함
- 음성인식 결과에 대해 단어별 시간경계 정보를 출력함 (WFST(Weighted Finite State Transducer) 기술 특성상 시간경계 정보가 실제 경계와 완전히 일치하지 않을 수 있음)
- NEON을 지원하는 ARM 계열 CPU를 사용하는 단말기에서 동작함
* 음향 모델
- 심층신경망(Deep Neural Network) 모델을 지원함
- 일본인, 한국인 등 다양한 비원어민 및 원어민이 발성한 영어 음성을 사무실 및 모바일 환경에서 수집한 일반적 음성 및 잡음이 반영된 기본 베이스라인 음향 모델을 제공함
- 기술이전 업체에서 실적용 영역의 음성 데이터를 수집한 이후, 베이스라인 모델에 대해 이 음성 데이터를 사용하여 ETRI에서 적응학습 및 다양한 모델링 방법을 통하여 개선된 음향모델을 제공함(기술이전 후 2년 간, 연 2회 이내)
* 언어 모델
- 발음 변환 도구, 통계적 언어 모델 생성을 지원함으로써 새로운 음성인식용 태스크 또는 콘텐츠 입력 자료에 대해 음성인식용 발성사전과 문법 생성 환경을 제공함
- 기본으로 제공되는 베이스라인 통계 언어 모델에 대해 적용 영역의 데이터를 사용하여 학습을 수행하는 적응학습 도구를 제공함
* 이미지 생성 도구
- 음성인식 엔진에서 인식에 필요한 외부파일에 대해 이미지 형태로 생성하기 위한 이미지 생성 도구를 제공함
* 지원 언어: 영어
* 지원 샘플링주파수: 16kHz
* NEON을 지원하는 ARM 계열 CPU를 사용하는 단말에서 동작 가능한 형태의 엔진
- 엔진 소스코드 및 개발자용 지침서
* 외국어 교육을 위한 비원어민 음성 인식용 이미지 파일 및 이미지 생성 도구
- 베이스라인 음향모델 및 언어모델
- 런타임 이미지 생성 도구 및 설명서 (리눅스 Centos 7 이상)
* 언어모델 적응 학습도구
- 적응학습 도구 및 설명서 (리눅스 Centos 7 이상)
* 제약조건
- 기술이전 계약 후 1년 이내의 기간 동안 엔진 및 기타 도구에 대한 사후 지원이 제공됨.
- 적용 도메인에서 수집된 음성 데이터베이스 및 텍스트 데이터베이스가 제공되는 경우 기술이전 계약 후 2년 이내에 음향모델 및 언어모델 훈련 및 이미지 생성 지원 (각 연 2회 이내)
- 단말별 음성인식엔진의 동작 여부는 사전에 충분히 검토되어야하며, 단말별 특이사항에 따른 소스코드의 포팅은 기술이전 업체와 ETRI가 공동으로 작업한다.