ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

On-device Non-native Speech Recognition System for Language Learning

Manager
Kiyoung Park
Participants
Kang Byung Ok, Kang Jeom Ja, Hyun Woo Kim, Kiyoung Park, Park Jeon Gue, Hwa Jeon Song, Yoo Rhee Oh, Yoo Byunghyun, Sung Joo Lee, Lee Yun Kyung, Lee Yunkeun, Jeon Hyung-Bae, Euisok Chung, Chung Hoon, Woo Yong Choi, Ran Han
Transaction Count
1
Year
2020
Project Code
20HS5200, Development of the multi-speaker conversational speech recognition technology, Park Jeon Gue
19HS7700, Development of the multi-speaker conversational speech recognition technology, Park Jeon Gue
20HS1700, Development of semi-supervised learning language intelligence technology and Korean tutoring service for foreigners, Lee Yunkeun
19HS2500, Development of semi-supervised learning language intelligence technology and Korean tutoring service for foreigners, Lee Yunkeun
18HS3700, Core technology development of the spontaneous speech dialogue processing for the language learning, Lee Yunkeun
17HS5700, Core technology development of the spontaneous speech dialogue processing for the language learning, Lee Yunkeun
20ZS1100, Core Technology Research for Self-Improving Integrated Artificial Intelligence System, Hwa Jeon Song
"외국어 교육을 위한 단말내장형 비원어민 영어 음성인식 기술" 은 외국어 교육을
위하여 비원어민이 발성한 비교적 단순한 형태의 연속어 문장을 딥러닝 기반의
음향모델을 이용하여 단말기 상에서 인식하는 음성인식 기술이다. 본 음성인식
기술을 적용함으로서 네트워크의 연결 없이 단말의 제한된 리소스만으로 사용자가
발성한 문장을 인식함으로써 다양한 어플리케이션에서 이용 가능하다. 또한
비원어민이 발성한 영어 문장에 대하여 딥러닝 기반의 음향 모델을 제공함으로써
높은 인식률을 제공하며, 함께 제공되는 언어모델 적응 학습툴을 이용하여 도메인에
특화된 서비스를 가능하게 한다.
ETRI 인공지능연구소 지능정보연구본부에서는 과학기술정보통신부 출연 “다중화자 대화 음성 인식 기술개발” 사업, “자율성장형 AI 핵심원천기술 연구” 사업 및 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 사업을 통해 다양한 환경에서 요구되는 비정형 자연어 음성인식 및 대화처리 기술 기반의 음성 인터페이스 원천 핵심기술을 개발하고 있다. 현재 국내의 음성기술 전문 솔루션 업체에서는 다양한 정보통신시스템 및 서비스에 음성인터페이스 기술을 적용, 사업화를 추진하고 있으며, 이번에 기술이전을 추진하는 ‘외국어 교육을 위한 단말내장형 비원어민 영어 음성인식 기술’은 현재 동 기술을 보유하고 있지 않은 국내 기업에 기술 이전하여 관련 산업을 활성화하며, 인공지능 전문인력과 개발자원을 보유하지 못한 개별 기업에서의 중복 기술개발을 피하기 위한 것이다.
단말 내장형 딥러닝 기반 음성인식 기술
- 딥러닝 기술을 기반으로 대용량 음성데이터를 이용하여 훈련된 고성능의 음성인식 기술
- NEON을 지원하는 ARM CPU가 장착된 디바이스에서 단독으로 실시간 음성인식이 가능
비원어민 영어 음성인식 기술
- 비원어민의 발화 데이터를 이용한 베이스라인 음향 모델 및 도메인 데이터를 이용하여 개선된 음향모델 제공
- 비원어민 영어 발성에 대해서 높은 음성인식
도메인 성능 개선을 위한 언어모델 적응환경
- 적용 도메인의 텍스트 DB를 기반으로 적응학습을 통해 음성인식 성능을 개선하는 도구를 제공
* 탐색 엔진 (search engine 또는 decoder)
- 음향 및 언어 모델 등의 지식 베이스에 기반하여 고속/고성능 음성인식 기능을 수행함
- 문장형태의 음성인식을 위해 연속어 음성인식 엔진을 사용함
- 음성인식 결과에 대해 단어별 시간경계 정보를 출력함 (WFST(Weighted Finite State Transducer) 기술 특성상 시간경계 정보가 실제 경계와 완전히 일치하지 않을 수 있음)
- NEON을 지원하는 ARM 계열 CPU를 사용하는 단말기에서 동작함
* 음향 모델
- 심층신경망(Deep Neural Network) 모델을 지원함
- 일본인, 한국인 등 다양한 비원어민 및 원어민이 발성한 영어 음성을 사무실 및 모바일 환경에서 수집한 일반적 음성 및 잡음이 반영된 기본 베이스라인 음향 모델을 제공함
- 기술이전 업체에서 실적용 영역의 음성 데이터를 수집한 이후, 베이스라인 모델에 대해 이 음성 데이터를 사용하여 ETRI에서 적응학습 및 다양한 모델링 방법을 통하여 개선된 음향모델을 제공함(기술이전 후 2년 간, 연 2회 이내)
* 언어 모델
- 발음 변환 도구, 통계적 언어 모델 생성을 지원함으로써 새로운 음성인식용 태스크 또는 콘텐츠 입력 자료에 대해 음성인식용 발성사전과 문법 생성 환경을 제공함
- 기본으로 제공되는 베이스라인 통계 언어 모델에 대해 적용 영역의 데이터를 사용하여 학습을 수행하는 적응학습 도구를 제공함
* 이미지 생성 도구
- 음성인식 엔진에서 인식에 필요한 외부파일에 대해 이미지 형태로 생성하기 위한 이미지 생성 도구를 제공함
* 지원 언어: 영어
* 지원 샘플링주파수: 16kHz

* NEON을 지원하는 ARM 계열 CPU를 사용하는 단말에서 동작 가능한 형태의 엔진
- 엔진 소스코드 및 개발자용 지침서
* 외국어 교육을 위한 비원어민 음성 인식용 이미지 파일 및 이미지 생성 도구
- 베이스라인 음향모델 및 언어모델
- 런타임 이미지 생성 도구 및 설명서 (리눅스 Centos 7 이상)
* 언어모델 적응 학습도구
- 적응학습 도구 및 설명서 (리눅스 Centos 7 이상)
* 제약조건
- 기술이전 계약 후 1년 이내의 기간 동안 엔진 및 기타 도구에 대한 사후 지원이 제공됨.
- 적용 도메인에서 수집된 음성 데이터베이스 및 텍스트 데이터베이스가 제공되는 경우 기술이전 계약 후 2년 이내에 음향모델 및 언어모델 훈련 및 이미지 생성 지원 (각 연 2회 이내)
- 단말별 음성인식엔진의 동작 여부는 사전에 충분히 검토되어야하며, 단말별 특이사항에 따른 소스코드의 포팅은 기술이전 업체와 ETRI가 공동으로 작업한다.
본 기술은 단말 내장의 형태로 음성인식 기술을 사용하여 음성 신호를 문자 정보로 변환함으로써 다양한 사업모델의 대화형 외국어 교육 서비스를 구성할 수 있게함