ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Deep learning-based server-type speech recognition technology

Manager
Park Jeon Gue
Participants
Kang Byung Ok, Kang Jeom Ja, Hyun Woo Kim, Kiyoung Park, Park Sang Kyu, Park Jeon Gue, Hwa Jeon Song, Yoo Rhee Oh, Sung Joo Lee, Lee Yun Kyung, Lee Yunkeun, Jeon Hyung-Bae, Euisok Chung, Jung Ho Young, Chung Hoon, Woo Yong Choi
Transaction Count
12
Year
2018
Project Code
18HS3700, Core technology development of the spontaneous speech dialogue processing for the language learning, Lee Yunkeun
17HS5700, Core technology development of the spontaneous speech dialogue processing for the language learning, Lee Yunkeun
16MS1700, Core technology development of the spontaneous speech dialogue processing for the language learning, Lee Yunkeun
15MS9500, Core technology development of the spontaneous speech dialogue processing for the language learning, Lee Yunkeun
‘딥러닝 기반의 서버형 음성인식 기술’은 다양한 이동 환경(스마트폰, 자동차 등 포함), 고객센터(유무선 전화 기반의 콜센터, 온라인 및 오프라인 기반의 제반 고객센터 포함), 각종 기록물(연설, 회의, 발표, 방송 등 포함) 등을 대상으로 하는 고성능 자연어 음성인식 기술이다. 본 자연어 음성인식 기술을 적용함으로써 원하는 정보를 검색하거나 고객을 응대함으로써 사용자의 서비스 만족도를 높이는 것이 가능하고, 음성이 포함된 다양한 회의물/오디오물/영상물에 대해 음성-문자 변환(speech-to-text conversion) 서비스 및 시스템 개발이 가능하다.
ETRI 지능정보연구본부에서는 과학기술정보통신부 출연 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 사업을 통해 PC 환경뿐만 아니라 모바일 환경에서 요구되는 비정형 자연어 음성인식 및 대화처리 기술 기반의 음성인터페이스 원천핵심기술을 개발하고 있다. 현재 국내의 음성기술 전문 솔루션 업체에서는 다양한 정보통신시스템 및 서비스에 음성인터페이스 기술을 적용, 사업화를 추진하고 있으며, 이번에 기술이전을 추진하는 ‘딥러닝 기반의 서버형 음성인식 기술’은 현재 동 기술을 보유하고 있지 않은 국내 기업에 기술 이전하여 관련 산업을 활성화하며, 인공지능 전문인력과 개발자원을 보유하지 못한 개별 기업에서의 중복 기술개발을 피하기 위한 것이다.
- 단일쓰레드 또는 멀티쓰레드 기반의 동시접속 환경에서 실시간(online) 또는 일괄처리(batch) 방식의 음성인식을 위한 리눅스 기반의 서버/클라이언트형 음성인식 기술
- 최신 딥러닝 기술에 기반하는 서버 기반의 한국어 또는 영어 연속어 음성인식 기술을 적용하여 높은 정밀도의 음성-문자 변환(speech-to-text conversion) 인터페이스를 제공
- 음성인식 적용 도메인의 음성 및 텍스트 DB를 기반으로 적응학습을 통해 음성인식 성능을 제고하는 도구를 제공
1. 탐색 엔진 (search engine, decoder)
- 음향 및 언어 모델 등의 지식 베이스에 기반하여 고속/고성능 음성인식 기능을 수행함
- 문장형태의 음성인식을 위해 연속어 음성인식 엔진을 사용함
- 음성인식 결과에 대해 단어별 시간경계 정보를 출력함
※ WFST 기술 특성상 시간경계 정보가 실제 경계와 완전히 일치하지 않을 수 있음
2. 음향 모델
- 사무실 및 모바일 환경의 일반적 음성 및 잡음이 반영된 기본 베이스라인 모델을 제공함
- 베이스라인 모델에 대해 적용 영역의 소규모 데이터를 사용하여 학습을 수행하는 적응학습 도구를 제공함
- 심층신경망(Deep Neural Network) 모델을 지원함
3. 언어 모델
- 발음 변환 도구, 통계적 언어 모델 생성을 지원함으로써 새로운 음성인식용 태스크 또는 콘텐츠 입력 자료에 대해 음성인식용 발성사전과 문법 생성 환경을 제공함
- 기본으로 제공되는 베이스라인 통계 언어 모델에 대해 적용 영역의 데이터를 사용하여 학습을 수행하는 적응학습 도구를 제공함
4. 인식 후처리 도구
- 음성인식 엔진에서 출력되는 형태소열에 대해 어절을 복원하고 문장단위로 출력하도록 지원함
※ 단, 통계 및 예제 기반의 어절 복원 논리 및 알고리즘을 적용하므로, 신조어나 알려지지 않은 형태소열에 대해서는 완전한 후처리가 어려울 수 있음
5. 이미지 생성 도구
- 음성인식 엔진에서 인식에 필요한 외부파일에 대해 이미지 형태로 생성하기 위한 이미지 생성 도구를 제공함
6. 지원 언어: 한국어, 영어 (※ 언어별로 별건 계약함. 언어별로 언어 처리 도구 및 자원, 음향 및 언어 모델이 상이함)
7. 지원 샘플링주파수: 8kHz, 16kHz (※ 샘플링주파수별로 별건 계약함. 샘플링주파수별로 훈련용 빅데이터 및 음향 모델이 상이함)
1. 리눅스 환경에서 실행 가능한 Library 형태의 오브젝트 파일과 인식용 이미지 파일 생성 도구 (리눅스 Centos 7.x 이상)
- 서버 기반의 음성인식 엔진 SDK
- 런타임 이미지 생성 도구
- 개발자용 지침서

2. 음향 및 언어모델 및 그 적응 학습도구 (리눅스 Centos 7.x 이상)
- 기본 음향모델 및 적응 학습 도구
- 기본 언어모델 및 적응 학습 도구

※ 제약조건
- 지원 샘플링 주파수: 8kHz 및 16kHz를 지원함. 샘플링 주파수별로 별건으로 기술이전 계약함
- 지원 언어: 한국어 및 영어를 지원함. 언어별로 별건으로 기술이전 계약함
본 기술은 음성인식 기술을 사용하여 음성 신호를 문자 정보로 변환함으로써 다양한 사업모델의 고객응대, 정보검색, 명령/제어, 녹취물 및 기록물 생성, 엔터테인먼트 서비스 등을 포괄하는 사용자 편의형 정보 서비스를 구성할 수 있게 한다.