ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

End-to-End Speech Recognition Technology Based on Real-Time Streaming

Manager
Yun Seung
Participants
Kang Byung Ok, Kang Jeom Ja, Kim Dong Hyun, Sanghun Kim, Kim Seung Hi, Yeojeong Kim, Hyun Woo Kim, Sunghee Dong, Kiyoung Park, Park Jeon Gue, Park Jun, Bang Jeonguk, Hwa Jeon Song, Yoo Rhee Oh, Yoo Byunghyun, Yun Seung, Min Kyu Lee, Sung Joo Lee, Young Jik Lee, Lee Yun Kyung, Lee Yunkeun, Jeon Hyung-Bae, Euisok Chung, Chung Hoon, Choi Mu Yeol, Woo Yong Choi, Ran Han
Transaction Count
8
Year
2021
Project Code
21HS3400, Development of the multi-speaker conversational speech recognition technology, Park Jeon Gue
20HS5200, Development of the multi-speaker conversational speech recognition technology, Park Jeon Gue
21HS2800, Development of semi-supervised learning language intelligence technology and Korean tutoring service for foreigners, Lee Yunkeun
20HS1700, Development of semi-supervised learning language intelligence technology and Korean tutoring service for foreigners, Lee Yunkeun
21ZS1100, Core Technology Research for Self-Improving Integrated Artificial Intelligence System, Hwa Jeon Song
20ZS1100, Core Technology Research for Self-Improving Integrated Artificial Intelligence System, Hwa Jeon Song
○ 인공지능연구소 지능정보연구본부 복합지능연구실에서는 실시간 스트리밍 기반 종단형(End-to-End) 음성인식기술을 개발하였음.
○ 실시간 스트리밍 기반 종단형 음성인식기술은 심층신경망(Deep Neural Network) 기반 심층학습(Deep Learning) 기술의 고도화 및 대용량 언어음성 데이터에 기반하여 실현되는 고난이도 융복합 기술임.
○ 실시간 스트리밍 기반 종단형 음성인식기술은 음향모델과 언어모델, 발음사전 등을 별도로 학습하는 기존의 음성인식 모델을 종단형(End-to-End) 방식으로 통합 학습하도록 개선함으로써 음성인식 성능을 대폭 향상시킨데 이어, 실시간 스트리밍 음성 인식을 가능하게 함으로써 그 활용 범위를 대폭 향상시켰음.
○ 기존의 한국어 및 다국어 음성인식 기술은 여러 서비스 분야(컨택센터, 자동통역 서비스, 회의록 녹취, AI스피커, 언어 교육 등)에서 많은 실증 검증을 수행한 바 있으며, 실시간 스트리밍 기반 종단형 음성인식 기술의 성능 향상을 감안할 때, 컨택센터(유무선 전화 기반의 콜센터, 온라인 기반의 고객센터 등), 다국어 자동통역 서비스, 연설, 회의, 발표, 방송 등 각종 기록물의 실시간 녹취, 인공지능 스피커, 음성챗봇서비스, 스마트홈, 스마트 가전, 군사용 음성인식 등 다양한 음성인식 관련 분야에서 활용도가 더욱 높아질 것을 기대하여 기술이전을 실시하고자 함.
○ Google을 필두로 한 글로벌 경쟁기술이 국내 음성 인식 시장을 선점하기 이전에 기술이전을 실시하여 국내 기술경쟁력을 강화하고 향후에는 국외시장까지 진출하는 것을 목적으로 함.
○ 음성인식 관련 서비스의 급속한 활성화가 예상되는 시점에서 인공지능 전문 인력, 인프라, 자원을 보유하지 못한 개별 기업에서 실시간 스트리밍 기반 종단형 음성인식 기술을 활용해 다양한 사업화를 진행할수 있도록 기술이전을 실시하고자 함.
○ 기존의 언어모델, 음향모델, 발음사전 등을 별도로 학습하는 방식에서 벗어나 종단형으로 통합 학습함으로써 높은 정밀도의 실시간 스트리밍 음성-문자 변환(speech-to-text conversion)이 가능함(오픈소스 활용 및 추가 도구 제공).
○ 대용량의 음성 DB를 활용하여 미리 훈련된 실시간 스트리밍 기반 종단형 음성인식 모델을 이전 받음으로써 기술 이전과 동시에 높은 성능의 음성인식 시스템 구현이 가능함.
○ 음성인식 적용 도메인의 DB를 기반으로 적응학습 등을 통해 음성인식 성능을 제고할 수 있음(오픈소스 활용 및 추가 도구 제공).
○ 실시간 스트리밍 지원 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 및 MacOS 지원)
- 신경망 모델 기반 종단형 음성인식 기술 (대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성을 텍스트 변환하는 기술)
- 스트리밍 트랜스포머를 기반으로 한 실시간 음성인식 모델 지원
- 음성인식 기반 비원어민의 발성평가모델을 기반으로 발성평가 기술 지원
- CPU 기반(Zeon Gold5122 Dual 기준,8코어), 단일 채널로 CPU Core 당 30~40% 점유
○ 엔진 튜닝 도구
- 음성DB 연결학습 기술(새로운 발성환경에서 수집한 음성데이터를 기존 모델에 연결하여 학습하는 딥러닝 학습 기술, (리눅스 Ubuntu16.04이상, 오픈소스 이용 Script)
- 사용자 어휘 등록 기술(Contextual ASR)
○ 실시간 스트리밍 지원 종단형 음성인식 소프트웨어(PyTorch 기반)
○ 실시간 스트리밍 음성인식 모델 또는 비원어민의 발성평가 모델 중 단일 언어 선택(단일 샘플링 주파수 기준)
- 음성인식 모델 지원 언어: 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어
- 비원어민의 발성평가 모델 지원 언어: 한국어 또는 영어
- 주파수 선택: 16kHz 또는 8kHz
○ 관련 기술문서 및 지적재산권(별도 기재)
○ 실시간 방송 자막 송출, 실시간 속기록 작성 등 특히 실시간성이 강조되는 음성인식 응용 분야에서 매우 효과적으로 활용될 수 있으며, 컨택센터(유무선 전화 기반의 콜센터, 온라인 기반의 고객센터 등), 다국어 자동통역 서비스, 연설, 회의, 발표, 방송 등 각종 기록물의 실시간 녹취, 인공지능 스피커, 음성챗봇서비스, 스마트홈, 스마트 가전, 군사용 음성인식 등 다양한 음성인식 관련 분야에서 국내외 소프트웨어 산업 신시장을 창출하고 글로벌 인공지능 세계 시장 진출이 가능하도록 함.
○ ETRI는 기술이전업체와 공동으로 기술 상용화 시 문제점을 공유하고 해결 노력을 기울임으로써 기술의 완성도를 제고