ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

English, Chinese, Japanese server-based speech recognition technology

Manager
Yun Seung
Participants
Kim Dong Hyun, Kim Dong Hyun, Sanghun Kim, Kim Seung Hi, Yeojeong Kim, Kim Jeong Se, Park Jun, Yun Seung, Min Kyu Lee, Young Jik Lee, Young Jik Lee, Choi Mu Yeol, Choi Mu Yeol
Transaction Count
3
Year
2019
Project Code
17HS1700, Core technology development of the real-time simultaneous speech translation based on knowledge enhancement, Kim Young Kil
16HS1300, Core technology development of the real-time simultaneous speech translation based on knowledge enhancement, Kim Young Kil
17ZS1200, 언어장벽 없는 국가 구현을 위한 자동통번역 산업 경쟁력 강화 사업, Sanghun Kim
16ZS1100, 언어장벽 없는 국가 구현을 위한 자동통번역 산업 경쟁력 강화 사업, Sanghun Kim
○ 인공지능연구소 지능정보연구본부 복합지능연구실에서는 영어, 중국어, 일본어 서버형 음성인식 기술을 개발하였음.
○ 영어, 중국어, 일본어 서버형 음성인식 기술은 딥러닝 기술 및 대용량 데이터에 기반하여 실현되는 고난이도 융복합 기술임.
○ 현재 영어, 중국어, 일본어 서버형 음성인식 기술은 오랜 기간의 연구개발을 거쳐 실용화 수준으로 향상되었으며, 여러 특정 서비스 분야에서 실환경에 적용되고 있음.
○ 영어, 중국어, 일본어 서버형 음성인식 기술은 지니톡 대국민 시범 서비스 및 평창 올림픽 서비스 지원 및 원어민 테스트 등 실증 검증을 수행하였으며 인공지능 스피커, 음성 챗봇 서비스, 강의용 음성인식, 스마트홈, 스마트 가전, 스마트카, 군사용 음성인식 등 다양한 응용 분야에 대해서 상용화 수준에 이르렀다고 판단하여 기술이전을 실시하고자 함.
○ Google, 뉘앙스 등 글로벌 경쟁기술이 국내 영어, 중국어, 일본어 서버형 음성 인식 시장을 선점하기 이전에 기술이전을 실시하여 기술경쟁력을 강화하고 향후에는 국외시장까지 진출하는 것을 목적으로 함
○ 영어, 중국어, 일본어를 대상으로 명령어 및 자연어 기반의 대어휘 음성인식 및 대화체 연속 음성을 인식
○ 음향모델링, 언어모델링, 디코딩, 음성검출, 음성특징추출, 문장코퍼스 정제기술, 시스템 통합기술, 오류수정 기술 등 다양한 요소기술로 구성된 복합기술
○ 대화체 문장 등 일상 생활 영역에 특화되었으며, 높은 정밀도의 음성인식 성능 확보
○ API규격 및 활용예제 코드 제공으로 용도별 클라이언트 응용프로그램 개발 용이
○ ‘지니톡 대국민 시범서비스’ 및 ‘2018 평창올림픽’ 자동통역 서비스 실시를 통해 검증된 시스템 안정성 및 활용성 확인 완료
○ 수요업체 용도에 따라 ETRI가 보유한 다양한 외국어 음성인식엔진 및 자동번역 기술과 연계 용이
○ 영어, 중국어, 일본어 연속어 음성인식 엔진(Centos6.0, Ubunt14.04버전 이상, 엔진 라이브러리, 서버-클라이언트 샘플 바이너리, 16kHz 및 8kHz 지원(단, 샘플링 주파수에 따라 별도 기술이전 계약이 필요함)
- wFST 기반 고속탐색 기술 (최적화된 wFST 이미지를 이용하여 입력 음성을 텍스트로 실시간으로 고속 변환하는 기술) CPU 기반, core당 1채널 지원 최소 사양 : Intel 2세대 샌디브릿지(2011년 말 출시) AVX(Advanced Vector eXtensions) 지원 CPU
- 딥러닝 기반 음향모델 (음성으로부터 음소단위 발음 특성을 학습한 음향모델) 및 N-gram 기반 언어모델 (텍스트로부터 단어 간의 문법적 관계를 추출한 통계모델)로부터 생성된 wFST 기반 음성인식 이미지

- 영어 서버형 음성인식소프트웨어(영어 음성인식 모델 binary 포함)
- 중국어 서버형 음성인식소프트웨어(중국어 음성인식 모델 binary 포함)
- 일본어 서버형 음성인식소프트웨어(일본어 음성인식 모델 binary 포함)
- 관련 기술 문서 및 지적재산(기술문서, 특허, 프로그램)
○ 다양한 응용업체가 영어, 일본어, 중국어 서버형 음성 인식 기술 관련 비즈니스 모델을 개발하게 함으로서 국내외 SW산업 신시장 창출 기대
○ ETRI는 기술이전업체와 공동으로 기술 상용화 시 문제점을 공유하고 해결 노력을 기울임으로써 기술의 완성도를 제고