○ 인공지능연구소 지능정보연구본부 복합지능연구실에서는 영어, 중국어, 일본어 서버형 음성인식 기술을 개발하였음.
○ 영어, 중국어, 일본어 서버형 음성인식 기술은 딥러닝 기술 및 대용량 데이터에 기반하여 실현되는 고난이도 융복합 기술임.
○ 현재 영어, 중국어, 일본어 서버형 음성인식 기술은 오랜 기간의 연구개발을 거쳐 실용화 수준으로 향상되었으며, 여러 특정 서비스 분야에서 실환경에 적용되고 있음.
○ 영어, 중국어, 일본어 서버형 음성인식 기술은 지니톡 대국민 시범 서비스 및 평창 올림픽 서비스 지원 및 원어민 테스트 등 실증 검증을 수행하였으며 인공지능 스피커, 음성 챗봇 서비스, 강의용 음성인식, 스마트홈, 스마트 가전, 스마트카, 군사용 음성인식 등 다양한 응용 분야에 대해서 상용화 수준에 이르렀다고 판단하여 기술이전을 실시하고자 함.
○ Google, 뉘앙스 등 글로벌 경쟁기술이 국내 영어, 중국어, 일본어 서버형 음성 인식 시장을 선점하기 이전에 기술이전을 실시하여 기술경쟁력을 강화하고 향후에는 국외시장까지 진출하는 것을 목적으로 함
○ 영어, 중국어, 일본어를 대상으로 명령어 및 자연어 기반의 대어휘 음성인식 및 대화체 연속 음성을 인식
○ 음향모델링, 언어모델링, 디코딩, 음성검출, 음성특징추출, 문장코퍼스 정제기술, 시스템 통합기술, 오류수정 기술 등 다양한 요소기술로 구성된 복합기술
○ 대화체 문장 등 일상 생활 영역에 특화되었으며, 높은 정밀도의 음성인식 성능 확보
○ API규격 및 활용예제 코드 제공으로 용도별 클라이언트 응용프로그램 개발 용이
○ ‘지니톡 대국민 시범서비스’ 및 ‘2018 평창올림픽’ 자동통역 서비스 실시를 통해 검증된 시스템 안정성 및 활용성 확인 완료
○ 수요업체 용도에 따라 ETRI가 보유한 다양한 외국어 음성인식엔진 및 자동번역 기술과 연계 용이
○ 영어, 중국어, 일본어 연속어 음성인식 엔진(Centos6.0, Ubunt14.04버전 이상, 엔진 라이브러리, 서버-클라이언트 샘플 바이너리, 16kHz 및 8kHz 지원(단, 샘플링 주파수에 따라 별도 기술이전 계약이 필요함)
- wFST 기반 고속탐색 기술 (최적화된 wFST 이미지를 이용하여 입력 음성을 텍스트로 실시간으로 고속 변환하는 기술) CPU 기반, core당 1채널 지원 최소 사양 : Intel 2세대 샌디브릿지(2011년 말 출시) AVX(Advanced Vector eXtensions) 지원 CPU
- 딥러닝 기반 음향모델 (음성으로부터 음소단위 발음 특성을 학습한 음향모델) 및 N-gram 기반 언어모델 (텍스트로부터 단어 간의 문법적 관계를 추출한 통계모델)로부터 생성된 wFST 기반 음성인식 이미지
- 영어 서버형 음성인식소프트웨어(영어 음성인식 모델 binary 포함)
- 중국어 서버형 음성인식소프트웨어(중국어 음성인식 모델 binary 포함)
- 일본어 서버형 음성인식소프트웨어(일본어 음성인식 모델 binary 포함)
- 관련 기술 문서 및 지적재산(기술문서, 특허, 프로그램)
○ 다양한 응용업체가 영어, 일본어, 중국어 서버형 음성 인식 기술 관련 비즈니스 모델을 개발하게 함으로서 국내외 SW산업 신시장 창출 기대
○ ETRI는 기술이전업체와 공동으로 기술 상용화 시 문제점을 공유하고 해결 노력을 기울임으로써 기술의 완성도를 제고