ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

종단형 음성인식기술(한국어 및 12개 언어 지원/외국어 교육용) 및 화자분리기술(ver.1.0.)

전수책임자
윤승
참여자
강병옥, 강점자, 김동현, 김상훈, 김승희, 김여정, 김현우, 동성희, 박기영, 박전규, 박준, 박준, 송화전, 오유리, 유병현, 윤승, 이민규, 이성주, 이영직, 이윤경, 이윤근, 전형배, 정의석, 정훈, 최무열, 최우용, 한란
기술이전수
20
이전연도
2020
협약과제
19HS2500, 준지도학습형 언어지능 원천기술 및 이에 기반한 외국인 지원용 한국어 튜터링 서비스 개발, 이윤근
19HS7700, 다중 화자간 대화 음성인식 기술개발, 박전규
19ZS1100, 자율성장형 AI 핵심원천기술 연구, 송화전
20HS1700, 준지도학습형 언어지능 원천기술 및 이에 기반한 외국인 지원용 한국어 튜터링 서비스 개발, 이윤근
20HS5200, 다중 화자간 대화 음성인식 기술개발, 박전규
20ZS1100, 자율성장형 복합인공지능 원천기술 연구, 송화전
○ 인공지능연구소 지능정보연구본부 복합지능연구실에서는 종단형(End-to-End) 한국어 및 12개 언어 지원 음성인식 기술과 화자 분리 기술을 개발하였음.
○ 종단형 한국어 및 다국어 음성인식 기술은 하드웨어 기술의 발달과, 심층신경망(Deep Neural Network) 기반 심층학습(Deep Learning) 기술의 고도화 및 초대용량 언어음성 데이터에 기반하여 실현되는 고난이도 융복합 기술임.
○ 종단형 한국어 및 다국어 음성인식기술은 원어민 및 비원어민의 대규모 한국어 및 다국어 발성을 수집하고 가공하여, ESPnet과 같은 오픈소스를 활용한 종단형 음성인식기의 훈련 리소스로 사용하고 있으며, 자체 기술 개발을 통하여 우수한 성능의 한국어 및 다국어 음성인식 모델을 개발하였음.
○ 종단형 음성인식 기술은 비원어민의 한국어 또는 영어 발성평가에도 응용할 수 있어 외국어 학습에 적용이 용이함.
○ 회의 환경등과 같이 다수 화자가 같은 장소에서 발성하는 경우 각 화자별로 발성한 구간을 추정하는 화자분리 기술도 개발이 이루어짐.
○ 기존의 한국어 및 다국어 음성인식 기술은 여러 서비스 분야(컨택센터, 자동통역 서비스, 회의록 녹취, AI스피커, 언어 교육 등)에서 많은 실증 검증을 수행한 바 있으며, 종단형 음성인식 기술의 성능 향상을 감안할 때, 컨택센터(유무선 전화 기반의 콜센터, 온라인 및 오프라인 기반의 제반 고객센터 포함), 다국어 자동통역 서비스, 연설, 회의, 발표, 방송 등 각종 기록물 녹취, 인공지능 스피커, 음성챗봇서비스, 스마트홈, 스마트 가전, 군사용 음성인식, 비원어민의 외국어 학습 등 다양한 음성인식 관련 분야에서 활용도가 더욱 높아질 것을 기대하여 기술이전을 실시하고자 함.
○ Google을 필두로 한 글로벌 경쟁기술이 국내 음성 인식 시장을 선점하기 이전에 기술이전을 실시하여 기술경쟁력을 강화하고 향후에는 국외시장까지 진출하는 것을 목적으로 함.
○ 음성인식 관련 서비스의 급속한 활성화가 예상되는 시점에서 인공지능 전문 인력, 인프라, 자원을 보유하지 못한 개별 기업에서 종단형 음성인식 기술을 활용해 다양한 사업화를 진행할수 있도록 기술이전을 실시하고자 함.
○ 기존의 언어모델, 음향모델, 발음사전 등을 별도로 학습하는 방식에서 벗어나 종단형으로 통합 학습함으로써 높은 정밀도의 음성-문자 변환(speech-to-text conversion)이 가능함.
○ 음성인식 적용 도메인의 음성 및 텍스트 DB를 기반으로 적응학습 등을 통해 음성인식 성능을 제고할 수 있음.
○ 한국어 및 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어 등의 다국어를 지원함으로써 글로벌 경쟁력 확보를 통한 세계 시장 진출이 가능한 동시에 자동통역 서비스 등 다국어 관련 부가 서비스 개발이 용이함.
○ 비원어민의 한국어 또는 영어 발성에 대한 음성인식을 통한 발음 평가가 가능하여 고품질의 언어 교육 서비스 개발이 가능함.
○ 화자 분리 기술을 이용하여 다수의 화자가 발성하더라도 회의록 녹취 등을 효율적으로 진행할 수 있음.
세부기술1: 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 신경망 기반 음성인식모델 또는 음성인식 기반 발성평가모델 중 택1(양 모델 모두 단일 언어, 단일 샘플링 주파수 기준)
- 개별 언어 음성(하기 언어셋 중 하나)으로부터 인식단위에 따른 발음 및 언어 특성을 학습한 종단형 음성인식 모델(기본 베이스라인 모델 제공) 또는 음성인식 기반 비원어민의 발성 평가모델(한국어 또는 영어) 중 택1 : 두 가지 모델 모두 단일 샘플링 주파수(16kHz or 8kHz) 선택
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어
: 음성인식 기반 비원어민의 발성평가 모델 지원 언어 - 한국어, 영어
- 신경망 기반 언어모델 (개별 언어 텍스트로부터 인식 단위 간의 문법적 관계를 추출한 신경망 모델, 기본 베이스라인 모델 제공)
○ 종단형 음성인식 엔진 (리눅스, Ubuntu16.04버전 이상, 파이썬 기반 엔진 라이브러리, 서버-클라이언트 샘플, 한국어 및 다국어, 그리고 샘플링 주파수 16kHz 및 8kHz 지원
- 신경망 모델 기반 종단형 음성인식 기술(대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성을 텍스트로 변환하는 기술)
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 및 고속화를 위한 지원을 포함
- 트랜스포머를 기준으로 하되, 기술 추이에 따라 신경망 모델 및 세부 네트워크 등의 구성은 변동이 가능함
- CPU 기반(Zeon Gold5122 Dual 기준,8코어), 1초당 10~20초 분량 음성데이터처리, GPU 사용 가능
○ 엔진 튜닝 도구 (리눅스, Ubuntu16.04이상, 바이너리 제공)
- 사용자 어휘 등록 기술(Contextual ASR)
- 음성DB 적응 기술(새로운 발성환경에서 수집한 음성데이터를 기존 모델에 적응하는 딥러닝 학습 기술, 오픈소스 환경 적응 스크립트 포함)
- 언어DB 적응 기술(새로운 영역에서 추출한 문장 표현을 기존 언어모델에 적응하는 기술, 오픈소스 환경 적응 스크립트 포함)


세부기술2: 화자분리 기술
○ 회의 등과 같이 2명 이상의 사람이 무작위적 순서로 발성하는 환경에서 녹음된 단일채널 신호로부터 각 화자별로 발성한 구간 정보를 추정하여 출력하는 기술
○ 화자분리 엔진 (리눅스, CentOS 7 이상, cuda 10.0 이상, 샘플링 주파수 16kHz 지원)
- i-vector 기반 화자분리 기술, 일괄처리방식(batch) 모드로 동작
- 한국인 성인을 대상으로 동작
- GPU 기반, 41MB + 시간당 66MB GPU 메모리 사용, 1초당 5분 분량 음성데이터처리
세부기술1: 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 신경망 기반 음성인식 모델 또는 음성인식 기반 비원어민의 발성평가 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
○ 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 및 최적화 코드, Contextual ASR 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 관련 기술문서 및 지적재산권(하단 기재)


세부기술2: 화자분리 기술
○ 화자분리 소프트웨어
○ 관련 기술문서 및 지적재산권(별도 기재)
○ 다양한 음성인식기술 응용 업체가 종단형 한국어 및 다국어 음성 인식 기술과 화자 분리 기술 관련 비즈니스 모델(컨택센터(유무선 전화 기반의 콜센터, 온라인 및 오프라인 기반의 제반 고객센터 포함), 다국어 자동통역 서비스, 연설, 회의, 발표, 방송 등 각종 기록물 녹취, 인공지능 스피커, 음성챗봇서비스, 스마트홈, 스마트 가전, 군사용 음성인식, 언어 교육 등)을 적용할 수 있도록 함으로써 국내외 소프트웨어 산업 신시장을 창출하고 글로벌 인공지능 세계 시장 진출이 가능하도록 함.
○ ETRI는 기술이전업체와 공동으로 기술 상용화 시 문제점을 공유하고 해결 노력을 기울임으로써 기술의 완성도를 제고.