ETRI Knowledge Sharing Platform : End-to-End Speech Recognition Technology(supporting Korean and 12 languages/foreign language education) and Speaker Diarization Technology

기술이전 검색
Year	~	Transaction Count		Keyword

○ 인공지능연구소 지능정보연구본부 복합지능연구실에서는 종단형(End-to-End) 한국어 및 12개 언어 지원 음성인식 기술과 화자 분리 기술을 개발하였음.
○ 종단형 한국어 및 다국어 음성인식 기술은 하드웨어 기술의 발달과, 심층신경망(Deep Neural Network) 기반 심층학습(Deep Learning) 기술의 고도화 및 초대용량 언어음성 데이터에 기반하여 실현되는 고난이도 융복합 기술임.
○ 종단형 한국어 및 다국어 음성인식기술은 원어민 및 비원어민의 대규모 한국어 및 다국어 발성을 수집하고 가공하여, ESPnet과 같은 오픈소스를 활용한 종단형 음성인식기의 훈련 리소스로 사용하고 있으며, 자체 기술 개발을 통하여 우수한 성능의 한국어 및 다국어 음성인식 모델을 개발하였음.
○ 종단형 음성인식 기술은 비원어민의 한국어 또는 영어 발성평가에도 응용할 수 있어 외국어 학습에 적용이 용이함.
○ 회의 환경등과 같이 다수 화자가 같은 장소에서 발성하는 경우 각 화자별로 발성한 구간을 추정하는 화자분리 기술도 개발이 이루어짐.

○ 기존의 한국어 및 다국어 음성인식 기술은 여러 서비스 분야(컨택센터, 자동통역 서비스, 회의록 녹취, AI스피커, 언어 교육 등)에서 많은 실증 검증을 수행한 바 있으며, 종단형 음성인식 기술의 성능 향상을 감안할 때, 컨택센터(유무선 전화 기반의 콜센터, 온라인 및 오프라인 기반의 제반 고객센터 포함), 다국어 자동통역 서비스, 연설, 회의, 발표, 방송 등 각종 기록물 녹취, 인공지능 스피커, 음성챗봇서비스, 스마트홈, 스마트 가전, 군사용 음성인식, 비원어민의 외국어 학습 등 다양한 음성인식 관련 분야에서 활용도가 더욱 높아질 것을 기대하여 기술이전을 실시하고자 함.
○ Google을 필두로 한 글로벌 경쟁기술이 국내 음성 인식 시장을 선점하기 이전에 기술이전을 실시하여 기술경쟁력을 강화하고 향후에는 국외시장까지 진출하는 것을 목적으로 함.
○ 음성인식 관련 서비스의 급속한 활성화가 예상되는 시점에서 인공지능 전문 인력, 인프라, 자원을 보유하지 못한 개별 기업에서 종단형 음성인식 기술을 활용해 다양한 사업화를 진행할수 있도록 기술이전을 실시하고자 함.

○ 기존의 언어모델, 음향모델, 발음사전 등을 별도로 학습하는 방식에서 벗어나 종단형으로 통합 학습함으로써 높은 정밀도의 음성-문자 변환(speech-to-text conversion)이 가능함.
○ 음성인식 적용 도메인의 음성 및 텍스트 DB를 기반으로 적응학습 등을 통해 음성인식 성능을 제고할 수 있음.
○ 한국어 및 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어 등의 다국어를 지원함으로써 글로벌 경쟁력 확보를 통한 세계 시장 진출이 가능한 동시에 자동통역 서비스 등 다국어 관련 부가 서비스 개발이 용이함.
○ 비원어민의 한국어 또는 영어 발성에 대한 음성인식을 통한 발음 평가가 가능하여 고품질의 언어 교육 서비스 개발이 가능함.
○ 화자 분리 기술을 이용하여 다수의 화자가 발성하더라도 회의록 녹취 등을 효율적으로 진행할 수 있음.

세부기술1: 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 신경망 기반 음성인식모델 또는 음성인식 기반 발성평가모델 중 택1(양 모델 모두 단일 언어, 단일 샘플링 주파수 기준)
- 개별 언어 음성(하기 언어셋 중 하나)으로부터 인식단위에 따른 발음 및 언어 특성을 학습한 종단형 음성인식 모델(기본 베이스라인 모델 제공) 또는 음성인식 기반 비원어민의 발성 평가모델(한국어 또는 영어) 중 택1 : 두 가지 모델 모두 단일 샘플링 주파수(16kHz or 8kHz) 선택
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어
: 음성인식 기반 비원어민의 발성평가 모델 지원 언어 - 한국어, 영어
- 신경망 기반 언어모델 (개별 언어 텍스트로부터 인식 단위 간의 문법적 관계를 추출한 신경망 모델, 기본 베이스라인 모델 제공)
○ 종단형 음성인식 엔진 (리눅스, Ubuntu16.04버전 이상, 파이썬 기반 엔진 라이브러리, 서버-클라이언트 샘플, 한국어 및 다국어, 그리고 샘플링 주파수 16kHz 및 8kHz 지원
- 신경망 모델 기반 종단형 음성인식 기술(대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성을 텍스트로 변환하는 기술)
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 및 고속화를 위한 지원을 포함
- 트랜스포머를 기준으로 하되, 기술 추이에 따라 신경망 모델 및 세부 네트워크 등의 구성은 변동이 가능함
- CPU 기반(Zeon Gold5122 Dual 기준,8코어), 1초당 10~20초 분량 음성데이터처리, GPU 사용 가능
○ 엔진 튜닝 도구 (리눅스, Ubuntu16.04이상, 바이너리 제공)
- 사용자 어휘 등록 기술(Contextual ASR)
- 음성DB 적응 기술(새로운 발성환경에서 수집한 음성데이터를 기존 모델에 적응하는 딥러닝 학습 기술, 오픈소스 환경 적응 스크립트 포함)
- 언어DB 적응 기술(새로운 영역에서 추출한 문장 표현을 기존 언어모델에 적응하는 기술, 오픈소스 환경 적응 스크립트 포함)

세부기술2: 화자분리 기술
○ 회의 등과 같이 2명 이상의 사람이 무작위적 순서로 발성하는 환경에서 녹음된 단일채널 신호로부터 각 화자별로 발성한 구간 정보를 추정하여 출력하는 기술
○ 화자분리 엔진 (리눅스, CentOS 7 이상, cuda 10.0 이상, 샘플링 주파수 16kHz 지원)
- i-vector 기반 화자분리 기술, 일괄처리방식(batch) 모드로 동작
- 한국인 성인을 대상으로 동작
- GPU 기반, 41MB + 시간당 66MB GPU 메모리 사용, 1초당 5분 분량 음성데이터처리
세부기술1: 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 신경망 기반 음성인식 모델 또는 음성인식 기반 비원어민의 발성평가 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
○ 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 및 최적화 코드, Contextual ASR 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 관련 기술문서 및 지적재산권(하단 기재)

세부기술2: 화자분리 기술
○ 화자분리 소프트웨어
○ 관련 기술문서 및 지적재산권(별도 기재)

○ 다양한 음성인식기술 응용 업체가 종단형 한국어 및 다국어 음성 인식 기술과 화자 분리 기술 관련 비즈니스 모델(컨택센터(유무선 전화 기반의 콜센터, 온라인 및 오프라인 기반의 제반 고객센터 포함), 다국어 자동통역 서비스, 연설, 회의, 발표, 방송 등 각종 기록물 녹취, 인공지능 스피커, 음성챗봇서비스, 스마트홈, 스마트 가전, 군사용 음성인식, 언어 교육 등)을 적용할 수 있도록 함으로써 국내외 소프트웨어 산업 신시장을 창출하고 글로벌 인공지능 세계 시장 진출이 가능하도록 함.
○ ETRI는 기술이전업체와 공동으로 기술 상용화 시 문제점을 공유하고 해결 노력을 기울임으로써 기술의 완성도를 제고.

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI