기술명: 실시간 스트리밍 종단형 음성인식 기술(한국어, 다국어 및 발성평가용) 및 화자분리기술(Ver. 1.3)
2.1. 세부기술1: 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)(Ver. 1.3.)
가. 기술이전의 내용
○ 종단형 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 및 MacOS 지원)
- 신경망 모델 기반 종단형 음성인식 기술(대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성을 텍스트로 변환하는 기술)
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함
- 음성인식 기반 비원어민의 발성평가모델을 기반으로 발성평가 기술 지원
- 트랜스포머를 기준으로 하되, 기술 추이에 따라 신경망 모델 및 세부 네트워크 등의 구성은 변동이 가능함
○ 엔진 튜닝 도구(리눅스, Ubuntu16.04이상, 바이너리, 또는 스크립트 제공)
- 사용자 어휘 등록 기술(Contextual ASR(Phrase-Hint))
- w-FST기반 Fixed-Grammar 반영 기술
- 음성DB 적응 기술(새로운 발성환경에서 수집한 음성데이터를 기존 모델에 적응하는 딥러닝 학습 기술, 오픈소스 환경 적응 스크립트 포함)
나. 기술이전의 범위
○ 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR, w-FST 기반 Fixed-Grammar 지원 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 종단형 음성인식 모델 또는 음성인식 기반 비원어민의 발성평가 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어
: 음성인식 기반 비원어민의 발성평가 모델 지원 언어(16kHz) - 한국어, 영어(발성평가를 선택하는 경우 음성인식용으로는 사용 불가함.)
2.1. 세부기술2: 실시간 스트리밍 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)(Ver. 1.3.)
가. 기술이전의 내용
○ 종단형 음성인식 엔진 및 실시간 스트리밍 종단형 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 및 MacOS 지원)
- 신경망 모델 기반 종단형 음성인식 기술 (대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성을 텍스트 변환하는 기술)
- 스트리밍 트랜스포머를 기반으로 한 실시간 음성인식 모델 지원
- 음성인식 기반 비원어민의 발성평가모델을 기반으로 발성평가 기술 지원
- 트랜스포머를 기준으로 하되, 기술 추이에 따라 신경망 모델 및 세부 네트워크 등의 구성은 변동이 가능함
○ 엔진 튜닝 도구(리눅스, Ubuntu16.04이상, 바이너리, 또는 스크립트 제공)
- 사용자 어휘 등록 기술(Contextual ASR(Phrase-Hint))
- w-FST기반 Fixed-Grammar 반영 기술(종단형 한정)
- 음성DB 적응 기술(새로운 발성환경에서 수집한 음성데이터를 기존 모델에 적응하는 딥러닝 학습 기술, 오픈소스 환경 적응 스크립트 포함)
나. 기술이전의 범위
○ 종단형 음성인식 소프트웨어 및 실시간 스트리밍 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR, w-FST 기반 Fixed-Grammar 지원(종단형 한정) 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 종단형 음성인식 모델 및 실시간 스트리밍 음성인식 모델 또는 종단형 음성인식 기반 비원어민의 발성평가 모델 및 실시간 스트리밍 종단형 음성인식 기반 비원어민의 발성평가모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어
: 음성인식 기반 비원어민의 발성평가 모델 지원 언어(16kHz) - 한국어, 영어(발성평가를 선택하는 경우 음성인식용으로는 사용 불가함.)
3. 세부기술3: 화자분리기술(Ver. 1.3.)
○ 화자분리 소프트웨어
- 종단형 음성인식엔진과 결합해 사용하는 경우 별도 x-vector 기반의 향상된 화자 분리 기술 적용 소프트웨어 제공 가능
○ 관련 기술문서 및 지적재산권(하단 기재)