세부기술1: 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 신경망 기반 음성인식모델 또는 음성인식 기반 발성평가모델 중 택1(양 모델 모두 단일 언어, 단일 샘플링 주파수 기준)
- 개별 언어 음성(하기 언어셋 중 하나)으로부터 인식단위에 따른 발음 및 언어 특성을 학습한 종단형 음성인식 모델(기본 베이스라인 모델 제공) 또는 음성인식 기반 비원어민의 발성 평가모델(한국어 또는 영어) 중 택1 : 두 가지 모델 모두 단일 샘플링 주파수(16kHz or 8kHz) 선택
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어
: 음성인식 기반 비원어민의 발성평가 모델 지원 언어 - 한국어, 영어
- 신경망 기반 언어모델 (개별 언어 텍스트로부터 인식 단위 간의 문법적 관계를 추출한 신경망 모델, 기본 베이스라인 모델 제공)
○ 종단형 음성인식 엔진 (리눅스, Ubuntu16.04버전 이상, 파이썬 기반 엔진 라이브러리, 서버-클라이언트 샘플, 한국어 및 다국어, 그리고 샘플링 주파수 16kHz 및 8kHz 지원
- 신경망 모델 기반 종단형 음성인식 기술(대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성을 텍스트로 변환하는 기술)
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 및 고속화를 위한 지원을 포함
- 트랜스포머를 기준으로 하되, 기술 추이에 따라 신경망 모델 및 세부 네트워크 등의 구성은 변동이 가능함
- CPU 기반(Zeon Gold5122 Dual 기준,8코어), 1초당 10~20초 분량 음성데이터처리, GPU 사용 가능
○ 엔진 튜닝 도구 (리눅스, Ubuntu16.04이상, 바이너리 제공)
- 사용자 어휘 등록 기술(Contextual ASR)
- 음성DB 적응 기술(새로운 발성환경에서 수집한 음성데이터를 기존 모델에 적응하는 딥러닝 학습 기술, 오픈소스 환경 적응 스크립트 포함)
- 언어DB 적응 기술(새로운 영역에서 추출한 문장 표현을 기존 언어모델에 적응하는 기술, 오픈소스 환경 적응 스크립트 포함)
세부기술2: 화자분리 기술
○ 회의 등과 같이 2명 이상의 사람이 무작위적 순서로 발성하는 환경에서 녹음된 단일채널 신호로부터 각 화자별로 발성한 구간 정보를 추정하여 출력하는 기술
○ 화자분리 엔진 (리눅스, CentOS 7 이상, cuda 10.0 이상, 샘플링 주파수 16kHz 지원)
- i-vector 기반 화자분리 기술, 일괄처리방식(batch) 모드로 동작
- 한국인 성인을 대상으로 동작
- GPU 기반, 41MB + 시간당 66MB GPU 메모리 사용, 1초당 5분 분량 음성데이터처리
세부기술1: 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 신경망 기반 음성인식 모델 또는 음성인식 기반 비원어민의 발성평가 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
○ 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 및 최적화 코드, Contextual ASR 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 관련 기술문서 및 지적재산권(하단 기재)
세부기술2: 화자분리 기술
○ 화자분리 소프트웨어
○ 관련 기술문서 및 지적재산권(별도 기재)