1. 세부기술1: 한국어 및 다국어 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 등 지원)
- 신경망 모델 기반 종단형 음성인식 기술
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함(ESPnet2 기반 모델 지원 범용성 확대)
- EPD(End-Point-Detection) 하이퍼 파라미터 조절 가능
- GPU 기반 고속 배치 병렬 처리 가능(종단형)
○ 엔진 튜닝 도구(리눅스, Ubuntu22.04 기준, 바이너리, 또는 스크립트 제공, CUDA 라이브러리 활용 GPU 기반)
- 사용자 어휘 등록 기술(Contextual ASR(Phrase-Hint))
- w-FST기반 Fixed-Grammar 반영 기술(종단형)
- 음성DB 적응 기술
2. 세부기술2: 한국어 및 다국어 실시간 스트리밍 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 엔진 및 실시간 스트리밍 종단형 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 등 지원)
- 종단형 음성인식엔진 기술을 포괄
- 스트리밍 트랜스포머를 기반으로 한 실시간 음성인식 모델 지원
○ 엔진 튜닝 도구(리눅스, Ubuntu22.04 기준, 바이너리, 또는 스크립트 제공, CUDA 라이브러리 활용 GPU 기반)
3. 세부기술3: 다국어 자동통역 기술
○ 한국어-13개 언어 자동통역엔진(PyTorch 기반 리눅스, 윈도우 지원)
- 신경망 모델 기반 종단형 음성인식 엔진 및 자동번역 엔진
- ESPnet과 같은 오픈소스를 활용하여 한국어-13개언어간의 음성인식 및 자동번역 시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함
- 음성인식의 경우 종단형 음성인식엔진 기술을 포괄
○ 엔진 튜닝 도구(리눅스(Ubuntu 22.04) 환경, 바이너리 또는 스크립트 제공, CUDA 라이브러리
4. 세부기술4: 대화형 일상발화 기반의 경도인지장애 판단기술(단일언어 선택)
○ 노인 자연어 발화 특화 음성인식(ASR) 기술
- 대용량 음성 코퍼스 기반의 종단형 음성인식을 기반 기술로 하여, 노년층을 대상으로 한 대화형 일상발화 기반의 경도인지장애 판단을 위해 최적화된 음성인식 기술
○ 음성 발화 기반의 인지기능 분석 및 경도인지장애(MCI) 판단 기술
- 대화형 일상 발화 태스크를 통해 얻어진 노년층 대상자 발화 음성 및 음성인식 결과 텍스트 기반의 인지기능 저하 분석 및 경도인지장애 판단 기술
5. 세부기술5: 발음 평가 기술(단일 언어 선택)
○ 음소 단위 발음평가 엔진
- 신경망 모델 기반 종단형 발음인식 기술 (대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성의 발음을 음절 시퀀스로 변환하는 기술)
- 음절 단위로 인식된 발음열을 음소(자모) 단위로 분할하여 음소 시퀀스로 변환한 뒤, 이를 정답 음소 시퀀스와의 비교를 통한 발음 오류의 위치 및 유형을 판별하는 기술
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함
6. 세부기술6: 화자분리기술
○ 화자분리 엔진 (리눅스, CentOS 7 이상, cuda 10.0 이상, 샘플링 주파수 16kHz 지원)
- i-vector 기반 화자분리 기술, 일괄처리방식(batch) 모드로 동작
- 한국인 성인을 대상으로 동작
- GPU 기반, 41MB + 시간당 66MB GPU 메모리 사용, 1초당 5분 분량 음성데이터처리
1. 세부기술1: 한국어 및 다국어 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR, w-FST 기반 Fixed-Grammar 지원 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 종단형 음성인식 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어, 몽골어
2. 세부기술2: 한국어 및 다국어 실시간 스트리밍 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 소프트웨어 및 실시간 스트리밍 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR, w-FST 기반 Fixed-Grammar 지원(종단형 한정) 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 종단형 음성인식 모델 및 실시간 스트리밍 음성인식 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어, 몽골어
3. 세부기술3: 다국어 자동통역 기술
○ 한국어-13개 언어 자동통역 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR 도구 및 음성인식/자동번역 엔진 적응 스크립트 포함)
○ 한국어 및 13개 언어 종단형 자동통역(음성인식/자동번역) 모델
- 13개 언어: 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이시아어, 몽골어
○ 본 한국어-13개 언어 자동통역기술은 자동통역 엔진의 세부 구성기술인 음성인식 엔진과 자동번역 엔진의 자동통역기술 외 타용도 서비스 적용이 불가함.(예를 들어 자동통역을 타겟으로 하지 않는 음성인식 단독 서비스 등에 적용 불가, 자동통역을 타겟으로 하지 않는 문서번역 서비스 등에 적용 불가)
4. 세부기술4: 대화형 일상발화 기반의 경도인지장애 판단기술(단일언어 선택)
○ 음성/텍스트 대용량 사전학습모델 및 오픈소스 설치 환경에서 동작. 대화 음성 기반의 인지기능 저하 분석 및 경도인지장애 판단 모델 학습을 위한 훈련 스크립트 및 경도인지장애 판단 소프트웨어 예제 코드 제공 가능
○ 한국어 대화형 일상 발화 태스크를 대상으로 얻어진 경도인지장애 노인 및 정상 노인 데이터로 학습된, 인지기능 저하 분석 및 경도인지장애 판단 모델 제공 가능
○ 세부 구성기술인 음성인식엔진은 경도인지장애 판단의 부속 기술로 이에 한정되어 사용되어야 함. 경도 인지 장애 판단 목적이 아닌 타용도 또는 단독 용도 적용이 불가함
5. 세부기술5: 발음 평가 기술(단일 언어 선택)
○ 음소 단위 발음평가 소프트웨어
- 오픈소스 설치 환경에서 동작, 사용 예제 코드 등의 도구 및 발음인식 모델 적응학습 스크립트 포함가. 기술이전의 내용
○ 세부 구성기술인 음성인식엔진은 발음평가의 부속 기술로 이에 한정되어 사용되어야 함. 발음평가 목적이 아닌 타용도 또는 단독 용도 적용이 불가함
6. 세부기술6: 화자분리기술
○ 화자분리 소프트웨어
- 종단형 음성인식엔진과 결합해 사용하는 경우 별도 x-vector 기반의 향상된 화자 분리 기술 적용 소프트웨어 제공 가능