ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Speech AI-based application technology(speech recognition, speech translation, MCI prediction, pronunciation assessment, speaker diarization) Ver. 1.0

Manager
Yun Seung
Participants
Transaction Count
0
Year
2025
Project Code
○ 인공지능창의연구소 지능정보연구본부 체화복합지능연구실에서는 음성AI기반 응용기술(음성인식, 자동통역, 경도인지장애판단, 발음평가, 화자분리기술)을 개발하였음
○ 음성AI 기반 응용 기술은 심층학습(Deep Learning) 기술의 고도화 및 초대용량 언어음성 데이터에 기반하여 실현되는 고난이도 융복합 기술임.
○ 종단형 한국어 및 다국어 음성인식기술은 대규모 한국어 및 다국어 발성을 수집하고 가공하여, 오픈소스를 활용한 종단형 음성인식기의 훈련 리소스로 사용하고 있으며, 자체 기술 개발을 통하여 우수한 성능의 한국어 및 다국어 음성인식 모델을 개발하였음.
○ 동시에 13개 언어 신경망 기반 자동 번역기술을 개발하여 자동통역기술 또한 완성하였음.
○ 다른 한 편으로 노인에 특화된 경도인지장애 판단 기술을 일상 대화 음성 기반으로 개발하였음.
○ 추가로 발음평가 기술은 비원어민의 한국어 또는 영어 발성평가에도 응용할 수 있어 외국어 학습에 적용이 용이함.
○ 회의 환경등과 같이 다수 화자가 같은 장소에서 발성하는 경우 각 화자별로 발성한 구간을 추정하는 화자분리 기술도 개발이 이루어짐.
○ 음성AI기반 응용기술은 여러 서비스 분야(AI 컨택센터, 자동통역 서비스, 회의록 녹취, AI스피커, 의료, 언어 교육 등)에서 많은 실증 검증을 수행하며 성능 향상 및 적용 분야를 확대해 온 바 다양한 음성 AI 응용 분야에서 활용도가 더욱 높아질 것을 기대하여 기술이전을 실시하고자 함
○ 최근 글로벌 빅테크 기업들의 음성AI기반 응용기술 성능이 급격히 향상되어 활용처가 급속히 확산되고 있지만 인공지능 전문 인력, 인프라, 자원을 보유하지 못한 개별 기업에서는 기술 개발 및 활용에 어려움을 겪고 있어 이를 타개할 수 있도록 기술이전을 실시하고자 함
○ 글로벌 빅테크 기업들의 음성AI 기술이 국내 음성AI 시장을 선점하기 이전에 기술이전을 실시하여 국내 기술 경쟁력을 강화하고 향후에는 국외시장까지 진출하는 것을 목적으로 함
○ 음성인식 기술의 경우 대용량의 한국어 및 다국어 음성 DB와 자체 기술을 활용하여 미리 훈련된 고성능 베이스라인 음성인식 모델을 이전 받음으로써 별도 DB 및 훈련 과정 없이 각 언어별 높은 성능의 음성인식 시스템 구현이 가능함.
○ 음성인식에 있어 Contextual-ASR(Phrase Hint) 기능, Fixed-Grammar(종단형)를 지원하여 도메인 튜닝의 용이성을 대폭 향상시킴.
○ 또한 음성 인식 언어에 있어 한국어 및 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어, 몽골어 등의 다국어를 지원함으로써 글로벌 경쟁력 확보를 통한 세계 시장 진출이 가능하며 한국어와 이들 13개 언어간의 자동통역 서비스 등의 개발도 가능함.
○ 음성인식 적용 도메인의 DB를 기반으로 적응학습 등을 통해 음성인식 성능을 제고할 수 있음(오픈소스 활용 및 추가 도구 제공).
○ 대화 음성 기반의 인지기능 저하 분석 및 경도인지장애(MCI) 판단이 가능함.
○ 비원어민의 한국어 발성 등에 대한 음소 단위 발음 평가가 가능하여 고품질의 언어 교육 서비스 개발이 가능함.
○ 화자 분리 기술을 이용하여 다수의 화자가 발성하더라도 회의록 녹취 등을 효율적으로 진행할 수 있음.
1. 세부기술1: 한국어 및 다국어 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 등 지원)
- 신경망 모델 기반 종단형 음성인식 기술
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함(ESPnet2 기반 모델 지원 범용성 확대)
- EPD(End-Point-Detection) 하이퍼 파라미터 조절 가능
- GPU 기반 고속 배치 병렬 처리 가능(종단형)
○ 엔진 튜닝 도구(리눅스, Ubuntu22.04 기준, 바이너리, 또는 스크립트 제공, CUDA 라이브러리 활용 GPU 기반)
- 사용자 어휘 등록 기술(Contextual ASR(Phrase-Hint))
- w-FST기반 Fixed-Grammar 반영 기술(종단형)
- 음성DB 적응 기술

2. 세부기술2: 한국어 및 다국어 실시간 스트리밍 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 엔진 및 실시간 스트리밍 종단형 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 등 지원)
- 종단형 음성인식엔진 기술을 포괄
- 스트리밍 트랜스포머를 기반으로 한 실시간 음성인식 모델 지원
○ 엔진 튜닝 도구(리눅스, Ubuntu22.04 기준, 바이너리, 또는 스크립트 제공, CUDA 라이브러리 활용 GPU 기반)

3. 세부기술3: 다국어 자동통역 기술
○ 한국어-13개 언어 자동통역엔진(PyTorch 기반 리눅스, 윈도우 지원)
- 신경망 모델 기반 종단형 음성인식 엔진 및 자동번역 엔진
- ESPnet과 같은 오픈소스를 활용하여 한국어-13개언어간의 음성인식 및 자동번역 시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함
- 음성인식의 경우 종단형 음성인식엔진 기술을 포괄
○ 엔진 튜닝 도구(리눅스(Ubuntu 22.04) 환경, 바이너리 또는 스크립트 제공, CUDA 라이브러리

4. 세부기술4: 대화형 일상발화 기반의 경도인지장애 판단기술(단일언어 선택)
○ 노인 자연어 발화 특화 음성인식(ASR) 기술
- 대용량 음성 코퍼스 기반의 종단형 음성인식을 기반 기술로 하여, 노년층을 대상으로 한 대화형 일상발화 기반의 경도인지장애 판단을 위해 최적화된 음성인식 기술
○ 음성 발화 기반의 인지기능 분석 및 경도인지장애(MCI) 판단 기술
- 대화형 일상 발화 태스크를 통해 얻어진 노년층 대상자 발화 음성 및 음성인식 결과 텍스트 기반의 인지기능 저하 분석 및 경도인지장애 판단 기술

5. 세부기술5: 발음 평가 기술(단일 언어 선택)
○ 음소 단위 발음평가 엔진
- 신경망 모델 기반 종단형 발음인식 기술 (대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성의 발음을 음절 시퀀스로 변환하는 기술)
- 음절 단위로 인식된 발음열을 음소(자모) 단위로 분할하여 음소 시퀀스로 변환한 뒤, 이를 정답 음소 시퀀스와의 비교를 통한 발음 오류의 위치 및 유형을 판별하는 기술
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함

6. 세부기술6: 화자분리기술
○ 화자분리 엔진 (리눅스, CentOS 7 이상, cuda 10.0 이상, 샘플링 주파수 16kHz 지원)
- i-vector 기반 화자분리 기술, 일괄처리방식(batch) 모드로 동작
- 한국인 성인을 대상으로 동작
- GPU 기반, 41MB + 시간당 66MB GPU 메모리 사용, 1초당 5분 분량 음성데이터처리
1. 세부기술1: 한국어 및 다국어 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR, w-FST 기반 Fixed-Grammar 지원 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 종단형 음성인식 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어, 몽골어

2. 세부기술2: 한국어 및 다국어 실시간 스트리밍 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 소프트웨어 및 실시간 스트리밍 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR, w-FST 기반 Fixed-Grammar 지원(종단형 한정) 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 종단형 음성인식 모델 및 실시간 스트리밍 음성인식 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어, 몽골어

3. 세부기술3: 다국어 자동통역 기술
○ 한국어-13개 언어 자동통역 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR 도구 및 음성인식/자동번역 엔진 적응 스크립트 포함)
○ 한국어 및 13개 언어 종단형 자동통역(음성인식/자동번역) 모델
- 13개 언어: 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이시아어, 몽골어
○ 본 한국어-13개 언어 자동통역기술은 자동통역 엔진의 세부 구성기술인 음성인식 엔진과 자동번역 엔진의 자동통역기술 외 타용도 서비스 적용이 불가함.(예를 들어 자동통역을 타겟으로 하지 않는 음성인식 단독 서비스 등에 적용 불가, 자동통역을 타겟으로 하지 않는 문서번역 서비스 등에 적용 불가)

4. 세부기술4: 대화형 일상발화 기반의 경도인지장애 판단기술(단일언어 선택)
○ 음성/텍스트 대용량 사전학습모델 및 오픈소스 설치 환경에서 동작. 대화 음성 기반의 인지기능 저하 분석 및 경도인지장애 판단 모델 학습을 위한 훈련 스크립트 및 경도인지장애 판단 소프트웨어 예제 코드 제공 가능
○ 한국어 대화형 일상 발화 태스크를 대상으로 얻어진 경도인지장애 노인 및 정상 노인 데이터로 학습된, 인지기능 저하 분석 및 경도인지장애 판단 모델 제공 가능
○ 세부 구성기술인 음성인식엔진은 경도인지장애 판단의 부속 기술로 이에 한정되어 사용되어야 함. 경도 인지 장애 판단 목적이 아닌 타용도 또는 단독 용도 적용이 불가함

5. 세부기술5: 발음 평가 기술(단일 언어 선택)
○ 음소 단위 발음평가 소프트웨어
- 오픈소스 설치 환경에서 동작, 사용 예제 코드 등의 도구 및 발음인식 모델 적응학습 스크립트 포함가. 기술이전의 내용
○ 세부 구성기술인 음성인식엔진은 발음평가의 부속 기술로 이에 한정되어 사용되어야 함. 발음평가 목적이 아닌 타용도 또는 단독 용도 적용이 불가함

6. 세부기술6: 화자분리기술
○ 화자분리 소프트웨어
- 종단형 음성인식엔진과 결합해 사용하는 경우 별도 x-vector 기반의 향상된 화자 분리 기술 적용 소프트웨어 제공 가능
○ 음성인식 기반 AI컨택센터, AI키오스크, AI비서, 음성 자막 자동 생성, 화자 분리 기술을 응용한 회의록 자동 작성, 자동통역 기술 기반 자동통역 키오스크, 자동통역 이어폰, 자동 음성자막 번역 등에 활용 가능
○ 경도인지장애 판단 기술의 경우 노인 자연어 발화에 특화된 경도인지장애 판단앱, 키오스크 등에 활용 가능
○ 음소 기반 발음평가 기술의 경우 외국인(비원어민)을 대상으로 한 한국어 교육앱에 활용 가능
○ ETRI는 기술이전업체와 공동으로 기술 상용화 시 문제점을 공유하고 해결 노력을 기울임으로써 기술의 완성도를 제고