ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Speech AI-based application technology(speech recognition, speech translation, MCI prediction, pronunciation assessment, speaker diarization) Ver. 1.0

Manager
Yun Seung
Participants
Kang Byung Ok, Kang Jeom Ja, Kim Dong Hyun, Sanghun Kim, Kim Seung Hi, Yoonhyung Kim, Kim Cheol Ho, Hyun Woo Kim, Kiyoung Park, Bang Jeonguk, Hwa Jeon Song, Shin Younghwan, Jeongmin Yang, Yoo Byunghyun, Yun Seung, Min Kyu Lee, Byounghwa Lee, Lee Sung Yup, Lee Yunkeun, Lee Junghoon, Euisok Chung, Chung Hoon, Choi Mu Yeol, Woo Yong Choi, Ran Han
Transaction Count
1
Year
2025
Project Code
24HB3800, Development of Multi-speaker Dialog Modeling and Summarization Technology, Hwa Jeon Song
24ZB1100, Core Technology Research for Self-Improving Integrated Artificial Intelligence System, Hwa Jeon Song
25HB3800, Development of Multi-speaker Dialog Modeling and Summarization Technology, Hwa Jeon Song
25ZB1100, Core Technology Research for Self-Improving Integrated Artificial Intelligence System, Hwa Jeon Song
23HS4300, Multimodal interaction artificial intelligence technology that interacts with humans, Kim Seung Hi
24HB4300, Multimodal interaction artificial intelligence technology that interacts with humans, Kim Seung Hi
25HB4300, Multimodal interaction artificial intelligence technology that interacts with humans, Kim Seung Hi
25HB1300, Development of detection and prediction technology for new and unknown voice phishing, Yun Seung
22HS4800, Development of semi-supervised learning language intelligence technology and Korean tutoring service for foreigners, Lee Yunkeun
23HS5500, Development of semi-supervised learning language intelligence technology and Korean tutoring service for foreigners, Lee Yunkeun
23IB1800, 노년층의 일상생활 발화 빅데이터 구축을 통한 AI기반 퇴행성 뇌기능 저하 평가 기술 개발, Kang Byung Ok
24IB2600, 노년층의 일상생활 발화 빅데이터 구축을 통한 AI기반 퇴행성 뇌기능 저하 평가 기술 개발, Kang Byung Ok
24HB5500, Development of semi-supervised learning language intelligence technology and Korean tutoring service for foreigners, Huang Jinxia
25HB5500, Development of semi-supervised learning language intelligence technology and Korean tutoring service for foreigners, Huang Jinxia
○ 인공지능창의연구소 지능정보연구본부 체화복합지능연구실에서는 음성AI기반 응용기술(음성인식, 자동통역, 경도인지장애판단, 발음평가, 화자분리기술)을 개발하였음
○ 음성AI 기반 응용 기술은 심층학습(Deep Learning) 기술의 고도화 및 초대용량 언어음성 데이터에 기반하여 실현되는 고난이도 융복합 기술임.
○ 종단형 한국어 및 다국어 음성인식기술은 대규모 한국어 및 다국어 발성을 수집하고 가공하여, 오픈소스를 활용한 종단형 음성인식기의 훈련 리소스로 사용하고 있으며, 자체 기술 개발을 통하여 우수한 성능의 한국어 및 다국어 음성인식 모델을 개발하였음.
○ 동시에 13개 언어 신경망 기반 자동 번역기술을 개발하여 자동통역기술 또한 완성하였음.
○ 다른 한 편으로 노인에 특화된 경도인지장애 판단 기술을 일상 대화 음성 기반으로 개발하였음.
○ 추가로 발음평가 기술은 비원어민의 한국어 또는 영어 발성평가에도 응용할 수 있어 외국어 학습에 적용이 용이함.
○ 회의 환경등과 같이 다수 화자가 같은 장소에서 발성하는 경우 각 화자별로 발성한 구간을 추정하는 화자분리 기술도 개발이 이루어짐.
○ 음성AI기반 응용기술은 여러 서비스 분야(AI 컨택센터, 자동통역 서비스, 회의록 녹취, AI스피커, 의료, 언어 교육 등)에서 많은 실증 검증을 수행하며 성능 향상 및 적용 분야를 확대해 온 바 다양한 음성 AI 응용 분야에서 활용도가 더욱 높아질 것을 기대하여 기술이전을 실시하고자 함
○ 최근 글로벌 빅테크 기업들의 음성AI기반 응용기술 성능이 급격히 향상되어 활용처가 급속히 확산되고 있지만 인공지능 전문 인력, 인프라, 자원을 보유하지 못한 개별 기업에서는 기술 개발 및 활용에 어려움을 겪고 있어 이를 타개할 수 있도록 기술이전을 실시하고자 함
○ 글로벌 빅테크 기업들의 음성AI 기술이 국내 음성AI 시장을 선점하기 이전에 기술이전을 실시하여 국내 기술 경쟁력을 강화하고 향후에는 국외시장까지 진출하는 것을 목적으로 함
○ 음성인식 기술의 경우 대용량의 한국어 및 다국어 음성 DB와 자체 기술을 활용하여 미리 훈련된 고성능 베이스라인 음성인식 모델을 이전 받음으로써 별도 DB 및 훈련 과정 없이 각 언어별 높은 성능의 음성인식 시스템 구현이 가능함.
○ 음성인식에 있어 Contextual-ASR(Phrase Hint) 기능, Fixed-Grammar(종단형)를 지원하여 도메인 튜닝의 용이성을 대폭 향상시킴.
○ 또한 음성 인식 언어에 있어 한국어 및 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어, 몽골어 등의 다국어를 지원함으로써 글로벌 경쟁력 확보를 통한 세계 시장 진출이 가능하며 한국어와 이들 13개 언어간의 자동통역 서비스 등의 개발도 가능함.
○ 음성인식 적용 도메인의 DB를 기반으로 적응학습 등을 통해 음성인식 성능을 제고할 수 있음(오픈소스 활용 및 추가 도구 제공).
○ 대화 음성 기반의 인지기능 저하 분석 및 경도인지장애(MCI) 판단이 가능함.
○ 비원어민의 한국어 발성 등에 대한 음소 단위 발음 평가가 가능하여 고품질의 언어 교육 서비스 개발이 가능함.
○ 화자 분리 기술을 이용하여 다수의 화자가 발성하더라도 회의록 녹취 등을 효율적으로 진행할 수 있음.
1. 세부기술1: 한국어 및 다국어 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 등 지원)
- 신경망 모델 기반 종단형 음성인식 기술
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함(ESPnet2 기반 모델 지원 범용성 확대)
- EPD(End-Point-Detection) 하이퍼 파라미터 조절 가능
- GPU 기반 고속 배치 병렬 처리 가능(종단형)
○ 엔진 튜닝 도구(리눅스, Ubuntu22.04 기준, 바이너리, 또는 스크립트 제공, CUDA 라이브러리 활용 GPU 기반)
- 사용자 어휘 등록 기술(Contextual ASR(Phrase-Hint))
- w-FST기반 Fixed-Grammar 반영 기술(종단형)
- 음성DB 적응 기술

2. 세부기술2: 한국어 및 다국어 실시간 스트리밍 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 엔진 및 실시간 스트리밍 종단형 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 등 지원)
- 종단형 음성인식엔진 기술을 포괄
- 스트리밍 트랜스포머를 기반으로 한 실시간 음성인식 모델 지원
○ 엔진 튜닝 도구(리눅스, Ubuntu22.04 기준, 바이너리, 또는 스크립트 제공, CUDA 라이브러리 활용 GPU 기반)

3. 세부기술3: 다국어 자동통역 기술
○ 한국어-13개 언어 자동통역엔진(PyTorch 기반 리눅스, 윈도우 지원)
- 신경망 모델 기반 종단형 음성인식 엔진 및 자동번역 엔진
- ESPnet과 같은 오픈소스를 활용하여 한국어-13개언어간의 음성인식 및 자동번역 시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함
- 음성인식의 경우 종단형 음성인식엔진 기술을 포괄
○ 엔진 튜닝 도구(리눅스(Ubuntu 22.04) 환경, 바이너리 또는 스크립트 제공, CUDA 라이브러리

4. 세부기술4: 대화형 일상발화 기반의 경도인지장애 판단기술(단일언어 선택)
○ 노인 자연어 발화 특화 음성인식(ASR) 기술
- 대용량 음성 코퍼스 기반의 종단형 음성인식을 기반 기술로 하여, 노년층을 대상으로 한 대화형 일상발화 기반의 경도인지장애 판단을 위해 최적화된 음성인식 기술
○ 음성 발화 기반의 인지기능 분석 및 경도인지장애(MCI) 판단 기술
- 대화형 일상 발화 태스크를 통해 얻어진 노년층 대상자 발화 음성 및 음성인식 결과 텍스트 기반의 인지기능 저하 분석 및 경도인지장애 판단 기술

5. 세부기술5: 발음 평가 기술(단일 언어 선택)
○ 음소 단위 발음평가 엔진
- 신경망 모델 기반 종단형 발음인식 기술 (대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성의 발음을 음절 시퀀스로 변환하는 기술)
- 음절 단위로 인식된 발음열을 음소(자모) 단위로 분할하여 음소 시퀀스로 변환한 뒤, 이를 정답 음소 시퀀스와의 비교를 통한 발음 오류의 위치 및 유형을 판별하는 기술
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함

6. 세부기술6: 화자분리기술
○ 화자분리 엔진 (리눅스, CentOS 7 이상, cuda 10.0 이상, 샘플링 주파수 16kHz 지원)
- i-vector 기반 화자분리 기술, 일괄처리방식(batch) 모드로 동작
- 한국인 성인을 대상으로 동작
- GPU 기반, 41MB + 시간당 66MB GPU 메모리 사용, 1초당 5분 분량 음성데이터처리
1. 세부기술1: 한국어 및 다국어 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR, w-FST 기반 Fixed-Grammar 지원 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 종단형 음성인식 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어, 몽골어

2. 세부기술2: 한국어 및 다국어 실시간 스트리밍 종단형 음성인식 기술(단일 언어, 단일 샘플링 주파수 기준)
○ 종단형 음성인식 소프트웨어 및 실시간 스트리밍 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR, w-FST 기반 Fixed-Grammar 지원(종단형 한정) 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 종단형 음성인식 모델 및 실시간 스트리밍 음성인식 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어, 몽골어

3. 세부기술3: 다국어 자동통역 기술
○ 한국어-13개 언어 자동통역 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR 도구 및 음성인식/자동번역 엔진 적응 스크립트 포함)
○ 한국어 및 13개 언어 종단형 자동통역(음성인식/자동번역) 모델
- 13개 언어: 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이시아어, 몽골어
○ 본 한국어-13개 언어 자동통역기술은 자동통역 엔진의 세부 구성기술인 음성인식 엔진과 자동번역 엔진의 자동통역기술 외 타용도 서비스 적용이 불가함.(예를 들어 자동통역을 타겟으로 하지 않는 음성인식 단독 서비스 등에 적용 불가, 자동통역을 타겟으로 하지 않는 문서번역 서비스 등에 적용 불가)

4. 세부기술4: 대화형 일상발화 기반의 경도인지장애 판단기술(단일언어 선택)
○ 음성/텍스트 대용량 사전학습모델 및 오픈소스 설치 환경에서 동작. 대화 음성 기반의 인지기능 저하 분석 및 경도인지장애 판단 모델 학습을 위한 훈련 스크립트 및 경도인지장애 판단 소프트웨어 예제 코드 제공 가능
○ 한국어 대화형 일상 발화 태스크를 대상으로 얻어진 경도인지장애 노인 및 정상 노인 데이터로 학습된, 인지기능 저하 분석 및 경도인지장애 판단 모델 제공 가능
○ 세부 구성기술인 음성인식엔진은 경도인지장애 판단의 부속 기술로 이에 한정되어 사용되어야 함. 경도 인지 장애 판단 목적이 아닌 타용도 또는 단독 용도 적용이 불가함

5. 세부기술5: 발음 평가 기술(단일 언어 선택)
○ 음소 단위 발음평가 소프트웨어
- 오픈소스 설치 환경에서 동작, 사용 예제 코드 등의 도구 및 발음인식 모델 적응학습 스크립트 포함가. 기술이전의 내용
○ 세부 구성기술인 음성인식엔진은 발음평가의 부속 기술로 이에 한정되어 사용되어야 함. 발음평가 목적이 아닌 타용도 또는 단독 용도 적용이 불가함

6. 세부기술6: 화자분리기술
○ 화자분리 소프트웨어
- 종단형 음성인식엔진과 결합해 사용하는 경우 별도 x-vector 기반의 향상된 화자 분리 기술 적용 소프트웨어 제공 가능
○ 음성인식 기반 AI컨택센터, AI키오스크, AI비서, 음성 자막 자동 생성, 화자 분리 기술을 응용한 회의록 자동 작성, 자동통역 기술 기반 자동통역 키오스크, 자동통역 이어폰, 자동 음성자막 번역 등에 활용 가능
○ 경도인지장애 판단 기술의 경우 노인 자연어 발화에 특화된 경도인지장애 판단앱, 키오스크 등에 활용 가능
○ 음소 기반 발음평가 기술의 경우 외국인(비원어민)을 대상으로 한 한국어 교육앱에 활용 가능
○ ETRI는 기술이전업체와 공동으로 기술 상용화 시 문제점을 공유하고 해결 노력을 기울임으로써 기술의 완성도를 제고