ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Multilingual Common Speech DB(Ver. 1.0)

Manager
Yun Seung
Participants
Kim Dong Hyun, Sanghun Kim, Kim Seung Hi, Yeojeong Kim, Park Jun, Yun Seung, Min Kyu Lee, Young Jik Lee, Choi Mu Yeol
Transaction Count
1
Year
2020
Project Code
20ZS1100, Core Technology Research for Self-Improving Integrated Artificial Intelligence System, Hwa Jeon Song
19ZS1100, Core Technology Research for Self-Improving Artificial Intelligence System, Hwa Jeon Song
○ 인공지능연구소 지능정보연구본부 복합지능연구실에서는 산업계, 학계, 연구소 등의 언어음성 기반기술 확대 및 기술 선진화를 위하여 한국어 공통음성DB를 기술이전해 온 바 있음.
○ 글로벌화 시대를 맞아 다국어 음성 DB에 대한 수요가 지속적으로 증가하고 있는 현실을 고려해 다국어 공통음성DB에 대한 기술이전을 실시하고자 함.
○ 최근의 음성언어처리기술은 딥러닝 기술의 발전과 함께 대용량 데이터에 기반하여 실현되고 있음.
○ 다국어 AI 분야 기술경쟁 우위 확보를 위한 국가간 경쟁이 심화되고 있는 가운데, 인공지능 학습용 음성 데이터가 부족한 현실을 감안하여 다국어 공통음성DB를 기술이전하고자 함.
○ 본 DB를 활용한 다국어 음성인식 기반 기술 개발을 통하여 인공지능 스피커, 음성 챗봇 서비스, 강의용 음성인식, 스마트홈, 스마트 가전, 스마트카, 군사용 음성인식 등 다양한 응용 분야에 활용이 가능하다고 판단하여 기술이전을 실시하고자 함.
○ 또한 Google, Apple, Amazon, 뉘앙스 등 글로벌 경쟁기술이 국내 언어음성 시장을 선점하기 이전에 기술 개발이 가능하도록 DB 기술이전을 실시하여 기술경쟁력을 강화하는 동시에 국외시장까지 진출하기 위한 주춧돌로 삼고자 함.
○ 다국어 공통음성DB의 경우 다국어 음성인식 훈련을 위한 음성데이터베이스로, 적절한 길이의 문장으로 구성되어 있음.
○ 특히 본 DB는 크라우드 소싱 방식을 통하여 DB를 수집함으로써 다양한 화자와 다양한 스마트폰 채널 환경 특성을 반영할 수 있도록 하였음.(다만 수집된 DB에 대해 전수 검사를 실시하지는 않았으며, 샘플링 검사 및 음성인식기술을 활용하여 품질을 제고하였음)
○ 본 DB를 활용하여 ‘2018 평창 동계 올림픽’ 음성 인식 및 자동통역 서비스 등 실제 다국어 음성인식 기술 개발을 진행하면서 자체적으로 안정성 및 활용성을 검증한 바 있음.
세부기술1: 영어 음성인식용 문장 DB
○ 영어 음성인식용 문장 DB
○ 2,000여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 영어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 다양함.

세부기술2: 중국어 음성인식용 문장 DB
○ 중국어 음성인식용 문장 DB
○ 1,900여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 중국어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 중국 중심으로 수집되었음.

세부기술3: 일본어 음성인식용 문장 DB
○ 일본어 음성인식용 문장 DB
○ 1,350여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 일본어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 일본 중심이되, 일부 다른 국가 설정이 존재함.

세부기술4: 프랑스어 음성인식용 문장 DB
○ 프랑스어 음성인식용 문장 DB
○ 4,500여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 프랑스어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 다양함.

세부기술5: 스페인어 음성인식용 문장 DB
○ 스페인어 음성인식용 문장 DB
○ 6,100여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 스페인어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 다양함.

세부기술6: 독일어 음성인식용 문장 DB
○ 독일어 음성인식용 문장 DB
○ 4,900여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 독일어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 독일어 중심으로 구성되어 있음.

세부기술7: 러시아어 음성인식용 문장 DB
○ 러시아어 음성인식용 문장 DB
○ 4,400여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 러시아를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 다양함.

세부기술8: 아랍어 음성인식용 문장 DB
○ 아랍어 음성인식용 문장 DB
○ 5,400여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 아랍어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 다양함.

세부기술9: 베트남어 음성인식용 문장 DB
○ 베트남어 음성인식용 문장 DB
○ 1,600여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 베트남어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였음.
세부기술1: 영어 음성인식용 문장 DB
○ 스마트폰 채널 영어 음성 DB(16kHz) 320시간 규모

세부기술2: 중국어 음성인식용 문장 DB
○ 스마트폰 채널 중국어 음성 DB(16kHz) 240시간 규모

세부기술3: 일본어 음성인식용 문장 DB
○ 스마트폰 채널 일본어 음성 DB(16kHz) 480시간 규모

세부기술4: 프랑스어 음성인식용 문장 DB
○ 스마트폰 채널 프랑스어 음성 DB(16kHz) 390시간 규모

세부기술5: 스페인어 음성인식용 문장 DB
○ 스마트폰 채널 스페인어 음성 DB(16kHz) 460시간 규모

세부기술6: 독일어 음성인식용 문장 DB
○ 스마트폰 채널 독일어 음성 DB(16kHz) 420시간 규모

세부기술7: 러시아어 음성인식용 문장 DB
○ 스마트폰 채널 러시아어 음성 DB(16kHz) 500시간 규모

세부기술8: 아랍어 음성인식용 문장 DB
○ 스마트폰 채널 아랍어 음성 DB(16kHz) 340시간 규모

세부기술9: 베트남어 음성인식용 문장 DB
○ 스마트폰 채널 베트남어 음성 DB(16kHz) 95시간 규모
○ 본 DB를 활용하여 다양한 응용업체가 한국어 및 다국어 언어음성 관련 비즈니스 모델을 개발하게 함으로서 국내외 SW산업 신시장 창출 기대
○ 인공지능기반 다양한 서비스(AI비서, 외국어 교육, 동시통역, 컨택센터, 민원 서비스 등) 개발에 활용되어 국가 경쟁력 확보 및 세계 시장 진출에 활용될 수 있음.