ETRI Knowledge Sharing Platform : Multilingual Common Speech DB(Ver. 1.0)

기술이전 검색
Year	~	Transaction Count		Keyword

○ 인공지능연구소 지능정보연구본부 복합지능연구실에서는 산업계, 학계, 연구소 등의 언어음성 기반기술 확대 및 기술 선진화를 위하여 한국어 공통음성DB를 기술이전해 온 바 있음.
○ 글로벌화 시대를 맞아 다국어 음성 DB에 대한 수요가 지속적으로 증가하고 있는 현실을 고려해 다국어 공통음성DB에 대한 기술이전을 실시하고자 함.

○ 최근의 음성언어처리기술은 딥러닝 기술의 발전과 함께 대용량 데이터에 기반하여 실현되고 있음.
○ 다국어 AI 분야 기술경쟁 우위 확보를 위한 국가간 경쟁이 심화되고 있는 가운데, 인공지능 학습용 음성 데이터가 부족한 현실을 감안하여 다국어 공통음성DB를 기술이전하고자 함.
○ 본 DB를 활용한 다국어 음성인식 기반 기술 개발을 통하여 인공지능 스피커, 음성 챗봇 서비스, 강의용 음성인식, 스마트홈, 스마트 가전, 스마트카, 군사용 음성인식 등 다양한 응용 분야에 활용이 가능하다고 판단하여 기술이전을 실시하고자 함.
○ 또한 Google, Apple, Amazon, 뉘앙스 등 글로벌 경쟁기술이 국내 언어음성 시장을 선점하기 이전에 기술 개발이 가능하도록 DB 기술이전을 실시하여 기술경쟁력을 강화하는 동시에 국외시장까지 진출하기 위한 주춧돌로 삼고자 함.

○ 다국어 공통음성DB의 경우 다국어 음성인식 훈련을 위한 음성데이터베이스로, 적절한 길이의 문장으로 구성되어 있음.
○ 특히 본 DB는 크라우드 소싱 방식을 통하여 DB를 수집함으로써 다양한 화자와 다양한 스마트폰 채널 환경 특성을 반영할 수 있도록 하였음.(다만 수집된 DB에 대해 전수 검사를 실시하지는 않았으며, 샘플링 검사 및 음성인식기술을 활용하여 품질을 제고하였음)
○ 본 DB를 활용하여 ‘2018 평창 동계 올림픽’ 음성 인식 및 자동통역 서비스 등 실제 다국어 음성인식 기술 개발을 진행하면서 자체적으로 안정성 및 활용성을 검증한 바 있음.

세부기술1: 영어 음성인식용 문장 DB
○ 영어 음성인식용 문장 DB
○ 2,000여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 영어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 다양함.

세부기술2: 중국어 음성인식용 문장 DB
○ 중국어 음성인식용 문장 DB
○ 1,900여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 중국어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 중국 중심으로 수집되었음.

세부기술3: 일본어 음성인식용 문장 DB
○ 일본어 음성인식용 문장 DB
○ 1,350여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 일본어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 일본 중심이되, 일부 다른 국가 설정이 존재함.

세부기술4: 프랑스어 음성인식용 문장 DB
○ 프랑스어 음성인식용 문장 DB
○ 4,500여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 프랑스어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 다양함.

세부기술5: 스페인어 음성인식용 문장 DB
○ 스페인어 음성인식용 문장 DB
○ 6,100여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 스페인어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 다양함.

세부기술6: 독일어 음성인식용 문장 DB
○ 독일어 음성인식용 문장 DB
○ 4,900여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 독일어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 독일어 중심으로 구성되어 있음.

세부기술7: 러시아어 음성인식용 문장 DB
○ 러시아어 음성인식용 문장 DB
○ 4,400여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 러시아를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 다양함.

세부기술8: 아랍어 음성인식용 문장 DB
○ 아랍어 음성인식용 문장 DB
○ 5,400여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 아랍어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였으며 단말기의 국가 설정 정보는 다양함.

세부기술9: 베트남어 음성인식용 문장 DB
○ 베트남어 음성인식용 문장 DB
○ 1,600여명이 발성하였으며 개인별 발성 숫자는 다양하게 구성되어 있음.
○ 베트남어를 모국어로 사용하는 화자를 대상으로 발성자를 모집하였음.
세부기술1: 영어 음성인식용 문장 DB
○ 스마트폰 채널 영어 음성 DB(16kHz) 320시간 규모

세부기술2: 중국어 음성인식용 문장 DB
○ 스마트폰 채널 중국어 음성 DB(16kHz) 240시간 규모

세부기술3: 일본어 음성인식용 문장 DB
○ 스마트폰 채널 일본어 음성 DB(16kHz) 480시간 규모

세부기술4: 프랑스어 음성인식용 문장 DB
○ 스마트폰 채널 프랑스어 음성 DB(16kHz) 390시간 규모

세부기술5: 스페인어 음성인식용 문장 DB
○ 스마트폰 채널 스페인어 음성 DB(16kHz) 460시간 규모

세부기술6: 독일어 음성인식용 문장 DB
○ 스마트폰 채널 독일어 음성 DB(16kHz) 420시간 규모

세부기술7: 러시아어 음성인식용 문장 DB
○ 스마트폰 채널 러시아어 음성 DB(16kHz) 500시간 규모

세부기술8: 아랍어 음성인식용 문장 DB
○ 스마트폰 채널 아랍어 음성 DB(16kHz) 340시간 규모

세부기술9: 베트남어 음성인식용 문장 DB
○ 스마트폰 채널 베트남어 음성 DB(16kHz) 95시간 규모

○ 본 DB를 활용하여 다양한 응용업체가 한국어 및 다국어 언어음성 관련 비즈니스 모델을 개발하게 함으로서 국내외 SW산업 신시장 창출 기대
○ 인공지능기반 다양한 서비스(AI비서, 외국어 교육, 동시통역, 컨택센터, 민원 서비스 등) 개발에 활용되어 국가 경쟁력 확보 및 세계 시장 진출에 활용될 수 있음.

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI