ETRI Knowledge Sharing Platform : Korean Common Speech DB(Ver. 2.0)

기술이전 검색
Year	~	Transaction Count		Keyword

○ 인공지능연구소 지능정보연구본부 복합지능연구실에서는 산업계, 학계, 연구소 등의 언어음성 기반기술 확대 및 기술 선진화를 위하여 한국어 공통음성DB를 기술이전해 온 바 있음.
○ 기존 배포해오던 한국어 공통음성DB에 수요 업체의 요구를 반영하여 DB 품질 향상, DB 구조화 및 재정리, 녹음 환경 조정 등의 DB 업데이트를 통해 업그레이드 된 DB로 기술이전을 실시하고자 함.

○ 최근의 음성언어처리기술은 딥러닝 기술의 발전과 함께 대용량 데이터에 기반하여 실현되고 있음.
○ 다국어 AI 분야 기술경쟁 우위 확보를 위한 국가간 경쟁이 심화되고 있는 가운데, 인공지능 학습용 언어음성 데이터가 부족한 현실을 감안하여 한국어 공통음성DB를 업그레이드하여 기술이전하고자 함.
○ 본 DB는 한국어/다국어 음성인식, 한국어/영어 음성합성 등의 기반 기술 개발을 통하여 인공지능 스피커, 음성 챗봇 서비스, 강의용 음성인식, 스마트홈, 스마트 가전, 스마트카, 군사용 음성인식 등 다양한 응용 분야에 활용이 가능하다고 판단하여 기술이전을 실시하고자 함.
○ 또한 Google, Apple, Amazon, 뉘앙스 등 글로벌 경쟁기술이 국내 언어음성 시장을 선점하기 이전에 기술 개발이 가능하도록 DB 기술이전을 실시하여 기술경쟁력을 강화하는 동시에 국외시장까지 진출하기 위한 주춧돌로 삼고자 함.

○ 한국어 공통음성DB의 경우 한국어 음성인식용 단어, 숫자, 문장용 엔진의 훈련을 위한 음성데이터베이스로, 다양한 길이의 숫자, 지명, 인명, 상호명, PC명령어 문장 등으로 구성되어 있으며 또한 한국어 및 영어 음성합성DB도 포함하고 있음.
○ 본 DB는 업그레이드 이전에도 다양한 업체에 기술이전을 실시하여 안정성 및 활용성을 검증하였을 뿐만 아니라 ‘지니톡 대국민 시범서비스’ 및 ‘2018 평창 동계 올림픽’ 자동통역 서비스 등의 개발에도 활용된 바 있음

o 각 세부기술별 사양 및 기술료조건(정액기술료, 부가세 별도)

- 세부기술1: 음성인식용 한국어 숫자, 단어, 문장 음성DB(16kHz) : 중소기업 25백만원, 중견기업 75백만원, 대기업 100백만원
. 한국어 단어 DB: 2,000명 발성. 발성내용은 주식상장회사명, 지명, 인명, 제품명, PC명령어, PDA 명령어, 일반명사로 구성
. 한국어 숫자 DB: 2,000명 발성. 발성내용은 1~10연숫자.번호독식/봉독식 발성, 계좌번호, 단위, 전화번호로 구성
. 한국어 문장 DB: 2,000명이 발성한 방송뉴스 문장으로 구성

- 세부기술2: 음성인식용 한국어 숫자, 단어, 문장 음성DB(8kHz) 중소기업 30백만원, 중견기업 90백만원, 대기업 120백만원
. 한국어 대화체 문장 DB: 가상 시나리오를 사용해 콜센터 환경에서의 고객과 상담원 대화 녹취(500명)
. 한국어 단어 DB: 2,000명 발성. 발성내용은 주식상장회사명, 지명, 인명, 제품명, PC명령어, PDA 명령어, 일반명사로 구성
. 한국어 숫자 DB: 2,000명 발성. 발성내용은 1~10연숫자.번호독식/봉독식 발성, 계좌번호, 단위, 전화번호로 구성

- 세부기술3: 언어모델용 신문기사 텍스트 DB : 중소기업 12백만원, 중견기업 36백만원, 대기업 48백만원
. 일간지 신문 4,500만어절 수동 철자/띄어쓰기 수정.

- 세부기술4: 음성합성용 한국어 낭독체 음성 DB : 중소기업 12백만원, 중견기업 36백만원, 대기업 48백만원
. 남녀 성우 각 2인 트라이폰 분포 고려한 10,000문장 발성(44.1kHz 또는 16kHz). 피치추출용 래링고 데이터 동시 녹취.
. 각 2,000문장 음소분할됨. 다이폰/반음절 단위 음성 추가 발성. 어절경계 트라이폰을 고려한 발성 추가
. 남성우 1: 16시간, 남성우2: 20시간, 여성우1: 17시간, 여성우2: 24시간

- 세부기술5: 음성합성용 한국어 대화체 음성 DB : 중소기업 6백만원, 중견기업 18백만원, 대기업 24백만원
. 회화책에서 추출한 대화체 문장으로 문장단위 철자 전사
. 남녀 성우 각 2인이 8시간 발성

- 세부기술6: 음성합성용 영어 낭독체 음성 DB : 중소기업 2백만원, 중견기업 6백만원, 대기업 8백만원
. 영어 모국어화자 아나운서가 발성한 낭독체 문장
. 여성 화자 1인 12시간 발성

- 세부기술7: 화자인식용 한국어 숫자, 단어, 문장 음성DB(16kHz) : 중소기업 10백만원, 중견기업 30백만원, 대기업 40백만원
. 발성목록은 2연숫자, 4연숫자, 단문 등으로 구성
. 250명이 발성목록 반복 5회, 시차별 발성
. 100명 화자 1주간격 4회 발성. 100명 화자 1달간격 4회발성, 50명 화자 3달간격 4회발성

- 세부기술8: 화자인식용 한국어 숫자, 단어, 문장 음성DB(8kHz) : 중소기업 12백만원, 중견기업 36백만원, 대기업 48백만원
. 발성목록은 2연숫자, 4연숫자, 단문 등으로 구성
. 250명이 발성목록 반복 5회, 시차별 발성
. 100명 화자 1주간격 4회 발성. 100명 화자 1달간격 4회발성, 50명 화자 3달간격 4회발성

세부기술1: 음성인식용 한국어 숫자, 단어, 문장 음성DB(16kHz)
○ 한국어 단어, 숫자, 문장 음성 DB(16kHz) 500시간 규모

세부기술2: 음성인식용 한국어 숫자, 단어, 문장 음성DB(8kHz)
○ 한국어 단어, 숫자, 문장 음성 DB(8kHz) 600시간 규모

세부기술3: 언어모델용 신문기사 텍스트 DB
○ 언어모델용 신문기사 텍스트 DB 4,500만 어절

세부기술4: 음성합성용 한국어 낭독체 음성 DB
○ 음성합성용 한국어 낭독체 음성 DB 77시간 규모

세부기술5: 음성합성용 한국어 대화체 음성 DB
○ 음성합성용 한국어 대화체 음성 DB 32시간 규모

세부기술6: 음성합성용 영어 낭독체 음성 DB
○ 음성합성용 영어 낭독체 음성 DB 12시간 규모

세부기술7: 화자인식용 한국어 숫자, 단어, 문장 음성DB(16kHz)
○ 화자인식용 한국어 숫자, 단어, 문장 음성 DB(16kHz) 160 시간 규모

세부기술8: 화자인식용 한국어 숫자, 단어, 문장 음성DB(8kHz)
○ 화자인식용 한국어 숫자, 단어, 문장 음성 DB(8kHz) 200 시간 규모

○ 본 DB를 활용하여 다양한 응용업체가 한국어 및 다국어 언어음성 관련 비즈니스 모델을 개발하게 함으로서 국내외 SW산업 신시장 창출 기대
○ 인공지능기반 다양한 서비스(AI비서, 외국어 교육, 동시통역, 컨택센터, 민원 서비스 등) 개발에 활용되어 국가 경쟁력 확보 및 세계 시장 진출에 활용될 수 있음.

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI