ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Korean Common Speech DB(Ver. 2.0)

Manager
Yun Seung
Participants
Kang Byung Ok, Kang Jeom Ja, Kim Dong Hyun, Sanghun Kim, Kim Seung Hi, Yeojeong Kim, Park Jun, Yun Seung, Min Kyu Lee, Sung Joo Lee, Young Jik Lee, Jeon Hyung-Bae, Choi Mu Yeol
Transaction Count
4
Year
2020
Project Code
17ZS1200, 언어장벽 없는 국가 구현을 위한 자동통번역 산업 경쟁력 강화 사업, Sanghun Kim
16ZS1100, 언어장벽 없는 국가 구현을 위한 자동통번역 산업 경쟁력 강화 사업, Sanghun Kim
○ 인공지능연구소 지능정보연구본부 복합지능연구실에서는 산업계, 학계, 연구소 등의 언어음성 기반기술 확대 및 기술 선진화를 위하여 한국어 공통음성DB를 기술이전해 온 바 있음.
○ 기존 배포해오던 한국어 공통음성DB에 수요 업체의 요구를 반영하여 DB 품질 향상, DB 구조화 및 재정리, 녹음 환경 조정 등의 DB 업데이트를 통해 업그레이드 된 DB로 기술이전을 실시하고자 함.
○ 최근의 음성언어처리기술은 딥러닝 기술의 발전과 함께 대용량 데이터에 기반하여 실현되고 있음.
○ 다국어 AI 분야 기술경쟁 우위 확보를 위한 국가간 경쟁이 심화되고 있는 가운데, 인공지능 학습용 언어음성 데이터가 부족한 현실을 감안하여 한국어 공통음성DB를 업그레이드하여 기술이전하고자 함.
○ 본 DB는 한국어/다국어 음성인식, 한국어/영어 음성합성 등의 기반 기술 개발을 통하여 인공지능 스피커, 음성 챗봇 서비스, 강의용 음성인식, 스마트홈, 스마트 가전, 스마트카, 군사용 음성인식 등 다양한 응용 분야에 활용이 가능하다고 판단하여 기술이전을 실시하고자 함.
○ 또한 Google, Apple, Amazon, 뉘앙스 등 글로벌 경쟁기술이 국내 언어음성 시장을 선점하기 이전에 기술 개발이 가능하도록 DB 기술이전을 실시하여 기술경쟁력을 강화하는 동시에 국외시장까지 진출하기 위한 주춧돌로 삼고자 함.
○ 한국어 공통음성DB의 경우 한국어 음성인식용 단어, 숫자, 문장용 엔진의 훈련을 위한 음성데이터베이스로, 다양한 길이의 숫자, 지명, 인명, 상호명, PC명령어 문장 등으로 구성되어 있으며 또한 한국어 및 영어 음성합성DB도 포함하고 있음.
○ 본 DB는 업그레이드 이전에도 다양한 업체에 기술이전을 실시하여 안정성 및 활용성을 검증하였을 뿐만 아니라 ‘지니톡 대국민 시범서비스’ 및 ‘2018 평창 동계 올림픽’ 자동통역 서비스 등의 개발에도 활용된 바 있음
o 각 세부기술별 사양 및 기술료조건(정액기술료, 부가세 별도)

- 세부기술1: 음성인식용 한국어 숫자, 단어, 문장 음성DB(16kHz) : 중소기업 25백만원, 중견기업 75백만원, 대기업 100백만원
. 한국어 단어 DB: 2,000명 발성. 발성내용은 주식상장회사명, 지명, 인명, 제품명, PC명령어, PDA 명령어, 일반명사로 구성
. 한국어 숫자 DB: 2,000명 발성. 발성내용은 1~10연숫자.번호독식/봉독식 발성, 계좌번호, 단위, 전화번호로 구성
. 한국어 문장 DB: 2,000명이 발성한 방송뉴스 문장으로 구성

- 세부기술2: 음성인식용 한국어 숫자, 단어, 문장 음성DB(8kHz) 중소기업 30백만원, 중견기업 90백만원, 대기업 120백만원
. 한국어 대화체 문장 DB: 가상 시나리오를 사용해 콜센터 환경에서의 고객과 상담원 대화 녹취(500명)
. 한국어 단어 DB: 2,000명 발성. 발성내용은 주식상장회사명, 지명, 인명, 제품명, PC명령어, PDA 명령어, 일반명사로 구성
. 한국어 숫자 DB: 2,000명 발성. 발성내용은 1~10연숫자.번호독식/봉독식 발성, 계좌번호, 단위, 전화번호로 구성

- 세부기술3: 언어모델용 신문기사 텍스트 DB : 중소기업 12백만원, 중견기업 36백만원, 대기업 48백만원
. 일간지 신문 4,500만어절 수동 철자/띄어쓰기 수정.

- 세부기술4: 음성합성용 한국어 낭독체 음성 DB : 중소기업 12백만원, 중견기업 36백만원, 대기업 48백만원
. 남녀 성우 각 2인 트라이폰 분포 고려한 10,000문장 발성(44.1kHz 또는 16kHz). 피치추출용 래링고 데이터 동시 녹취.
. 각 2,000문장 음소분할됨. 다이폰/반음절 단위 음성 추가 발성. 어절경계 트라이폰을 고려한 발성 추가
. 남성우 1: 16시간, 남성우2: 20시간, 여성우1: 17시간, 여성우2: 24시간

- 세부기술5: 음성합성용 한국어 대화체 음성 DB : 중소기업 6백만원, 중견기업 18백만원, 대기업 24백만원
. 회화책에서 추출한 대화체 문장으로 문장단위 철자 전사
. 남녀 성우 각 2인이 8시간 발성

- 세부기술6: 음성합성용 영어 낭독체 음성 DB : 중소기업 2백만원, 중견기업 6백만원, 대기업 8백만원
. 영어 모국어화자 아나운서가 발성한 낭독체 문장
. 여성 화자 1인 12시간 발성

- 세부기술7: 화자인식용 한국어 숫자, 단어, 문장 음성DB(16kHz) : 중소기업 10백만원, 중견기업 30백만원, 대기업 40백만원
. 발성목록은 2연숫자, 4연숫자, 단문 등으로 구성
. 250명이 발성목록 반복 5회, 시차별 발성
. 100명 화자 1주간격 4회 발성. 100명 화자 1달간격 4회발성, 50명 화자 3달간격 4회발성

- 세부기술8: 화자인식용 한국어 숫자, 단어, 문장 음성DB(8kHz) : 중소기업 12백만원, 중견기업 36백만원, 대기업 48백만원
. 발성목록은 2연숫자, 4연숫자, 단문 등으로 구성
. 250명이 발성목록 반복 5회, 시차별 발성
. 100명 화자 1주간격 4회 발성. 100명 화자 1달간격 4회발성, 50명 화자 3달간격 4회발성

세부기술1: 음성인식용 한국어 숫자, 단어, 문장 음성DB(16kHz)
○ 한국어 단어, 숫자, 문장 음성 DB(16kHz) 500시간 규모

세부기술2: 음성인식용 한국어 숫자, 단어, 문장 음성DB(8kHz)
○ 한국어 단어, 숫자, 문장 음성 DB(8kHz) 600시간 규모

세부기술3: 언어모델용 신문기사 텍스트 DB
○ 언어모델용 신문기사 텍스트 DB 4,500만 어절

세부기술4: 음성합성용 한국어 낭독체 음성 DB
○ 음성합성용 한국어 낭독체 음성 DB 77시간 규모

세부기술5: 음성합성용 한국어 대화체 음성 DB
○ 음성합성용 한국어 대화체 음성 DB 32시간 규모

세부기술6: 음성합성용 영어 낭독체 음성 DB
○ 음성합성용 영어 낭독체 음성 DB 12시간 규모

세부기술7: 화자인식용 한국어 숫자, 단어, 문장 음성DB(16kHz)
○ 화자인식용 한국어 숫자, 단어, 문장 음성 DB(16kHz) 160 시간 규모

세부기술8: 화자인식용 한국어 숫자, 단어, 문장 음성DB(8kHz)
○ 화자인식용 한국어 숫자, 단어, 문장 음성 DB(8kHz) 200 시간 규모
○ 본 DB를 활용하여 다양한 응용업체가 한국어 및 다국어 언어음성 관련 비즈니스 모델을 개발하게 함으로서 국내외 SW산업 신시장 창출 기대
○ 인공지능기반 다양한 서비스(AI비서, 외국어 교육, 동시통역, 컨택센터, 민원 서비스 등) 개발에 활용되어 국가 경쟁력 확보 및 세계 시장 진출에 활용될 수 있음.