ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

한국어 - 12개 언어 자동통역기술

전수책임자
윤승
참여자
강병옥, 강점자, 권오욱, 김동현, 김상훈, 김승희, 김영길, 김윤형, 김창현, 김현우, 노윤형, 동성희, 박기영, 박전규, 방정욱, 서영애, 송화전, 신종훈, 양정민, 유병현, 윤승, 이기영, 이민규, 이요한, 이윤근, 전형배, 정의석, 정훈, 최무열, 최승권, 최우용, 한란, 황금하
기술이전수
1
이전연도
2024
협약과제
20HS3900, 지식증강형 실시간 동시통역 원천기술 개발, 김영길
22ZS1100, 자율성장형 복합인공지능 원천기술 연구, 송화전
23ZS1100, 자율성장형 복합인공지능 원천기술 연구, 송화전
24ZB1100, 자율성장형 복합인공지능 원천기술 연구, 송화전
○ 초지능창의연구소 지능정보연구본부 복합지능연구실에서는 한국어?12개 언어 자동통역기술을 개발하였음.
○ 한국어-12개 언어 자동통역기술은 음성인식의 경우 한국어 및 12개 언어 외국인의 다국어 발성을 수집하고 가공하여 종단형 음성인식기의 훈련 리소스로 사용하고 있으며, 또한 대용량의 한국어?12개 언어 병렬 말뭉치를 구축하여 신경망 기반 자동 번역기의 훈련 리소스로 사용하였음. 이 둘을 결합해 우수한 성능의 한국어-12개 언어 자동통역기술을 완성하였음.
○ 한국어-12개 언어 자동통역기술은 심층신경망(Deep Neural Network) 기반 심층학습(Deep Learning) 기술의 고도화 및 대용량 언어음성 데이터에 기반하여 실현되는 고난이도 융복합 기술임.
○ 한국어-12개 언어 자동통역기술의 기반 기술 중 한국어 및 12개 언어 음성인식기술의 경우 음향모델과 언어모델, 발음사전 등을 별도로 학습하는 기존의 음성인식 모델을 종단형(End-to-End) 방식으로 통합 학습하도록 개선함으로써 음성인식 성능을 대폭 향상시킨 바 있음.
○ 한국어-12개 언어 자동통역기술의 기반 기술 중 한국어-12개 언어 자동번역 기술의 경우에도 종단형(End-to-End) 방식의 신경망 기반으로 통합 학습하도록 함으로써 자동번역 성능을 향상시켰음.
○ 한국어-12개 언어 자동통역 기술의 기반이 되는 한국어 및 다국어 음성인식 기술은 여러 서비스 분야(AI 컨택센터, 자동통역 서비스, 회의록 녹취, AI스피커, 의료, 언어 교육 등)에서 많은 실증 검증을 수행한 바 있음. 자동번역기술의 경우에도 2018 평창동계올림픽 자동통역서비스를 비롯해 외국어 기반 AI 스피커 서비스 등에서 대화체 자동번역 서비스 실증 검증을 수행한 바 있음.
○ 최근 코로나19 비상사태 해제 이후 해제 이전보다 더 많은 외국인의 방한과, 내국인의 해외 출국이 일어나는 추이를 감안할 때 다국어 자동통역 서비스의 확산 가능성은 매우 높다 할 수 있음.
○ Google, Facebook, Microsoft, Amazon 등을 필두로 한 글로벌 경쟁기술이 국내 자동통역 시장을 선점하기 이전에 기술이전을 실시하여 국내 기술경쟁력을 강화하고 향후에는 국외시장까지 진출하는 것을 목적으로 함.
○ 지금과 같은 다국어 자동통역 관련 서비스의 급속한 활성화가 예상되는 시점에서 인공지능 전문 인력, 인프라, 자원을 보유하지 못한 중소/중견기업 등에서 개별 다양한 사업화를 진행할수 있도록 기술이전을 실시하고자 함.
○ 한국어-12개 언어 자동통역기술의 경우, 대용량의 한국어 및 다국어 음성 DB 및 한국어-12개 언어 병렬 말뭉치를 근간으로 미리 훈련된 음성인식 및 자동번역 모델을 이전 받음으로써 별도 DB 및 훈련 과정 없이 각 언어별 높은 성능의 베이스라인 자동통역 시스템 구현이 가능함.
○ 한국어-12개 언어 자동통역기술을 구성하는 음성인식 기술의 경우 기존의 언어모델, 음향모델, 발음사전 등을 별도로 학습하는 방식에서 벗어나 종단형으로 통합 학습하였으며, 자동번역기술 역시 신경망 기반으로 학습되어 높은 정밀도의 자동통역 결과 제공이 가능함(오픈소스 활용 및 추가 도구 제공).
○ 한국어와 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어간의 자동통역이 가능하도록 함으로써 다양한 언어 지원을 통한 글로벌 경쟁력 확보 기반하에서 한국어-다국어 자동통역 세계 시장 진출이 가능하도록 함.
○ 자동통역 기술 적용 도메인의 음성DB 및 병렬 말뭉치를 기반으로 적응학습 등을 통해 음성인식 및 자동번역 성능을 제고할 수 있음(오픈소스 활용 및 추가 도구 제공).
○ 자동통역기술에 적용되는 음성인식 기술에 있어서는 Contextual-ASR(Phrase Hint)기능을 지원하여 도메인 튜닝의 용이성을 대폭 향상시킴.
○ 한국어-12개 언어 자동통역엔진(PyTorch 기반 리눅스, 윈도우 지원)
- 신경망 모델 기반 종단형 음성인식 기술(대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성을 텍스트로 변환하는 기술)
- 신경망 모델 기반 종단형 자동번역 기술(대량의 한국어-외국어 병렬 말뭉치로부터 최적화된 신경망 모델을 이용하여 소스 문장을 타겟 언어 텍스트로 변환하는 기술)
- ESPnet과 같은 오픈소스를 활용하여 한국어-12개언어간의 자동통역을 위한 음성인식 및 자동번역 시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함
- 트랜스포머를 기반으로 하되, 기술 추이에 따라 신경망 및 세부 모델 구조 등의 구성은 변동이 가능함
○ 엔진 튜닝 도구(리눅스(Ubuntu 22.04), 바이너리 또는 스크립트 제공, CUDA 라이브러리 활용 GPU 기반)
- 음성인식을 위한 사용자 어휘 등록 기술(Contextual ASR(Phrase-Hint))
- 음성DB 적응 기술(새로운 발성환경에서 수집한 음성데이터를 기존 모델에 적응하는 딥러닝 학습 기술, 오픈소스 환경 적응 스크립트 포함)
- 번역DB 적응 기술(새로운 타겟 도메인에서 수집한 한국어-외국어 병렬 데이터를 기존 모델에 적응하는 딥러닝 학습 기술, 오픈소스 환경 적응 스크립트 포함)
○ 한국어-12개 언어 자동통역 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR 도구 및 음성인식/자동번역 엔진 적응 스크립트 포함)
○ 한국어 및 12개 언어 종단형 자동통역(음성인식/자동번역) 모델
- 12개 언어: 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이시아어
○ 본 한국어-12개 언어 자동통역기술은 자동통역 엔진의 세부 구성기술인 음성인식 엔진과 자동번역 엔진의 자동통역기술 외 타용도 서비스 적용이 불가함.(예를 들어 자동통역을 타겟으로 하지 않는 음성인식 단독 서비스 등에 적용 불가, 자동통역을 타겟으로 하지 않는 문서번역 서비스 등에 적용 불가
○ 관련 기술문서 및 지적재산권
○ 대한민국 국민의 해외 관광 및 해외 진출 지원, 내한 외국인 관광객 편의 제고, 외국인 유학생, 다문화 가정 등 대민 지원, 국제 분쟁 지역 의사 소통/다국적 군사 협력 등 다국적 외국인과의 협력 지원, 외국어 기반 긴급 신고(경찰, 소방 등), 출입국, 세관 신고 지원 등 다양한 자동통역 관련 분야에서 국내외 소프트웨어 산업 신시장을 창출하고 글로벌 인공지능 세계 시장 진출이 가능하도록 함.
○ ETRI는 기술이전업체와 공동으로 기술 상용화 시 문제점을 공유하고 해결 노력을 기울임으로써 기술의 완성도를 제고.