"방송 및 회의용 오디오 및 텍스트 정보의 시간 동기화를 위한 연속어 음성인식 기술"은 음성 인식 기술을 사용해 회의 녹취 동영상에 포함된 오디오 데이터와 속기사 등에 의해 작성된 속기 문서를 기반으로, 발성 텍스트에 대한 시간 정보를 동기화하거나 자막에 포함된 시간 정보를 보정하여 동영상 콘텐츠를 정확히 색인하게 함으로써 사용자가 검색하고자 하는 키워드에 해당하는 동영상 콘텐츠를 제공할 수 있도록 한다.
ETRI 자동통역인공지능연구센터에서는 미래창조과학부 출연 “모바일 플랫폼 기반 대화모델 적용 자연어 음성인터페이스 기술 개발” 및 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 사업을 통해 PC 환경 뿐만 아니라 모바일 단말에서 요구하는 음성인터페이스 기술을 개발하고 있다. 본 ‘방송 및 회의용 오디오 및 텍스트 정보의 시간 동기화를 위한 연속어 음성인식 기술’은 현재 기업체에서 보유하지 못한 신기술이므로 이를 기업체에 기술 이전하여 관련 산업을 활성화하며 개별 기업에서의 중복 기술개발을 피하고자 하는 것이다.
- 연속어 음성인식 기술을 적용하여 높은 정밀도의 시간 정보 동기화 인터페이스를 제공
- 시간-주파수 분석 방법에 의한 고정밀 음성분석 기술 채택을 채택하여 조용한 환경 및 잡음 환경 공히 고성능 음성인식 제공
방송 및 회의용 오디오 및 텍스트 정보의 시간 동기화를 위한 연속어 음성인식 기술
리눅스 및 Windows 환경에서 실행 가능한 Library 형태의 오브젝트와 인식용 이미지파일 생성 도구
- 한국어 음성인식 엔진 SDK
- 런타임 이미지 생성 도구
- 개발자용 지침서
* 제약조건
- 본 기술은 불특정 음성에 대해 문자 정보를 생성하는 음성인식 기술이 아닌, 오디오와 텍스트 정보 간을 시간적으로 동기화하여 정렬하는 기술임
- 따라서 적용 대상이 되는 방송 및 회의 콘텐츠에 대해서 개별 콘텐츠별로 미리 속기사 등이 전사한 자막정보 또는 속기문서(텍스트)가 있어야 함
- 오디오 파일은 최소 16kHz 샘플링 주파수로 인코딩되어 있어야 함
- 방송 및 회의 콘텐츠에 한하여 적용함
본 기술은 동영상 콘텐츠 색인 및 음성 인터페이스를 위한 연속어 음성 인식 기술로 주어진 텍스트 또는 자막 정보에 대해 단어 또는 문장 단위의 정교한 시간 정보를 제공함으로써 검색하고자 하는 단어 및 문장에 해당하는 정확한 동영상 콘텐츠를 검색할 수 있게 한다.