ETRI Knowledge Sharing Platform : Multimodal Automatic Conversion and Metadata Generation System

ETRI-Knowledge Sharing Plaform

기술이전 검색
Year	~	Transaction Count		Keyword

본 기술은 멀티모달 인공지능 기술을 활용하여 음성 데이터를 다양한 표현 방식으로 변환하고, 이를 통해 의미 기반의 텍스트 정보 및 메타데이터를 자동으로 생성하는 기능을 제공한다. 본 기술은 음성 데이터를 시각적 또는 구조적 특징으로 변환한 후, 텍스트와의 의미적 관계를 학습한 모델을 활용하여 정보 추출이 가능하도록 한다.

- 비정형 음성 데이터를 입력받아 텍스트와 메타 데이터로 자동 변환하는 의미 기반 분석시스템
- 음성인식 기술(Speech To Text)을 중심으로 전처리, 의미 분석, 분류 및 메타데이터 자동 생성까지 일련의 과정을 통해 구조화된 정보 생성과 활용 지원

- 비정형 음성 데이터 기반 의미 정보 추출 기능: 다양한 발화자, 억양, 발음 특성, 배경음 등의 다양한 노이즈를 갖는 음성 데이터를 처리하여 의미 있는 텍스트 정보를 생성하는 기능을 제공하며, 음성 데이터에 대한 전처리와, 음성을 다양한 표현 형식으로 변환한 뒤 텍스트와의 연관성을 학습할 수 있는 음성의 자동 텍스트 변환 기능이 가능하도록 제공
- 기관 보유 자료에 특화된 텍스트 분석 및 메타데이터 자동 생성 기능 : 전처리 및 분석된 텍스트 데이터를 기반으로, 개체명 인식, 주제어 추출, 의미 기반 분류 등의 자연어 처리 기법을 적용하여 자동으로 분류 및 태깅을 수행하며, 활용 기관이 활용하는 주제 분류 체계나 메타데이터 표준과의 정합성을 반영한 문화·행정·기록 자료의 체계적 관리 및 활용이 가능하도록 제공

<기술이전 내용>
- 다양한 발화자, 억양, 발음 특성, 배경음 등 다양한 노이즈 전처리 기능
- 음성의 자동 텍스트 변환 기능
- 전처리된 데이터의 개체명 인식, 주제어 추출, 의미 기반 분류 기능
- 자연어 처리기법을 활용한 자동 분류 및 태깅 기능
- 특정 도메인 특화 분류체계 및 메타데이터의 관리 기능

<기술이전 범위>
- 멀티 모달 자동 변환 및 메타데이터 생성 시스템 요구사항 정의서
- 멀티 모달 자동 변환 및 메타데이터 생성 시스템 시험절차 및 결과보고서
- 멀티모달 자동 변환 및 메타데이터 생성 시스템(TM)
- MetaVoiceKDC 프로그램 소스코드

- 소리/영상 데이터에서 목소리를 텍스트 변환하여 아카이빙하는 분야(박물관, 도서관, 미술관의 멀티미디어 데이터 아카이빙)
- 음성 데이터를 텍스트 데이터로 아카이빙 함으로써 음성 데이터에 대한 검색 및 접근이 쉬워지고, 저장만 하던 음성 데이터의 이용률이 증가함

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI