감정 표현 자막, 수어 생성, 한국 수어, 감정 자막, 음성 자막, 아바타 수어, 방송 접근권, Emotional subtitle, Audio subtitle, Avatar Sign Language, Broadcasting accessibility
KSP Keywords
Emotional expression, Visually Impaired
Funding Org.
과학기술정보통신부
Research Org.
한국전자통신연구원
Project Code
21HH5500, Development of emotional expression service to support hearing/visually impaired,
Ahn Chung Hyun
Abstract
□ 연구개발 목표 및 내용 ○ 최종 목표 시·청각장애인이 다양한 매체를 이용하여 동영상을 시청할 때 내용전달과 쉬운 이해를 위한 시·청각장애인 미디어 서비스 기술 개발 및 민간사업자를 통한 실환경에서의 시범운영 실시 - 청각장애인의 방송내용 이해 향상 지원을 위한 감정표현 자막 및 아바타 수어생성 시스템 개발 - 시각장애인의 미디어 소비 지원을 위한 감정음성합성 기술·음성자막 저작 소프트웨어 개발 - 시·청각장애인을 대상으로 한 서비스 검증
○ 전체 내용 ① 감정표현 자막 기술 및 서비스 시스템 개발 - 감정표현 자막 편집/재생기 개발 - 감정표현 자막 디코딩/렌더러 개발 ② 감정표현 음성합성 기반 음성자막 기술 개발 - 다양한 감정 표현을 위한 한국어 감정음성 데이터베이스 제작 - 외화 미디어 내 등장인물의 감정을 표현하는 한국어 감정음성합성 및 음성자막 기술개발 ③ 감정표현 아바타 수어 서비스 기술 개발 - 수어사전 데이터베이스 제작 - 일반 텍스트의 수어 표현 문장으로의 변환 기술 - 수어(손동작, 표정, 입술움직임, 몸동작 포함) 생성 SW 개발 ④ 감정표현 서비스를 위한 미디어 처리 기술 개발 - 화자 구분 및 자막-오디오 동기화를 위한 화자 분할 기술 개발 - 미디어 감성정보 추출을 위한 사운드 이벤트 검출 기술 개발 - 비디오 기반 등장인물 감정인식 기술 개발
□ 연구개발성과 ① 감정표현 자막 기술 및 서비스 시스템 개발 - 감정표현 자막 편집/재생기 소프트웨어 개발 ⦁ 감정표현 자막을 위한 자막가이드 라인 작성 ✔ BBC, Netflix, SHD(Subtitles for Hearing Impaired) 자막 분석 ⦁ 지상파 UHD 자막표준인 IMSC 규격을 확장하여 감정표현과 관련된 요소 및 태그정의 ✔ 자막의 동적효과를 위해 Animated PNG 적용 ⦁ 자막제작 지원을 위한 딥러닝 기반의 비디오/오디오 분석 모듈 연동 개발 ✔ 오디오 기반(음성인식)의 기존 자막 동기화 ✔ 영상기반의 얼굴인식 ✔ 영상과 오디오 기반의 감정인식 및 화자인식 ✔ 영상기반의 자막표현 영역 추천 ✔ 오디오 기반의 효과음 인식 - 지상파UHD 송수신 검증 ⦁ 감정표현자막 송수신을 위한 자막 서버 개발 ✔ 자막 시간과 동기화 된 텍스트와 이미지가 혼합되어 있는 TTML파일에 대한 처리 ✔ ROUTE/MMT 시그널링 및 송수신 기술 ✔ ATSC3.0 신호 수신과 확장된 자막규격을 처리할 수 있는 자막렌더러를 포함하는 수신단말 개발 ⦁ 감정표현자막에 대해 지상파UHD 상용시스템에서의 송수신 정합 시험@제주TP - 국내 표준화(TTA) ⦁ 시청각장애인 방송 국내 표준 개정 반영
② 감정표현 음성합성 기반 음성자막 기술 개발 - 다양한 감정 표현을 위한 한국어 감정음성 데이터베이스 제작 ⦁ 남녀 각 3인, 4가지 감정(중립, 화남, 기쁨, 슬픔)에 대해 성우녹음을 통한 음성합성용 학습데이터 확보 - 딥러닝 감정음성합성 시스템 구축 ⦁ Tacotron-2 GST와 Hifi-gan을 이용한 감정음성합성 시스템 구현 ⦁ 다화자 단일 모델 학습 모델 구성 ✔ 스타일토큰을 이용한 오디오에서의 감정표현 ✔ 단일 감정에 대한 감정강도(강함, 중간, 약함) 제어 ✔ 합성음의 속도(pitch) 제어 - 음성자막 콘텐츠 제작 소프트웨어 기술개발 ⦁ 감정음성합성 시스템을 이용하여 자막을 음성으로 변환하는 소프트웨어 개발 ✔ 감정음성합성 시스템(서버)-음성자막 콘텐츠 제작 소프트웨어(클라이언트) 구조 ✔ WebSocket, Restful API를 이용한 인터페이스 ✔ 타임라인상에서 합성음의 자유로운 위치 이동 ✔ 합성음에 대한 오디오 및 비디오 먹싱 출력
③ 감정표현 아바타 수어 서비스 기술 개발 - 한국어-한국수어 변환 학습용 병렬 말뭉치 제작 ⦁ 한국어-한국수어 변환 학습용 데이터 구축을 위한 말뭉치 제작 가이드라인 작성 ✔ 비수지 신호를 최대한 표현하기 위해 문법적 비수지 표현, 양손 표현, 상황표현 포함 ⦁ 국립국어원의 수어표제어를 참고하여 드라마 3편, 단편 영화 1편의 자막을 이용하여 학습용 데이터 제작 - 한국어-한국수어 변환 시스템 구현 ⦁ 일반 텍스트의 수어 표현을 위한 문장으로의 변환 ✔ 한국어 전처리와 동음이의어를 위한 형태소 분석 ✔ 입력 문장의 오류와 수어 문장으로의 변환시 변환 단위 최소화를 위한 구문분석기능 ✔ KoBERT를 이용한 문장 감정분석과 영상을 이용한 감정적 비수지 정부 추출 ✔ Transformer를 이용한 한국어-한국수어 변환 시스템 구현 ✔ Graph를 이용한 수어표현을 위한 의미 관계 정보 구성 - 수어스크립트 편집기 개발 ⦁ 한국수어 스크립트 규격 정의 ✔ 비수지 수어소(6개범주 18종), 비수지 조음자(7건) 수지 변형요소(3개범주 10종), 지화 규격 정의 ✔ 스크립트 데이터 포맷(Text 및 Json mode) 정의 ⦁ 스크립트 규격에 따른 스크립트 편집기 구현 ✔ 수어문장 편집기능 및 데이트 브라우징 기능 구현 ✔ 입력되는 한국어 문장과 출력되는 수어스크립트를 Json 기반의 데이터 포맷 정의 ✔ 실시간성을 고려하여 웹소켓 기반으로 변환시스템의 입출력 인터페이스 - 수어표제어에 대한 수어동작 DB 구축 ⦁ 수어 표제어에 대한 수어 동작 디지털 정보 획득 및 가공 프로세스 확립 - 아바타 수어 플레이어 개발 ⦁ Unity를 이용한 수어(손동작, 표정, 입술움직임, 몸동작 포함) 표현 ✔ 머리, 눈썹, 눈, 입 등의 15개 동작 비수지 표현 ✔ 몸 방향을 좌우로 전환 ⦁ 수지 신호, 비수지 신호 및 공간정보 레이어 구성 ⦁ 웹소켓 인터페이스를 통한 수어 스크립트 편집기 연동
④ 감정표현 서비스를 위한 미디어 처리 기술 개발 - AI 분석과 자막 편집을 위한 오디오-자막 동기화 기술 개발 ⦁ Needleman-Wunsch 동적계획법(dynamic programming) 변형 적용 ✔ AWS 클라우드 음성인식 기능(Transcribe)을 사용하여 콘텐츠에서 음성을 추출, 텍스트를 생성하고, 이를 폐쇄자막과 정렬함으로써 동기 정보를 수정/생성 ✔ 문자 단위 정렬 뿐 아니라 폐쇄자막 단위 정렬을 구현함으로써 수행속도 향상 - 비디오 기반 등장인물 및 표정(감정)인식 기술 개발 ⦁ 영상 기반 표정인식 데이터베이스 수집 및 제작 ⦁ 표정인식 기반 등장인물 감정 분석 모듈 구현 ✔ MTCNN 기반 얼굴 전처리(검출/정렬) 모듈 구현 ✔ 영상 및 랜드마크 기반 표정인식 알고리즘 구현 ✔ 성능 향상을 위한 감정인식 핵심 알고리즘 추가 학습(Fine-Tuning) ⦁ SyncNet 기반의 비디오/오디오/텍스트를 이용한 멀티모달 모델 구현 ⦁ 감정 분석기와 감정표현 자막 편집기 연동을 위한 메시지 정의 - 오디오 기반 화자인식 기술 개발 ⦁ 음성정보로부터 화자를 인식하기 위한 SA-DNN 모델 개발 ✔ 화자가 추가되어도 전체 모델을 새로 학습하지 않고 추가된 화자에 대해서만 학습 - 미디어 감성정보 추출을 위한 사운드 이벤트 검출 기술 개발 ⦁ 방송효과음 인식을 위한 딥러닝 학습 및 인식시스템 구현 ✔ 발화단위 음향 이벤트 분류 모델을 활용한 RCRNN 인식 모델 ✔ Noisy student를 활용한 self-training 모델 연구 ✔ 자체 구축한 14개 효과음 및 구글 AudioSet에 정의된 효과음(527 카테고리) 인식 ✔ WebSocket을 이용한 Server/Client 구조 - 영상기반 자막 영역 추출 기술 개발 ⦁ 영상분석을 통한 감정표현 자막 표현영역 인식 기술
□ 연구개발성과 활용계획 및 기대 효과 - 정부부처(과학기술정보통신부, 방송통신위원회) 및 유관단체로부터 지속적인 요구사항 수렴과 협의체 운영을 통해 연구개발 및 서비스 검증에 반영 - TTA에서 수행하고 있는 방통위 사업(”청각장애인용 자막·수어방송 시스템 개발“, 2019.1-2023.12)에서 구축하는 테스트베드, 시제품에서 활용하도록 개발기술 제공 및 지원
(출처 : 요약문 4p)
Copyright Policy
ETRI KSP Copyright Policy
The materials provided on this website are subject to copyrights owned by ETRI and protected by the Copyright Act. Any reproduction, modification, or distribution, in whole or in part, requires the prior explicit approval of ETRI. However, under Article 24.2 of the Copyright Act, the materials may be freely used provided the user complies with the following terms:
The materials to be used must have attached a Korea Open Government License (KOGL) Type 4 symbol, which is similar to CC-BY-NC-ND (Creative Commons Attribution Non-Commercial No Derivatives License). Users are free to use the materials only for non-commercial purposes, provided that original works are properly cited and that no alterations, modifications, or changes to such works is made. This website may contain materials for which ETRI does not hold full copyright or for which ETRI shares copyright in conjunction with other third parties. Without explicit permission, any use of such materials without KOGL indication is strictly prohibited and will constitute an infringement of the copyright of ETRI or of the relevant copyright holders.
J. Kim et. al, "Trends in Lightweight Kernel for Many core Based High-Performance Computing", Electronics and Telecommunications Trends. Vol. 32, No. 4, 2017, KOGL Type 4: Source Indication + Commercial Use Prohibition + Change Prohibition
J. Sim et.al, “the Fourth Industrial Revolution and ICT – IDX Strategy for leading the Fourth Industrial Revolution”, ETRI Insight, 2017, KOGL Type 4: Source Indication + Commercial Use Prohibition + Change Prohibition
If you have any questions or concerns about these terms of use, or if you would like to request permission to use any material on this website, please feel free to contact us
KOGL Type 4:(Source Indication + Commercial Use Prohibition+Change Prohibition)
Contact ETRI, Research Information Service Section
Privacy Policy
ETRI KSP Privacy Policy
ETRI does not collect personal information from external users who access our Knowledge Sharing Platform (KSP). Unathorized automated collection of researcher information from our platform without ETRI's consent is strictly prohibited.
[Researcher Information Disclosure] ETRI publicly shares specific researcher information related to research outcomes, including the researcher's name, department, work email, and work phone number.
※ ETRI does not share employee photographs with external users without the explicit consent of the researcher. If a researcher provides consent, their photograph may be displayed on the KSP.