ETRI Knowledge Sharing Platform : 시청각 장애인의 방송 시청을 지원하는 감성 표현 서비스 개발 (최종)

BROWSE

Titles

연구보고서 검색
Type		Funding Org.		Research Org.
Year	~	Keyword

Detail

List

시청각 장애인의 방송 시청을 지원하는 감성 표현 서비스 개발 (최종)

Download 2 time

Participants: 박상택, 김상권, 김상권, 안충현, 이한규, 조기성, 조숙희, 송진혁, 최설아, 김나연, 배병준, 최지훈

Published: 202112

Type: Final Report

Keyword: 감정 표현 자막, 수어 생성, 한국 수어, 감정 자막, 음성 자막, 아바타 수어, 방송 접근권, Emotional subtitle, Audio subtitle, Avatar Sign Language, Broadcasting accessibility

KSP Keywords: Emotional expression, Visually Impaired

Funding Org.: 과학기술정보통신부

Research Org.: 한국전자통신연구원

Project Code: 21HH5500, Development of emotional expression service to support hearing/visually impaired, Ahn Chung Hyun

Abstract: □ 연구개발 목표 및 내용
○ 최종 목표
시·청각장애인이 다양한 매체를 이용하여 동영상을 시청할 때 내용전달과 쉬운 이해를 위한 시·청각장애인 미디어 서비스 기술 개발 및 민간사업자를 통한 실환경에서의 시범운영 실시
- 청각장애인의 방송내용 이해 향상 지원을 위한 감정표현 자막 및 아바타 수어생성 시스템 개발
- 시각장애인의 미디어 소비 지원을 위한 감정음성합성 기술·음성자막 저작 소프트웨어 개발
- 시·청각장애인을 대상으로 한 서비스 검증

○ 전체 내용
① 감정표현 자막 기술 및 서비스 시스템 개발
- 감정표현 자막 편집/재생기 개발
- 감정표현 자막 디코딩/렌더러 개발
② 감정표현 음성합성 기반 음성자막 기술 개발
- 다양한 감정 표현을 위한 한국어 감정음성 데이터베이스 제작
- 외화 미디어 내 등장인물의 감정을 표현하는 한국어 감정음성합성 및 음성자막 기술개발
③ 감정표현 아바타 수어 서비스 기술 개발
- 수어사전 데이터베이스 제작
- 일반 텍스트의 수어 표현 문장으로의 변환 기술
- 수어(손동작, 표정, 입술움직임, 몸동작 포함) 생성 SW 개발
④ 감정표현 서비스를 위한 미디어 처리 기술 개발
- 화자 구분 및 자막-오디오 동기화를 위한 화자 분할 기술 개발
- 미디어 감성정보 추출을 위한 사운드 이벤트 검출 기술 개발
- 비디오 기반 등장인물 감정인식 기술 개발

□ 연구개발성과
① 감정표현 자막 기술 및 서비스 시스템 개발
- 감정표현 자막 편집/재생기 소프트웨어 개발
⦁ 감정표현 자막을 위한 자막가이드 라인 작성
✔ BBC, Netflix, SHD(Subtitles for Hearing Impaired) 자막 분석
⦁ 지상파 UHD 자막표준인 IMSC 규격을 확장하여 감정표현과 관련된 요소 및 태그정의
✔ 자막의 동적효과를 위해 Animated PNG 적용
⦁ 자막제작 지원을 위한 딥러닝 기반의 비디오/오디오 분석 모듈 연동 개발
✔ 오디오 기반(음성인식)의 기존 자막 동기화
✔ 영상기반의 얼굴인식
✔ 영상과 오디오 기반의 감정인식 및 화자인식
✔ 영상기반의 자막표현 영역 추천
✔ 오디오 기반의 효과음 인식
- 지상파UHD 송수신 검증
⦁ 감정표현자막 송수신을 위한 자막 서버 개발
✔ 자막 시간과 동기화 된 텍스트와 이미지가 혼합되어 있는 TTML파일에 대한 처리
✔ ROUTE/MMT 시그널링 및 송수신 기술
✔ ATSC3.0 신호 수신과 확장된 자막규격을 처리할 수 있는 자막렌더러를 포함하는 수신단말 개발
⦁ 감정표현자막에 대해 지상파UHD 상용시스템에서의 송수신 정합 시험@제주TP
- 국내 표준화(TTA)
⦁ 시청각장애인 방송 국내 표준 개정 반영

② 감정표현 음성합성 기반 음성자막 기술 개발
- 다양한 감정 표현을 위한 한국어 감정음성 데이터베이스 제작
⦁ 남녀 각 3인, 4가지 감정(중립, 화남, 기쁨, 슬픔)에 대해 성우녹음을 통한 음성합성용 학습데이터 확보
- 딥러닝 감정음성합성 시스템 구축
⦁ Tacotron-2 GST와 Hifi-gan을 이용한 감정음성합성 시스템 구현
⦁ 다화자 단일 모델 학습 모델 구성
✔ 스타일토큰을 이용한 오디오에서의 감정표현
✔ 단일 감정에 대한 감정강도(강함, 중간, 약함) 제어
✔ 합성음의 속도(pitch) 제어
- 음성자막 콘텐츠 제작 소프트웨어 기술개발
⦁ 감정음성합성 시스템을 이용하여 자막을 음성으로 변환하는 소프트웨어 개발
✔ 감정음성합성 시스템(서버)-음성자막 콘텐츠 제작 소프트웨어(클라이언트) 구조
✔ WebSocket, Restful API를 이용한 인터페이스
✔ 타임라인상에서 합성음의 자유로운 위치 이동
✔ 합성음에 대한 오디오 및 비디오 먹싱 출력

③ 감정표현 아바타 수어 서비스 기술 개발
- 한국어-한국수어 변환 학습용 병렬 말뭉치 제작
⦁ 한국어-한국수어 변환 학습용 데이터 구축을 위한 말뭉치 제작 가이드라인 작성
✔ 비수지 신호를 최대한 표현하기 위해 문법적 비수지 표현, 양손 표현, 상황표현 포함
⦁ 국립국어원의 수어표제어를 참고하여 드라마 3편, 단편 영화 1편의 자막을 이용하여 학습용 데이터 제작
- 한국어-한국수어 변환 시스템 구현
⦁ 일반 텍스트의 수어 표현을 위한 문장으로의 변환
✔ 한국어 전처리와 동음이의어를 위한 형태소 분석
✔ 입력 문장의 오류와 수어 문장으로의 변환시 변환 단위 최소화를 위한 구문분석기능
✔ KoBERT를 이용한 문장 감정분석과 영상을 이용한 감정적 비수지 정부 추출
✔ Transformer를 이용한 한국어-한국수어 변환 시스템 구현
✔ Graph를 이용한 수어표현을 위한 의미 관계 정보 구성
- 수어스크립트 편집기 개발
⦁ 한국수어 스크립트 규격 정의
✔ 비수지 수어소(6개범주 18종), 비수지 조음자(7건) 수지 변형요소(3개범주 10종), 지화 규격 정의
✔ 스크립트 데이터 포맷(Text 및 Json mode) 정의
⦁ 스크립트 규격에 따른 스크립트 편집기 구현
✔ 수어문장 편집기능 및 데이트 브라우징 기능 구현
✔ 입력되는 한국어 문장과 출력되는 수어스크립트를 Json 기반의 데이터 포맷 정의
✔ 실시간성을 고려하여 웹소켓 기반으로 변환시스템의 입출력 인터페이스
- 수어표제어에 대한 수어동작 DB 구축
⦁ 수어 표제어에 대한 수어 동작 디지털 정보 획득 및 가공 프로세스 확립
- 아바타 수어 플레이어 개발
⦁ Unity를 이용한 수어(손동작, 표정, 입술움직임, 몸동작 포함) 표현
✔ 머리, 눈썹, 눈, 입 등의 15개 동작 비수지 표현
✔ 몸 방향을 좌우로 전환
⦁ 수지 신호, 비수지 신호 및 공간정보 레이어 구성
⦁ 웹소켓 인터페이스를 통한 수어 스크립트 편집기 연동

④ 감정표현 서비스를 위한 미디어 처리 기술 개발
- AI 분석과 자막 편집을 위한 오디오-자막 동기화 기술 개발
⦁ Needleman-Wunsch 동적계획법(dynamic programming) 변형 적용
✔ AWS 클라우드 음성인식 기능(Transcribe)을 사용하여 콘텐츠에서 음성을 추출, 텍스트를 생성하고, 이를 폐쇄자막과 정렬함으로써 동기 정보를 수정/생성
✔ 문자 단위 정렬 뿐 아니라 폐쇄자막 단위 정렬을 구현함으로써 수행속도 향상
- 비디오 기반 등장인물 및 표정(감정)인식 기술 개발
⦁ 영상 기반 표정인식 데이터베이스 수집 및 제작
⦁ 표정인식 기반 등장인물 감정 분석 모듈 구현
✔ MTCNN 기반 얼굴 전처리(검출/정렬) 모듈 구현
✔ 영상 및 랜드마크 기반 표정인식 알고리즘 구현
✔ 성능 향상을 위한 감정인식 핵심 알고리즘 추가 학습(Fine-Tuning)
⦁ SyncNet 기반의 비디오/오디오/텍스트를 이용한 멀티모달 모델 구현
⦁ 감정 분석기와 감정표현 자막 편집기 연동을 위한 메시지 정의
- 오디오 기반 화자인식 기술 개발
⦁ 음성정보로부터 화자를 인식하기 위한 SA-DNN 모델 개발
✔ 화자가 추가되어도 전체 모델을 새로 학습하지 않고 추가된 화자에 대해서만 학습
- 미디어 감성정보 추출을 위한 사운드 이벤트 검출 기술 개발
⦁ 방송효과음 인식을 위한 딥러닝 학습 및 인식시스템 구현
✔ 발화단위 음향 이벤트 분류 모델을 활용한 RCRNN 인식 모델
✔ Noisy student를 활용한 self-training 모델 연구
✔ 자체 구축한 14개 효과음 및 구글 AudioSet에 정의된 효과음(527 카테고리) 인식
✔ WebSocket을 이용한 Server/Client 구조
- 영상기반 자막 영역 추출 기술 개발
⦁ 영상분석을 통한 감정표현 자막 표현영역 인식 기술

□ 연구개발성과 활용계획 및 기대 효과
- 정부부처(과학기술정보통신부, 방송통신위원회) 및 유관단체로부터 지속적인 요구사항 수렴과 협의체 운영을 통해 연구개발 및 서비스 검증에 반영
- TTA에서 수행하고 있는 방통위 사업(”청각장애인용 자막·수어방송 시스템 개발“, 2019.1-2023.12)에서 구축하는 테스트베드, 시제품에서 활용하도록 개발기술 제공 및 지원

(출처 : 요약문 4p)

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI