ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

A Framework for Photorealistic Talking Face Generation

Manager
Choi Daewoong
Participants
Cheonin Oh, Yoon Daesub, Lee Giyoung, Seung-Jun Lee, Choi Daewoong
Transaction Count
1
Year
2024
Project Code
■ 본 기술은 실사 인물의 발화 영상 합성 기술에 관한 것임
■ 영상 합성을 위한 목표 인물의 얼굴 외형을 포함한 영상 데이터와 발화할 문장 음성에 맞게 목표 인물이 자연스럽게 발화하는 영상을 합성해주는 기술
■ 교육, 마케팅 등 급증하는 영상 소비 추세에 따라 특정 인물이 동일한 배경에서 다른 문장을 발화하는 영상 제작의 수요가 있는데, 매 영상마다 촬영할 필요없이 원본 영상데이터를 활용하여 새로 합성해주는 기술
■ 특히, 생성AI기술을 활용하여 새로 합성할 인물을 영상 데이터, 그 인물이 발화할 문장을 음성 데이터로 입력받아 목표 인물의 자연스러운 발화 영상을 합성해주는 기능을 포함함
■ 본 영상 합성 기술은 목표 인물의 얼굴 외형을 포함한 영상 데이터 입력만으로 원하는 발화 표정을 새롭게 합성해줄 뿐만 아니라 해상도, 입술 움직임 동기화 등의 요소를 고려함으로써 고품질 합성기능을 보장함
■ 교육용 강의, 뉴스 앵커같이 특정 인물이 발화하는 영상 제작에 드는 인적, 시간적 자원 소모를 줄이기 위해, 실사 인물 발화 영상 합성에 특화된 생성AI모델 기술 상용화 추진
■ 생성AI기술을 활용하는 인물 영상 합성기술에서 얼굴 자세 및 표정 등의 딥러닝 모델의 결과물 제어기술 전수를 통한 응용 소포트웨어 개발 및 적용
■ 영상 소비 트렌드의 대중화에 따른 맞춤형 인물 영상 제작 수요 증가
o (개인) 2023년 개인 영상 소비자는 35억 명에 달하며, 일주일 평균 17시간동안 온라인 영상 시청 통계 (HubSpot 마케팅 설문)
o (기업) 91%의 기업이 영상 컨텐츠를 마케팅에 활용
o (교육) 2025년부터 수학, 영어, 정보 교과에 학생들의 학습수준을 고려한 “맞춤” 교육 컨텐츠를 지원하는 AI 디지털 교과서를 도입하는 것을 목표로 함(2023년 교육 혁신)
■ 영상 제작에 필요한 준비 및 환경 간소화 요구
o 현재 영상 제작 기술은 수작업 및 대면 작업이 필요한 상황
o 장소 및 모델 섭외, 일정 확보, 대본 작성, 촬영, 편집의 전 과정에 인적·시간적 자원 소모가 큼
■ 위의 급증하는 인물 영상 수요에 맞게, 자원 소모없이 보다 빠르게 실사 인물의 자연스러운 발화 영상을 제작하기 위한 핵심 기술이 필요함
■ 특정 인물이 임의의 문장을 발화하는 영상을 생성AI기술을 활용하여 즉각 제작 가능함
■ 영상 합성을 위한 다량의 학습데이터나 추가 학습 요구없이 고품질 영상합성이 가능함
■ 영상 제작 전 과정에서 기존 인물 발화 영상을 활용하여 비대면, 원격 서비스로 실사 인물 영상을 새로 합성 가능함
● 영상 합성용 제어 데이터 입력 기능
● 얼굴 영상 및 발화음성 데이터 전처리 기능
● 입력정보기반 데이터 및 딥러닝 모델 GPU 로드 기능
● 생성AI기반 발화 얼굴 영상 합성 기능
● 합성영상 저장 및 시각화 기능
● 합성 영상 품질 평가 기능
● 생성AI모델 추론 코드
● 실사 인물 발화 영상생성 소프트웨어 사용매뉴얼
● 실사 인물 발화 영상 생성 프레임워크 기술 시험절차 및 결과서
● 특허(2024-0013104) : 생성AI를 활용한 자율주행 차-보행자 간 소통방법
● 프로그램: 실사 인물 발화영상 생성 소프트웨어
■ (초실사 인물 영상 생성 기술 확보) 실존 인물에 대한 고품질 영상 제작이 가능한 기술 확보 가능
■ (생성AI 제어 기술 확보) 사람 얼굴 뿐만 아니라 그림, 웹툰 등의 다른 생성AI 모델의 생성 결과물을 제어하기 위한 모델 학습 원천기술 확보 가능
■ (비대면 컨텐츠 제작 환경 제공) 영상 제작에 필요한 사람 모델은 자신의 대표 사진이나 영상, 음성 만으로 해당 모델의 생생한 영상을 만들어낼 수 있게 됨으로써 ,컨텐츠 제작 과정이 원격, 비대면 서비스 시나리오로 발전될 가능성이 있음