ETRI Knowledge Sharing Platform : A technology for enhancing realism in real-time for mid/low-quality digital human video

기술이전 검색
Year	~	Transaction Count		Keyword

본 기술은 인공지능을 이용하여 사실적인 디지털 휴먼을 만드는 기술이다. 사실적인 디지털 휴먼 서비스를 위한 일반적인 방법은 고품질의 3D 모델을 생성하거나, 렌더링 엔진의 품질을 향상하여 실사형 디지털 휴먼을 제작하는 것이다. 이와는 다르게 본 기술은 인공지능 기술을 기반으로 2D 영상의 실감성을 향상하는 방법이다.
본 기술이전은 기존 혹은 기 보유 기술로 만들어진 2D 영상을 입력하여 생성형 AI를 통해 실감화된 영상으로 변형하는 것이다.

본 기술이전은 중/저품질의 2D 영상(3D 모델로부터 렌더링된 2D 디지털 휴먼 영상 혹은 딥페이크 등 인공지능을 이용하여 만든 영상 혹은 실사 촬영영상) 실감화하는 것이다. 본기술에서 정의하는 실감화는 앞서 서술한 바와 같이 “실감 가시화”, “실감 뷰티화”, “스타일 변형”이 있다. 전통적으로 실감 디지털 휴먼을 서비스하기 위해 고품질의 모델링과 렌더링 엔진의 성능향상 등의 방법을 사용하지만, 본 기술은 기존의 저작도구를 통해 만들어지는 중/저품질의 3D 디지털 휴먼을 이용하여 실감화를 진행한다. 즉, 기존의 접근 방식과 다른 뉴럴렌더링(Neural Rendering)의 기법을 적용한다. 뉴럴렌더링이란 인공지능으로 대규모의 영상을 학습하여 영상을 변형하는 기술로, 실감 가시화의 경우는 실제 사람 영상을 이용하여 빛의 모든 효과를 학습하고, 이를 통해 부자연스럽게 렌더링된 2D 디지털 휴먼 영상을 실제 사람처럼 변형하는 것이다. 이를 통해 저비용으로 실사 수준의 디지털 휴먼을 서비스 할 수 있다.

● 시간축 일치성을 지원하여 동영상의 깜빡임 제어
- 일반적으로 생성형 AI를 이용하여 만든 동영상은 시간축 일치성을 미지원하여 동영상의 깜빡임 발생으로 품질 저하
- 본 기술은 생성된 동영상의 깜빡임 현상 제거

● 실시간 추론 지원
- 실시간 추론을 지원하여 키오스크, 게임 등 실시간 인터랙티브 영상에 적용 가능 (RTX 3090을 기준으로 FHD 영상 실시간 처리), 단 영상의 복잡도, 입력영상의 다양성 지원 범위 등에 따라 달라질 수 있음

● 기존의 콘텐츠 제작 파이프라인에 쉽게 적용 가능
- 3D 콘텐츠 제작 환경에서 기존 파이프라인에 쉽게 통합되는 것은 아주 중요한 이슈
- 본 기술은 기존의 모델러 및 렌더러에 독립적으로 적용 가능
- 기존의 상용 저작도구를 통해 만들어진 3D 콘텐츠를 유니티 혹은 언리얼로 렌더링한 2D 영상에 실감 가시화 수행
- 이를 통해 업체의 기 보유 프로젝트에 쉽게 통합 가능

● 저비용으로 실사 디지털 휴먼 서비스 가능
- 고품질의 디지털 휴먼 생성은 상당한 비용이 소요 됨
- 본 기술은 중/저품질로 모델링하여 렌더링된 영상을 실사 수준의 영상으로 변경함으로써 저 비용으로 실사 수준의 디지털 휴먼 서비스 가능

● 실감 가시화, 실감 뷰티화, 스타일 변형 지원
- 기존의 GAN(Generative Adversarial Network, 생산적 적대 신경망) 등을 이용하여 임의의 사람을 생성하는 기술과는 다르게, 입력의 아이디를 유지하는 실감 가시화, 입력영상의 아이디를 일부만 유지하는 실감 뷰티화 및 스타일 변형 지원

● 제어 가능한 디지털 휴먼 서비스 가능
- 기존 페이스 스왑 형태의 디지털 휴먼 생성 기술은 실제 사람의 바디에 가상의 사람 얼굴만 합성 함
- 이 경우 3D 모델이 가지는 무한대의 제어성(리깅 및 애니메이션 작업으로 다양한 자세를 취할 수 있음)이라는 장점이 없어짐

<기술이전 내용>
A. 1세부 기술 : 인공지능으로 생성된 디지털 휴먼에 대한 실시간 실감 해상도 증강 추론 기술
- 디지털 휴먼 영상에 대한 실시간 해상도 증강
- 저해상도 디지털 휴먼 영상(얼굴)을 입력하여 고해상도 실감 영상(얼굴) 생성후 원본 영상에 오버랩
- 실시간 페이스 스왑 지원을 위한 GPU 기반의 최적화
- 관련 특허 실시권 및 관련 기술 문서

B. 2세부 기술 : 디지털 휴먼에 대한 시간 일치성을 지원하는 실감화 학습 기술
- 중/저품질의 디지털 휴먼을 입력하여 시간 일치성을 지원하고 검증 추론이 가능한 비실시간 실감화 추론 모델 생성
· “실감 가시화”, “실감 뷰티화”, “스타일 변경” 지원
· 입력 영상을 기반으로 “실감 가시화”, “실감 뷰티화”, “스타일 변경”에 대한 자체 학습 데이터 생성 연동 지원
· 비실시간 동영상 실감화 학습모델 생성 지원
· 비실시간 동영상 실감화 학습모델 기반 추론 지원
- 관련 특허 실시권 및 관련 문서

C. 3세부 기술 : 디지털 휴먼에 대한 시간 일치성을 지원하는 실시간 실감화 추론 기술
- 중/저품질의 디지털 휴먼을 입력하여 시간 일치성을 지원하고, 실시간 추론이 가능한 실감화 추론 엔진
· 상기 엔진은 “실감 가시화”, “실감 뷰티화”, “스타일 변경”을 지원 가능
※ 단일 엔진이 세 가지 기능을 동시에 지원하는 것이 아님
· 시간 일치성 지원으로 생성된 결과물이 떨림 현상 제거
· 실시간 추론 기능으로 인터랙티브한 응용 적용 가능
- 관련 특허 실시권 및 관련 문서

D. 4세부 기술 : 실시간 실감화 추론 엔진 통합을 위한 유니티 플러그인
- 실감화 추론 엔진에 대한 유니티 통합 플러그인
※ 플러그인의 기능은 유니티에서 렌더링 영상을 읽어서 추론엔진에 고속으로 전달하는 역할 수행, 기술 C를 이전한 경우에만 적용 가능
- 유니티 프로젝트 내의 렌더링 카메라 기반 사용자 편의 통합 지원
- 유니티 버전 2021 이상 지원

E. 5세부 기술 : 실시간 실감화 추론 엔진을 통합을 위한 모니터 화면 캡쳐 기술
- 실감화 추론 엔진을 화면에 디스플레이 되는 영상에 적용하기 위한 화면 캡처 및 추론엔진 연동
※ 캡처 프로그램의 기능은 윈도우 화면을 캡처하여 추론엔진에 고속으로 전달하는 역할 수행, 기술 C를 이전한 경우에만 적용 가능
- Windows 11이상 지원

F. 6세부 기술 : 추가 학습 패키지
- C(3세부 기술)를 기술이전 한 경우에 한 해, 추가로 1회 학습 모델 제공

<기술이전 범위>
A. 1세부 기술 : 인공지능으로 생성된 디지털 휴먼에 대한 실시간 실감 해상도 증강 추론 기술
1) 기술 요구사항 정의서 등 관련 기술문서 5종
2) 관련 라이브러리(유틸리티)
- 실감 해상도 증강된 얼굴 영상을 원본 영상에 오버랩하는 OpenGL기반 프로그램(소스코드)
3) 실행 코드(추론 모델)
- 네트워크 모델 파라메터를 로딩하여 추론하는 SDK
- 추론 검증을 위한 SDK 사용 샘플 프로그램 (C기반 소스코드)
- 실시간 실감 해상도 증강 추론 네트워크 모델 파라미터 파일

B. 2세부 기술 : 디지털 휴먼에 대한 시간 일치성을 지원하는 실감화 학습 기술
1) 기술 요구사항 정의서 등 관련 기술문서 8종
2) 관련 라이브러리(유틸리티)
- 자체 학습 데이터 생성 연동 지원 프로그램(실행코드)
3) 실행 코드(실감화 학습모델 생성엔진)
- 속도와 실감화 품질 제어 가능한 비실시간 동영상 학습모델 생성 프로그램
- 비실시간 동영상 학습모델 기반 추론 프로그램

C. 3세부 기술 : 디지털 휴먼에 대한 시간 일치성을 지원하는 실시간 실감화 추론 기술
1) 기술 요구사항 정의서 등 관련 기술문서 5종
2) 실행 코드(추론 엔진)
- 네트워크 모델 파라메터를 로딩하여 추론하는 SDK
- 추론 검증을 위한 SDK 사용 샘플 프로그램 (C기반 소스코드)
- 실시간 실감화 추론 네트워크 모델 파라미터 파일

D. 4세부 기술 : 실시간 실감화 추론 엔진 통합을 위한 유니티 플러그인
1) 기술 요구사항 정의서 등 관련 기술문서 2종
2) 소스 코드
- 실시간 추론 SDK를 사용한 유니티 연동 스크립트 (C# 소스코드)
- HDRP 지원 GPU 기반 렌더 텍스쳐 캡쳐 및 업데이트 스크립트 (C# 소스코드)

E. 5세부 기술 : 실시간 실감화 추론 엔진을 통합을 위한 모니터 화면 캡쳐 기술
1) 기술 요구사항 정의서 등 관련 기술문서 2종
2) 소스 코드
- 실시간 추론 SDK를 사용한 모니터 화면 캡쳐 및 실감화 프로그램 (C# 소스코드)

F. 6세부 기술 : 추가 학습 패키지
- 신규 학습된 실시간 실감화 추론 네트워크 모델 파라미터 파일

● 적용 분야
- 중/저품질로 모델링된 디지털 휴먼을 이용한 실감 가시화 산업(3D 디지털 휴먼, 관련 에셋 등을 포함하는 유니티 혹은 언리얼 프로젝트는 기 보유해야 함)
- 실감콘텐츠 산업현장(디지털 심리치료, 비대면 비즈니스, 가상 뉴스 앵커, 디지털 성형 등)에서 신뢰성을 확보할 수 있는 사실적인 디지털 휴먼
* 디지털 휴먼의 사실감이 사용자의 반응에 직접적인 영향을 행사함
⇒ 디지털 심리치료에서 미세표정(눈동자 움직임, 주름 등) 및 감성 표현이 가능한 디지털 휴먼으로 치료 효과 극대화
⇒ 가상훈련(전투훈련, 소방훈련, 안전교육) 등에서 실제와 동일한 시각효과를 제공하는 디지털 휴먼으로 훈련효과 극대화
⇒ 가상 판매원, 상담원과 같이 신뢰감이 중요한 응용에서 실감 가시화 기술로 사람과 같은 서비스 효과 제공
- 게임 등의 실시간 인터랙티브 응용에서 렌더링 결과물에 대한 실감화 서비스 지원
* 저품질로 모델링되어 렌더링된 NPC에 대한 실감화 지원
* 중품실로 렌더링된 주연급 캐릭터(PC 혹은 NPC)에 대한 실감화 지원

● 기대효과
- 저비용으로 실사 수준의 디지털 휴먼 서비스 가능
- 시간축 떨림이 없는 동영상 생성으로 기존 생성형 AI의 기술한계 극복
- 실시간 추론(영상 생성) 지원을 통해 게임, 키오스크 등의 인터랙티브한 응용서비스 지원 가능
- 사용자의 요구사항에 따라 원본 영상의 아이덴티티 유지, 변형 및 전체 스타일 변경 가능
- 3D 모델링의 장점과(제어성) 인공지능을 장점을(실감성) 동시에 활용 가능

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI