ETRI Knowledge Sharing Platform : 효율적인 신경망 기반 오디오 코덱을 위한 잔차 오토인코딩 및 연속형 오토인코더의 잠재 표현 증류

Titles

논문 검색
Type		SCI
Year	~	Keyword

List

Conference Paper 효율적인 신경망 기반 오디오 코덱을 위한 잔차 오토인코딩 및 연속형 오토인코더의 잠재 표현 증류

Cited - time in scopus

Abstract: 본 논문에서는 심층 신경망 기반 오디오 코덱의 효율적이고 안정적인 학습을 위한 잔차 오토인코딩 구조와 연속형 오토인코더 기반의 증류 학습 기법을 제안한다. 최근 신경망 기반 오디오 코덱은 정교하게 설계된 판별자를 활용한 적대적 생성 신경망을 바탕으로 고효율, 고품질의 압축 성능을 달성하였다. 그러나 생성자의 핵심 구조인 오토인코더 자체의 복원 능력 향상을 위한 구조적 개선에 관한 연구는 상대적으로 부족하다. 본 연구에서는 기존 신경망 기반 오디오 코덱의 주요 합성곱 층에 시간-채널 변환 기반 스킵 연결을 추가하여 잔차 성분 중심의 효율적인 표현 학습이 이루어지도록 하는 잔차 오토인코딩의 도입을 제안한다. 또한 연속형 오토인코더에서 추출한 잠재 표현을 교사 신호로 활용하는 증류 손실을 추가하여, 양자화가 포함된 잔차 오토인코딩 구조의 학습 안정성을 확보하고자 한다. 실험을 통해 잔차 오토인코딩 구조의 도입이 연속형 오토인코더의 복원 성능을 개선하는 것을 입증하였으며, 양자화 모듈과 적대적 생성 신경망을 결합한 학습 환경에서 안정적으로 수렴함을 확인하였다.

218 Gajeong-ro, Yuseong-gu, Daejeon, 34129, KOREA, Contact: sh.kim@etri.re.kr

Please refrain from automatic collection of e-mail addresses posted on this homepage.