ETRI-Knowledge Sharing Plaform

KOREAN
논문 검색
Type SCI
Year ~ Keyword

Detail

Conference Paper 사후 의미 증류를 이용한 유한 스칼라 양자화 기반 이단계 음성 토크나이저
Cited - time in scopus Share share facebook twitter linkedin kakaostory
Authors
김효민, 이지현, 장인선, 강홍구
Issue Date
2026-06
Citation
한국방송·미디어공학회 학술 대회 (하계) 2026, pp.1-4
Publisher
한국방송·미디어공학회
Language
Korean
Type
Conference Paper
Abstract
본 논문에서는 음성 신호에 내재된 의미 정보를 이산 토큰 수준에서 효과적으로 구조화하기 위한 유한 스칼라 양자화기반의 이단계 음성 토크나이저를 제안한다. 제안 방법은 유한 스칼라 양자화를 사용하여 잔차 벡터 양자화에서 발생하는 코드북 활용률 부족 문제를 완화한다. 또한, 사전 학습된 음성 자기지도 학습 모델을 활용한 증류 손실 함수와 음소 레이블 기반 대조 손실 함수를 적용함으로써 첫 번째 양자화 단계의 이산 토큰이 음소 수준의 의미 정보를 담도록 유도한다. 특히, 두 손실 함수를 양자화 전과 후에 적용하는 방식을 비교 분석하여, 사후 증류가 토큰의 의미 정보 보존에 더욱 효과적임을 표현 공간 시각화 및 음성 인식 성능 평가를 통해 검증한다.