ETRI-Knowledge Sharing Plaform

KOREAN
논문 검색
Type SCI
Year ~ Keyword

Detail

Conference Paper 트랜스포머 구조를 사용한 이미지 캡셔닝에서 객체 관계 인코딩 방법
Cited - time in scopus Share share facebook twitter linkedin kakaostory
Authors
장지호
Issue Date
2020-08
Citation
대한전자공학회 학술 대회 (하계) 2020, pp.1324-1327
Publisher
대한전자공학회
Language
Korean
Type
Conference Paper
Abstract
이미지 캡셔닝은 주어진 이미지를 가장 잘 설명하는 문장을 생성하는 문제로서 최근에는 bottom-up 및 top-down attention 및 트랜스포머 구조의 조합이 널리 사용되고 있다. 트랜스포머는 자연어 처리와 같은 시퀀스-시퀀스 전환에서 사용되는 것으로 이를 이미지 캡셔닝에서제성능을 향상시키기 위해 다양한 방법이 제안되었다. 이 논문에서는 기존의 자연어 처리를 위한 트랜스포머의 위치 인코딩(posional encoding)과 같은 어텐션 모듈(attention module)을 대체하기 위해 검출된 객체 사이의 관계 인코딩을 사용하여 성능을 향상하고자 한다. 검출된 물체 사이의 관계를 사용하는 방법이 정량적 및 정성적 평가를 통해 이미지 캡셔닝 결과에 어떻게 영향을 미치는지 확인하고 트렌스포머 구조를 사용할 때 성능을 개선하는 방법을 제안하고자 한다. 이 논문에서는 Facebook에서 시퀀스 모델링 툴킷으로 제공되는 FAIRSEQ를 기반으로 MS-coco 2014 캡션 데이터 세트를 사용하여 실험을 수행하여, 다양한 관계를 사용하여 인코딩을 적용한 결과, 정량적 평가에서 개선이 기본 트랜스포머 위치 인코딩보다 크지 않지만 정성적 평가에서 이미지가 훨씬 잘 설명됨을 확인하였다.
KSP Keywords
Bottom-Up, Top-down attention