ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

A Korean Documents Classification related to Pets using Deep Learning

Manager
Soojong Lim
Participants
Minho Kim, Hyunki Kim, Ryu Jihee, Park Sang Kyu, Kyungman Bae, Yongjin Bae, Yongjin Bae, Wang Ji Hyun, Hyung Jik Lee, Soojong Lim, Lim Joon-Ho, Jang Myung Gil, Miran Choi, Heo Jeong
Transaction Count
1
Year
2018
Project Code
17HS3800, Development of Knowledge Evolutionary WiseQA Platform Technology for Knowledge Augmented Services, Hyunki Kim
● 본 기술은 한국어 텍스트 문서를 입력받아 딥러닝 학습을 통해 그에 적합한 기 정의된 범주를 자동으로 할당하는 분류기술에 대한 것이다.
● 본 기술은 애완동물 분야 강아지, 고양이 관련 문서를 미리 정해진 강아지 분야 10개, 고양이 분야 12개에 특화하여 개발하였다.
● 매일 쏟아지는 방대한 양의 문서를 수작업으로 분류하는 것은 거의 불가능하다.
● 특히, 웹에는 수십억개의 웹 페이지가 있다고 알려져 있는데 이러한 웹 페이지에는 뉴스 미디어 뿐 아니라 웹 2.0 시대에 맞게 일반 사용자들이 콘텐츠를 작성하는 ‘1인 미디어’ 가 많이 양상되고 있으며, 그 중에서도 블로그가 상당수를 차지하고 인터넷의 발전 경향에서도 블로그가 차지하는 비중은 더욱더 증가할 전망이다.
● 또한 뉴스와 같은 정형화된 문서 이외에도 게시판 형식의 사용자의 불만이나 문의를 처리하는 고객의 소리, 즉 VOC(Voice-of-customer)와 관련된 콘텐츠도 다양한 분야와 창구를 통해 수집되고 있는 실정이다.
● 본 기술이전에서는 딥러닝 방법 중에서도 문서 주제 분류에 가장 적합하다고 알려진 CNN(Convolutional Neural Network) 등의 최신 기계 학습 방법을 이용하여 한국어 텍스트를 기 정의된 분류 체계에 맞게 자동 분류하고자 한다. 현재는 계층 구조의 키워드 정보만을 이용하거나 문서관리자 혹은 문서 생성자가 등록한 태그 정보만을 이용하여 분류하기 때문에 자동 분류 성능이 사용자의 요구를 만족치 못 한다. 또한 고차원 딥러닝 방법에 기반하여 분류함으로써 성능 향상을 꾀한다.
● 딥러닝에 기반한 한국어 문서 자동분류 기술을 업체에 이전함으로써 웹 문서 콘텐츠 서비스 및 정보 관리 서비스(IMS: Information Management Service), 나아가 지식 관리 서비스(KMS: Knolwedge Management Service) 기술들의 산업화에 활용을 촉진하고자 한다.
● 첫째, 한국어 텍스트 문서의 제목, 태그, 본문 등의 다양한 정보를 이용하고 차후 필요한 정보는 추가 및 weighting을 지정하여 적용하고자 하는 분야에서 최적의 성능을 보인다.
● 둘째, 딥러닝 모델(CNN)을 이용하여 한국어 문서 자동 분류를 수행함으로써 기존 방법보다 높은 성능을 보여준다.
● 셋째, 애완동물 중 시장성이 있는 강아지, 고양이에 관한 문서를 기정의된 10개, 12개 범주로 자동 분류한다.
한국어 텍스트 문서를 입력받아 문맥을 파악하고, 그에 적합한 기 정의된 범주를 자동으로 할당하는 분류로 다음의 내용을 포함한다.

A. 기술명 : 딥러닝 기반 애완동물 분야 한국어 문서 자동 분류 기술
- 한국어 언어분석 기술: 한국어 문맥을 이해하기 위한 한국어 분석 기술
- 딥러닝 기반 문서 주제 분류 엔진: 주어진, 강아지, 고양이 관련 입력문서의 문맥을 파악하여 기 정의된 주제 분류 체계 중 가장 적합한 주제를 자동으로 할당하는 기술
A. 기술명 : 딥러닝 기반 애완동물 분야 한국어 문서 자동 분류 기술
- 한국어 언어분석 기술
- 딥러닝 기반 애완동물 분야 한국어 문서 주제 학습 엔진
- 딥러닝 기반 애완동물 분야 한국어 문서 주제 분류 엔진
- 딥러닝 기반 한국어 문서 주제 학습 및 분류 엔진 매뉴얼


문서 자동 분류를 위해서는 분류 대상이 되는 기정의된 강아지 10개, 고양이 12개 주제 범주와 범주에 해당하는 일정양의 학습 데이터가 필요하다. 학습데이터는 일반적으로 범주당 200문서 이상의 권장한다. 범주와 학습 데이터는 적용하고자 하는 분야에 따라 다르기 때문에 본 기술이전에서는 제공하지 않고 필요에 따라 기술이전 업체에서 제공하여 학습하도록 한다.
● 본 기술이전 범위에 포함된 한국어 문서의 주제 분류 기술은 웹 문서 콘텐츠를 내용을 분석해 기정의된 범주 체계로 할당함으로써 효과적인 정보 관리에 용이하며, 최종적으로 기업의 다양한 웹 문서 콘텐츠 분석 관련 서비스(예를 들면, 온라인 광고, 검색 서비스)의 질을 향상시킬 수 있다.
● 웹 문서 뿐 아니라 기업의 사내 문서를 대상으로 분류를 적용함으로써 기업 정보 관리의 효율화를 꾀할 수 있다.
● 뿐만 아니라 고객의 소리(VOC) 게시판과 같은 게시글을 분류함으로써 기업의 고객 응대 전략을 수립하는 기초자료로 활용하거나 기업 의사결정을 위한 Business Intelligence platform 기반 기술로 활용될 수 있다.