ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

RPA를 위한 합성곱 신경망 기반 한국어 문서 자동 배부 기술

전수책임자
임수종
참여자
김민호, 김영길, 김현기, 류지희, 배경만, 배용진, 이형직, 임수종, 임준호, 장명길, 최미란, 허정
기술이전수
1
이전연도
2021
협약과제
20HS3200, (엑소브레인-총괄/1세부) 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발, 임준호
. 본 기술은 RPA를 위해 기업이나 공공기관에서 자주 쓰이는 기안과 같은 한국어 업무 문서를 입력받아 딥러닝의 일종인 합성곱 신경망(Convolutional Neural Network, CNN) 학습을 통해 그에 적합한 기 정의된 배부처에 사내 업무 문서를 자동으로 배부하는 기술에 대한 것이다.
. 본 기술은 기본적으로는 한국어 자동 분류(classification) 기술에 기반하며 한국어 단어를 기본 단위로 분석하고, 이를 벡터화(vectorization) 하여 CNN에 적용한다.
. 본 기술은 일반적인 자동 배부 기술에 해당하며 특정 업무나 체계에 적용하기 위해서는 기술이전을 대상 업체에서 목적에 맞게 적용하여야 한다.
● 매일 쏟아지는 방대한 양의 문서를 수작업으로 분류하는 것은 거의 불가능하다.
● 기업이나 기관 등에서 전자화된 업무 문서를 처리해야 하는 부서에 수동으로 배부하는 것은 소규모일 경우에는 가능하지만 대규모 기업이나 기관은 많은 인력이 소요되기 때문에 이런 반복적인 업무를 자동화하여 배부해주는 기술이 필요하다.
● 하지만 명확한 기준과 분류 체계에 기반하는 문서 분류와 다르게 기업의 배부 작업은 주로 기업의 업무 분담에 따라 이뤄지기 때문에 분류 기술을 자동으로 적용할 경우 성능이 저하되는 요인이 된다.
● 본 기술이전에서는 딥러닝 방법 중에서도 문서 주제 분류에 가장 적합하다고 알려진 CNN 등의 최신 기계 학습 방법을 이용하여 한국어 텍스트를 기 정의된 배부처에 맞게 자동 분류하여 배부하고자 한다. 현재는 계층 구조의 키워드 정보만을 이용하거나 문서관리자 혹은 문서 생성자가 등록한 태그 정보만을 이용하여 분류하기 때문에 자동 분류 성능이 사용자의 요구를 만족치 못 하기 때문에 고차원 딥러닝 방법에 기반하여 분류함으로써 성능 향상을 꾀한다.
● 딥러닝에 기반한 한국어 문서 자동배부 기술을 업체에 이전함으로써 업무 문서 콘텐츠 서비스 및 정보 관리 서비스(IMS: Information Management Service), 나아가 지식 관리 서비스(KMS: Knolwedge Management Service) 기술들의 산업화에 활용을 촉진하고자 한다.
이전하고자 하는 RPA를 위한 합성곱 신경망 기반 한국어 문서 자동 배부 기술은 다음과 같은 기술적 특징을 갖는다.
● 첫째, 기업이나 기관의 사내 문서의 제목, 태그, 본문 등의 다양한 정보를 이용하고 차후 필요한 정보는 추가가 가능하여 적용하고자 하는 분야에 최적의 성능을 보인다.
● 둘째, 딥러닝 모델(CNN)을 이용하여 한국어 문서 자동 배부를 수행함으로써 기존 방법보다 높은 성능을 보여준다.
● 셋째, 학습이 가능한 학습 데이터를 구축하여 다양한 분야에 적용이 가능하다.
한국어 사내 업무 문서를 입력받아 문맥을 파악하고, 그에 적합한 기 정의된 배부처 중에서 문서에 맞는 배부처를 자동으로 할당하는 기술로 다음의 내용을 포함한다.

A. 기술명 : RPA를 위한 합성곱 신경망 기반 한국어 문서 자동 배부 기술
- 한국어 언어 단위 분석 기술: 자동 배부를 위한 한국어 대상 기본 단위 기술
- 딥러닝 기반 문서 주제 분류 엔진: 입력된 사내 업무 문서의 문맥을 파악하여 기 정의된 배부처 중 가장 적합한 배부처를 자동으로 할당하는 기술
A. 기술명 : RPA를 위한 합성곱 신경망 기반 한국어 문서 자동 배부 기술
- 한국어 언어 단위 분석 기술
- 합성곱 신경망 기반 한국어 문서 배부 학습 엔진
- 합성곱 신경망 기반 한국어 문서 배부 엔진
- 합성곱 신경망 기반 한국어 문서 배부 학습 및 배부 엔진 매뉴얼

한국어 업무 문서 자동 배부를 위해서는 분류 대상이 되는 기정의된 기업 혹은 기관내 배부처와 각 배부처에 해당하는 일정양의 학습 데이터가 필요하다. 학습데이터는 일반적으로 배부처당 2,000문서 이상의 권장하지만 이는 일반적인 업무 문서 길이가 제목과 본문이 짧기 때문이며, 일반적인 뉴스 기사 수준이라면 약 200문서 정도를 권장한다. 배부처와 학습 데이터는 적용하고자 하는 분야에 따라 다르기 때문에 본 기술이전에서는 제공하지 않고 필요에 따라 기술이전 업체에서 제공하여 학습하도록 한다.
● 본 기술이전 범위에 포함된 한국어 문서 자동 배부 기술은 기업이나 기관의 사내 문서의 내용을 분석해 기정의된 배부처에 할당함으로써 효과적인 문서 관리에 용이하며, 최종적으로 기업의 반복적인 배부 업무를 자동화하여 기업정보 관리의 효율을 향상시킬 수 있다.
● 필요할 경우 기업의 사내 문서 뿐 아니라 뿐만 아니라 고객의 소리(VOC) 게시판과 같은 게시글을 분류함으로써 기업의 고객 응대 전략을 수립하는 기초자료로 활용하거나 기업 의사결정을 위한 Business Intelligence platform 기반 기술로 활용될 수 있다.