ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

[Exobrain] General documment-based Question Answering System v1.0

Manager
Hyung Jik Lee
Participants
Minho Kim, Kim Young Kil, Kim Hyun, Hyunki Kim, Ryu Jihee, Kyungman Bae, Yongjin Bae, Hyung Jik Lee, Soojong Lim, Lim Joon-Ho, Jang Myung Gil, Miran Choi, Heo Jeong
Transaction Count
2
Year
2021
Project Code
19HS3200, Development of Knowledge Evolutionary WiseQA Platform Technology for Knowledge Augmented Services, Hyunki Kim
20HS3200, Development of Knowledge Evolutionary WiseQA Platform Technology for Knowledge Augmented Services, Lim Joon-Ho
위키피디아나 법령 문서 등과 달리 정해진 서식이 없는 일반 문서(매뉴얼, 지침, 규정 등)를 대상으로 단락 뿐만 아니라 테이블 정보에서도 검색 및 기계독해를 통해 정답을 제공하는 질의응답 기술이다. 정답 제공시 답 이외에 답을 설명할 수 있는 근거 정보도 함께 제공된다.
● 질의응답의 대상이 되는 문서들은 서식이 있는 문서들도 있지만, 서식없이 자유롭게 작성된 경우나 각 기관들마다 각자의 자유로운 형식으로 작성된 경우가 대분이며, 이러한 서식이 없는 문서들로부터 사용자가 원하는 정보를 검색하고 정답을 추출하는 기술이 중요하다.

● 또한 문서들에는 텍스트 위주의 단락 뿐만 아니라 다양한 테이블 형식의 정보들이 많이 존재하며 테이블에서 정답을 추출할 수 있는 기술의 필요성도 증대되고 있다.

● 본 기술에서 제공하는 기능으로는 서식이 없는 일반 문서 기반 시맨틱 색인/검색, 사용자 질문의 이해 및 FAQ, 질문에 대한 응답 추론, 응답에 대한 근거 제시 등이 있으며 요소기술로서의 활용을 위해 컴포넌트 단위로 패키징되어 있으며 지능형의 게시판 검색 및 챗봇 기술의 핵심기술로도 활용이 가능하다.
본 기술은 위키피디아나 법령 문서 등과 달리 정해진 서식이 없는 일반 문서(매뉴얼, 지침, 규정 등)를 대상으로 단락 뿐만 아니라 테이블 정보에서도 검색 및 기계독해를 통해 정답을 제공하는 질의응답 기술이다. 정답 제공시 답 이외에 답을 설명할 수 있는 근거 정보도 함께 제공된다.
o 딥러닝 언어모델
- 한국어 텍스트의 문맥(구문/의미)을 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝을 위한 언어모델
- 위키백과 및 신문기사 23.5 GB (약 15년 분량), 47억개 형태소 학습, 법률분야 텍스트 186MB 학습
- 한국어의 특성을 반영한 형태소 단위의 BPE 적용
o 일반 문서 색인 및 검색
- 단락 형태로 변환된 JSON 형식의 가상문서로부터 단락과 테이블 정보를 색인하고 검색하는 기술
- JSON 형식의 가상문서로부터 단락/테이블/FAQ 양식/FAQ 질문을 색인
- 형태소 및 문서 타입 기반의 심볼릭 검색 및 순위화
o 딥러닝 언어모델 기반 재순위화
- 딥러닝 언어모델 기반으로 일반 문서 대상으로 검색된 단락들을 정답이 포함될 확률이 높은 순위로 재순위화
- 정답이 포함되는 확률이 높은 순위로 검색 결과를 재순위화
- 약 209만개의 정답-오답 질문-단락 학습데이터를 이용한 fine-tunning
o 딥러닝 언어모델 기반 근거인식
- 딥러닝 언어모델 기반으로 재순위화된 검색 단락에서 정답을 추론할 수 있는 근거 문장을 추론
- 재순위화 된 검색 단락에서 정답을 추론할 수 있는 근거가 되는 문장을 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 딥러닝 언어모델 기반 기계 독해 모델
- 딥러닝 언어모델 기반으로 재순위화된 검색 단락과 근거인식 문장으로부터 각각 정답을 인식하여 하이브리드 기반으로 최종 정답을 추론
- 재순위화된 검색 단락으로부터 정답 경계 인식
- 근거인식된 문장을 결합한 단락으로부터 정답 경계 인식
- 하이브리드 기반의 최종 정답 경계 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 분산처리 플랫폼
- 대용량 텍스트 대상 언어분석을 배치로 수행하여 색인하고, 심층질의응답 서버를 운용하기 위한 플랫폼
- 배치형 한국어 분석 기반 색인 및 시맨틱 검색
- 서버 및 쓰레드 풀 확장이 가능한 심층질의응답 시스템
o 딥러닝 언어모델
- 한국어는 어근에 어미/조사가 결합되므로, 의미의 최소 단위인 형태소로 구분 필요
- 형태소 분석 이후, 형태소 단위에 대해서 BPE를 적용하여 한국어 특성 최대한 활용
- 구글 BERT 한국어 모델과 5개 태스크 대상 비교 평가 시 평균 4.5% 높은 성능
o 자연어 질문분석 및 FAQ
- 질문에 대한 언어분석(형태소, 개체명, 구문분석, SRL) 및 질문 분류(양식/단답/서술)
- (심볼릭 FAQ) 한국어 분석 기반 문장유사도 분류 모델(유의어 사전 16만건, 2만건 유사 문장 쌍 학습)
- (뉴럴 FAQ) 딥러닝 언어모델 기반 유사 질의 분류 모델(67만 일반분야 유사/비유사 질의-쌍 데이터 학습, 47만 법률분야 유사/비유사 질의-쌍 데이터 학습)
o 일반 문서 색인 및 검색
- JSON 형식의 가상문서로부터 단락/테이블/FAQ 양식/FAQ 질문을 색인
- 어휘/어휘의미 관계에 기반한 색인 및 검색
- 형태소 및 문서 타입 기반의 심볼릭 검색 및 순위화
o 딥러닝 언어모델 기반 재순위화
- JSON 형식의 가상문서로부터 단락/테이블/FAQ 양식/FAQ 질문을 색인
- 형태소 및 문서 타입 기반의 심볼릭 검색 및 순위화
o 딥러닝 언어모델 기반 근거 인식
- 재순위화 된 검색 단락에서 정답을 추론할 수 있는 근거가 되는 문장을 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 딥러닝 언어모델 기반 기계 독해
- 재순위화된 검색 단락으로부터 정답 경계 인식결과와 근거인식된 문장을 결합한 단락으로부터 정답 경계 인식하여 하이브리드 기반의 최종 정답 경계 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 분산처리 플랫폼
- 분산처리를 위해 질의응답 시스템을 프로세스 단위의 쓰레드풀(thread pool) 적용
- 대용량 분산 검색을 위한 Solr 와 언어분석 저장을 위한 Hadoop 플랫폼 적용

o 딥러닝 언어모델
- 일반문서 기반 한국어 언어모델 및 설명서
o 자연어 질문분석 및 FAQ
- 정답유형과 질문분류를 위한 SVM 기계학습 모델과 규칙 사전
- 딥러닝과 Lexico-Semantic 기반 문장 유사도 계산 엔진
- 질문분석기술 및 FAQ 기술에 대한 상세 매뉴얼 및 자료구조 설명서
o 일반 문서 색인/검색
- 조항 단위의 가상문서를 생성하기 위한 가이드라인 및 변환 도구
- 시맨틱 색인, 검색, 심볼릭 기반 재순위화 엔진
- 증분색인 등을 위한 색인 도구
- 시맨틱 색인 및 검색을 위한 사용자 매뉴얼 및 자료구조 설명서
o 딥러닝 언어모델 기반 재순위화
- 딥러닝 언어모델을 이용한 재순위화 모델/학습기 및 설명서
o 딥러닝 언어모델 기반 근거 인식
- 딥러닝 언어모델을 이용한 근거인식 모델/학습기 및 설명서
o 딥러닝 언어모델 기반 기계 독해
- 딥러닝 언어모델을 이용한 기계독해 모델/학습기 및 설명서
o 분산처리 플랫폼
- 일반문서 기반 질의응답 분산처리 엔진 및 사용자 Web UI
- 분산처리 플랫폼 구성을 위한 상세매뉴얼 및 자료구조 설명서
● 서식 없는 일반 문서에 대한 지식 저장에 활용
● 지침, 규정 등에 대한 지능형 정보 검색 서비스에 활용
● 다양한 도메인에 대한 질의응답에 활용
● 질의응답 서비스를 위한 프레임워크로 활용