위키피디아나 법령 문서 등과 달리 정해진 서식이 없는 일반 문서(매뉴얼, 지침, 규정 등)를 대상으로 단락 뿐만 아니라 테이블 정보에서도 검색 및 기계독해를 통해 정답을 제공하는 질의응답 기술이다. 정답 제공시 답 이외에 답을 설명할 수 있는 근거 정보도 함께 제공된다.
● 질의응답의 대상이 되는 문서들은 서식이 있는 문서들도 있지만, 서식없이 자유롭게 작성된 경우나 각 기관들마다 각자의 자유로운 형식으로 작성된 경우가 대분이며, 이러한 서식이 없는 문서들로부터 사용자가 원하는 정보를 검색하고 정답을 추출하는 기술이 중요하다.
● 또한 문서들에는 텍스트 위주의 단락 뿐만 아니라 다양한 테이블 형식의 정보들이 많이 존재하며 테이블에서 정답을 추출할 수 있는 기술의 필요성도 증대되고 있다.
● 본 기술에서 제공하는 기능으로는 서식이 없는 일반 문서 기반 시맨틱 색인/검색, 사용자 질문의 이해 및 FAQ, 질문에 대한 응답 추론, 응답에 대한 근거 제시 등이 있으며 요소기술로서의 활용을 위해 컴포넌트 단위로 패키징되어 있으며 지능형의 게시판 검색 및 챗봇 기술의 핵심기술로도 활용이 가능하다.
본 기술은 위키피디아나 법령 문서 등과 달리 정해진 서식이 없는 일반 문서(매뉴얼, 지침, 규정 등)를 대상으로 단락 뿐만 아니라 테이블 정보에서도 검색 및 기계독해를 통해 정답을 제공하는 질의응답 기술이다. 정답 제공시 답 이외에 답을 설명할 수 있는 근거 정보도 함께 제공된다.
o 딥러닝 언어모델
- 한국어 텍스트의 문맥(구문/의미)을 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝을 위한 언어모델
- 위키백과 및 신문기사 23.5 GB (약 15년 분량), 47억개 형태소 학습, 법률분야 텍스트 186MB 학습
- 한국어의 특성을 반영한 형태소 단위의 BPE 적용
o 일반 문서 색인 및 검색
- 단락 형태로 변환된 JSON 형식의 가상문서로부터 단락과 테이블 정보를 색인하고 검색하는 기술
- JSON 형식의 가상문서로부터 단락/테이블/FAQ 양식/FAQ 질문을 색인
- 형태소 및 문서 타입 기반의 심볼릭 검색 및 순위화
o 딥러닝 언어모델 기반 재순위화
- 딥러닝 언어모델 기반으로 일반 문서 대상으로 검색된 단락들을 정답이 포함될 확률이 높은 순위로 재순위화
- 정답이 포함되는 확률이 높은 순위로 검색 결과를 재순위화
- 약 209만개의 정답-오답 질문-단락 학습데이터를 이용한 fine-tunning
o 딥러닝 언어모델 기반 근거인식
- 딥러닝 언어모델 기반으로 재순위화된 검색 단락에서 정답을 추론할 수 있는 근거 문장을 추론
- 재순위화 된 검색 단락에서 정답을 추론할 수 있는 근거가 되는 문장을 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 딥러닝 언어모델 기반 기계 독해 모델
- 딥러닝 언어모델 기반으로 재순위화된 검색 단락과 근거인식 문장으로부터 각각 정답을 인식하여 하이브리드 기반으로 최종 정답을 추론
- 재순위화된 검색 단락으로부터 정답 경계 인식
- 근거인식된 문장을 결합한 단락으로부터 정답 경계 인식
- 하이브리드 기반의 최종 정답 경계 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 분산처리 플랫폼
- 대용량 텍스트 대상 언어분석을 배치로 수행하여 색인하고, 심층질의응답 서버를 운용하기 위한 플랫폼
- 배치형 한국어 분석 기반 색인 및 시맨틱 검색
- 서버 및 쓰레드 풀 확장이 가능한 심층질의응답 시스템
o 딥러닝 언어모델
- 한국어는 어근에 어미/조사가 결합되므로, 의미의 최소 단위인 형태소로 구분 필요
- 형태소 분석 이후, 형태소 단위에 대해서 BPE를 적용하여 한국어 특성 최대한 활용
- 구글 BERT 한국어 모델과 5개 태스크 대상 비교 평가 시 평균 4.5% 높은 성능
o 자연어 질문분석 및 FAQ
- 질문에 대한 언어분석(형태소, 개체명, 구문분석, SRL) 및 질문 분류(양식/단답/서술)
- (심볼릭 FAQ) 한국어 분석 기반 문장유사도 분류 모델(유의어 사전 16만건, 2만건 유사 문장 쌍 학습)
- (뉴럴 FAQ) 딥러닝 언어모델 기반 유사 질의 분류 모델(67만 일반분야 유사/비유사 질의-쌍 데이터 학습, 47만 법률분야 유사/비유사 질의-쌍 데이터 학습)
o 일반 문서 색인 및 검색
- JSON 형식의 가상문서로부터 단락/테이블/FAQ 양식/FAQ 질문을 색인
- 어휘/어휘의미 관계에 기반한 색인 및 검색
- 형태소 및 문서 타입 기반의 심볼릭 검색 및 순위화
o 딥러닝 언어모델 기반 재순위화
- JSON 형식의 가상문서로부터 단락/테이블/FAQ 양식/FAQ 질문을 색인
- 형태소 및 문서 타입 기반의 심볼릭 검색 및 순위화
o 딥러닝 언어모델 기반 근거 인식
- 재순위화 된 검색 단락에서 정답을 추론할 수 있는 근거가 되는 문장을 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 딥러닝 언어모델 기반 기계 독해
- 재순위화된 검색 단락으로부터 정답 경계 인식결과와 근거인식된 문장을 결합한 단락으로부터 정답 경계 인식하여 하이브리드 기반의 최종 정답 경계 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 분산처리 플랫폼
- 분산처리를 위해 질의응답 시스템을 프로세스 단위의 쓰레드풀(thread pool) 적용
- 대용량 분산 검색을 위한 Solr 와 언어분석 저장을 위한 Hadoop 플랫폼 적용
o 딥러닝 언어모델
- 일반문서 기반 한국어 언어모델 및 설명서
o 자연어 질문분석 및 FAQ
- 정답유형과 질문분류를 위한 SVM 기계학습 모델과 규칙 사전
- 딥러닝과 Lexico-Semantic 기반 문장 유사도 계산 엔진
- 질문분석기술 및 FAQ 기술에 대한 상세 매뉴얼 및 자료구조 설명서
o 일반 문서 색인/검색
- 조항 단위의 가상문서를 생성하기 위한 가이드라인 및 변환 도구
- 시맨틱 색인, 검색, 심볼릭 기반 재순위화 엔진
- 증분색인 등을 위한 색인 도구
- 시맨틱 색인 및 검색을 위한 사용자 매뉴얼 및 자료구조 설명서
o 딥러닝 언어모델 기반 재순위화
- 딥러닝 언어모델을 이용한 재순위화 모델/학습기 및 설명서
o 딥러닝 언어모델 기반 근거 인식
- 딥러닝 언어모델을 이용한 근거인식 모델/학습기 및 설명서
o 딥러닝 언어모델 기반 기계 독해
- 딥러닝 언어모델을 이용한 기계독해 모델/학습기 및 설명서
o 분산처리 플랫폼
- 일반문서 기반 질의응답 분산처리 엔진 및 사용자 Web UI
- 분산처리 플랫폼 구성을 위한 상세매뉴얼 및 자료구조 설명서
● 서식 없는 일반 문서에 대한 지식 저장에 활용
● 지침, 규정 등에 대한 지능형 정보 검색 서비스에 활용
● 다양한 도메인에 대한 질의응답에 활용
● 질의응답 서비스를 위한 프레임워크로 활용