ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

[Exobrain] Common Knowledge QA System for Korean Language - v1.0

Manager
Yongjin Bae
Participants
Transaction Count
0
Year
2020
Project Code
본 기술은 한국어 위키피디아 문서에 기반한 상식 분야 질의응답(QA, Question Answering) 기술이다. 기본적으로 사용자의 질문을 분석하고, 정답 단락을 탐색하여, 기계독해를 통해 정답을 제공하는 기술로 구성되어있고, 질문 유형에 따라 정의형QA, 트리플QA, FAQ가 구동되어 정답을 추론할 수 있다. 만약 정답을 찾지 못하였을 때 정답이 포함되어 있는 확률이 높은 단락을 제시한다.
● 넘쳐나는 디지털 정보의 바다에서 원하는 정확한 정보를 찾기가 어려운 현시점에 가장 중요한 기술은 정보를 효율적으로 탐색하고, 원하는 정보를 정확하게 획득하는 것이 중요한 상황이다.
● 다양한 정보를 대상으로 정확한 정보를 획득하기 위해서는 빅데이터에 대한 시맨틱 색인/검색 및 사용자의 질문에 대한 의도를 명확하게 파악하여 정보를 찾고, 원하는 응답을 제시하는 질의응답 기술이 반드시 필요하다.
● 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 머신러닝과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있고, IBM의 ‘왓슨’이라는 질의응답 시스템이 제퍼디 퀴즈 쇼에서 인간 챔피언을 상대로 우승하여 인공지능 기술의 부흥을 이끌고 있다.
● 딥러닝 기술의 발전은 Symbolic AI의 한계를 넘어, Non-symbolic AI로 패러다임을 바꾸고 있고, Non-symbolic 기반의 다양한 기계독해 기술의 개발로 질의응답기술이 크게 발전하고 있다.
● 본 기술에서 제공하는 기능에는 텍스트 기반 빅데이터에 대한 시맨틱 색인/검색, 사용자 질문의 이해, 질문에 대한 응답 추론, 응답에 대한 근거 제시 등이 이다. 해당 기능에 대해서 일반상식(위키피디아) 도메인에서 쉽게 적용할 수 있도록 기술을 패키징하여 다양한 산업분야의 정보검색 및 질의응답 기반 기술로 활용 가치가 높다.
본 기술은 최신 딥러닝 언어모델인 KorBERT를 적용한 재순위화 및 기계독해 기술과 다양한 심볼릭 정보에 기반한 시맨틱 단락검색 및 질문이해 기술이 하이브리드된 한국어 심층질의응답 기술이다. 또한, 질문의 유형에 따라 정의형QA, 트리플QA, FAQ가 구동되어 최적의 정답을 추론한다.
o 한국어 질문분석
- 자연어 질문을 분석하여 핵심 키워드를 판별하고 질문의 유형을 분류
- 개체명, 엔티티 인식 및 연결 등의 핵심 키워드 인식
- 134,412건 질문-정답 쌍 학습을 통한 질문 분류
o 시맨틱 색인 및 검색
- 문서, 단락, 문장으로 지식의 단위를 세분화하여 주요 키워드를 색인하고, 질문분석 결과를 입력받아 정답이 포함된 문서/단락/문장을 검색하고 순위화
- 문서, 단락, 문장 등 문서구조 기반 한국어 분석기술을 활용한 시맨틱 색인
- BM25(Best Matching 25) 기반 문서, 단락, 문장 검색 후, 다양한 검색자질을 통합한 검색결과의 1차 재순위화(랭킹)
o 한국어 딥러닝 언어모델 KorBERT
- 한국어 텍스트의 문맥(구문/의미)을 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝을 위한 언어모델
- 위키백과 및 신문기사 23.5 GB (약 15년 분량), 47억개 형태소 학습
- 구글이 배포한 다국어 BERT 모델 대비 평균 4.5% 우수 (5개 태스크 평균 성능)
o KorBERT 기반 딥러닝 재순위화 및 기계 독해
-KorBERT 기반으로 검색결과를 재순위화하고, 검색결과에서 질문에서 요구하는 정답을 추론
-KorBERT 기반으로 정답이 포함되는 확률이 높은 순위로 다수 검색단락을 재순위화(84만 정답-오답 질문-단락 쌍 데이터 학습)
-KorBERT 기반으로 질문에서 찾고자 하는 정답을 기계독해를 통해 추론
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
-사용자 질문과 유사한 질문을 사전등록된 질문/답변 DB를 검색하여 답변 제공
-(심볼릭 모델) 한국어 분석 기반 문장유사도 분류 모델(유의어 사전 16만건, 2만건 유사 문장 쌍 학습)
-(뉴럴 모델) KorBERT 기반 유사 질의 분류 모델(67만 유사/비유사 질의-쌍 데이터 학습 (질문 2,800개))
o 상식분야 정형(Triple) 질의응답
- 엔티티 및 정규화 사전을 통한 트리플 검색
- Triple정보 22,024,713개, 엔터티 정규화 사전 1,181,350개, 속성 정규화 사전 9,230개
o 분산처리 플랫폼
-대용량 텍스트 대상 언어분석을 배치로 수행하여 색인하고, 심층질의응답 서버를 운용하기 위한 플랫폼
-배치형 한국어 분석 기반 색인 및 시맨틱 검색
-서버 확장이 가능한 심층질의응답 시스템(로드밸런싱 기능 및 시스템 로그 관리 기능)
o 한국어 딥러닝 언어모델 KorBERT
- 한국어는 어근에 어미/조사가 결합되므로, 의미의 최소 단위인 형태소로 구분 필요
- 형태소 분석 이후, 형태소 단위에 대해서 BPE를 적용하여 한국어 특성 최대한 활용
- 구글 BERT 한국어 모델과 5개 태스크 대상 비교 평가 시 평균 4.5% 높은 성능
o 상식분야 한국어 질문분석
- Wikipedia Title 연결을 통한 질문의 주요한 토픽을 인식 기술
- 사용자의 질문이 요구하는 정답의 형태를 정확하게 파악하여 정답을 제약 기술
- 응답 방법에 따른 사용자 질문분류 기술 (정의형, 서술형, 단답형)
o 상식분야 시맨틱 색인 및 검색
- 단락 단위의 가상문서를 생성하기 위한 전처리 기술
- 어휘/어휘의미 관계에 기반 색인 및 검색 기술
- 단락의 구조 정보를 반영한 색인 및 검색 기술
- 심볼릭 기반 시맨틱 재순위화 기술
o KorBERT 기반 딥러닝 재순위화 및 기계 독해
- KorBERT 기반 단락의 정답포함 여부에 따른 재순위화 기술 (정답의 신뢰도)
- 상위 N개의 단락을 대상으로 정답을 찾기 위한 기계독해 기술
- 정답의 이형태(synonym) 사전에 기반한 정답통합 기술
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
- Lexico-Semantic 기반 문장 유사도 계산 알고리즘 기술
- 딥러닝 기반의 KorBERT 문장 유사도 계산 알고리즘 기술
- FAQ을 위한 질문/정답/근거단락 정보에 대한 색인/검색 기술
o 상식분야 트리플(Triple) 질의응답
- 사용자 패턴에 기반한 개체/속성 인식 및 정규화 기술
- 출처/인기도에 기반한 개체 중의성 해소 및 순위화 기술
- 정형 질의응답 관련 리소스(트리플 데이터, 정규화 사전) 관리 도구화
o 상식분야 분산처리 플랫폼
- 분산처리를 위해 질의응답 시스템을 프로세스 단위의 쓰레드풀(thread pool) 적용
- 대용량 분산 검색을 위한 Solr 와 언어분석 저장을 위한 Hadoop 플랫폼 적용
- 복수개의 서버에 대한 로드밸런싱 플랫폼 적용
o 한국어 딥러닝 언어모델 KorBERT
- KorBERT 기반 한국어 언어모델
- KorBERT 기반 한국어 언어모델 사용 매뉴얼
o 상식분야 한국어 질문분석
- 질문분석을 위한 엔진
- Wikipedia Title 연결을 위한 리소스 데이터
- 정답유형과 질문분류를 위한 SVM 기계학습 모델과 규칙 사전
- 질문분석기술에 대한 상세 매뉴얼 및 자료구조 설명서
o 상식분야 시맨틱 색인 및 검색
- 상식분야 가상단위 문서(문서, 단락, 문장)를 생성하기 위한 가이드라인 및 도구
- 시맨틱 색인, 검색, 심볼릭 기반 재순위화 엔진
- 증분색인 등을 위한 색인 도구
- 시맨틱 색인 및 검색을 위한 사용자 매뉴얼 및 자료구조 설명서
o KorBERT 기반 딥러닝 재순위화 및 기계 독해
- KorBERT기반 한국어 언어모델을 이용한 재순위화 엔진
- KorBERT기반 한국어 언어모델을 이용한 기계독해 엔진
- KorBER기반 재순위화와 기계독해 상세 매뉴얼 및 자료구조 설명서
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
- FAQ(질문/정답/근거정보)를 색인/검색하는 엔진
- Lexico-Semantic 문장 유사도 계산 엔진
- KorBERT를 이용한 딥러닝 문장 유사도 계산 엔진
- Hybrid FAQ 검색 상세 매뉴얼 및 자료구조 설명서
o 상식분야 트리플(Triple) 질의응답
- 정형 질의응답 색인/검색 엔진
- 엔티티, 속성 사전 및 사용자 패턴 추가 메뉴얼 및 자료구조 설명서
o 상식분야 분산처리 플랫폼
- 상식분야 질의응답 분산처리 엔진
- 상식분야 질의응답 사용자 Web UI
- 분산처리 플랫폼 구성을 위한 상세매뉴얼 및 자료구조 설명서
● 한국어 리소스의 언어 및 의미 분석/지식 저장에 활용
● 지능형 정보 검색 서비스에 활용
● 한국어 상식분야 도메인 질의응답에 활용
● 심층질의응답 서비스를 위한 프레임워크로 활용