본 기술은 사용자의 자연어 질문에 대해 정답이 기술된 단락을 실시간으로 탐색하고, 기계독해를 통해 정답을 제공하는 질의응답 기술이다. 정답이 기술된 단락 부재 시에는 질문과 연관성이 높은 단락을 순위화하여 제공한다.
● 넘쳐나는 디지털 정보의 바다에서 원하는 정확한 정보를 찾기가 어려운 현시점에 가장 중요한 기술은 정보를 효율적으로 탐색하고, 원하는 정보를 정확하게 획득하는 것이 중요한 상황이다.
● 다양한 정보를 대상으로 정확한 정보를 획득하기 위해서는 빅데이터에 대한 시맨틱 색인/검색 및 사용자의 질문에 대한 의도를 명확하게 파악하여 정보를 찾고, 원하는 응답을 제시하는 질의응답 기술이 반드시 필요하다.
● 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 머신러닝과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있고, IBM의 ‘왓슨’이라는 질의응답 시스템이 제퍼디 퀴즈 쇼에서 인간 챔피언을 상대로 우승하여 인공지능 기술의 부흥을 이끌고 있다.
● 딥러닝 기술의 발전은 Symbolic AI의 한계를 넘어, Non-symbolic AI로 패러다임을 바꾸고 있고, Non-symbolic 기반의 다양한 기계독해 기술의 개발로 질의응답기술이 크게 발전하고 있다.
● 본 기술에서 제공하는 기능에는 텍스트 기반 빅데이터에 대한 시맨틱 색인/검색, 사용자 질문의 이해, 질문에 대한 응답 추론, 응답에 대한 근거 제시 등이 이다. 해당 기능에 대해서 범용적인 도메인에서 쉽게 적용할 수 있도록 기술을 패키징하여 다양한 산업분야의 정보검색 및 질의응답 기반 기술로 활용 가치가 높다.
본 기술은 최신 딥러닝 언어모델인 KorBERT를 적용한 재순위화 및 기계독해 기술과 다양한 심볼릭 정보에 기반한 시맨틱 단락검색 및 질문이해 기술이 하이브리드된 한국어 심층질의응답 기술이다.
본 기술을 구성하는 세부기술들은 아래와 같다.
o 한국어 딥러닝 언어모델 KorBERT
- 한국어 텍스트의 문맥(구문/의미)을 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝을 위한 언어모델
- 위키백과 및 신문기사 23.5 GB (약 15년 분량), 47억개 형태소 학습
-구글이 배포한 다국어 BERT 모델 대비 평균 4.5% 우수 (5개 태스크 평균 성능)
o 한국어 질문분석
-자연어 질문을 분석하여 핵심 키워드를 판별하고 질문의 유형을 분류
-개체명, 엔티티 인식 및 연결 등의 핵심 키워드 인식
-134,412건 질문-정답 쌍 학습을 통한 질문 분류
o 시맨틱 색인 및 검색
- 문서, 단락, 문장으로 지식의 단위를 세분화하여 주요 키워드를 색인하고, 질문분석 결과를 입력받아 정답이 포함된 문서/단락/문장을 검색하고 순위화
-문서, 단락, 문장 등 문서구조 기반 한국어 분석기술을 활용한 시맨틱 색인
-BM25(Best Matching 25) 기반 문서, 단락, 문장 검색 후, 다양한 검색자질을 통합한 검색결과의 1차 재순위화(랭킹)
o KorBERT 기반 딥러닝 재순위화 및 기계 독해
-KorBERT 기반으로 검색결과를 재순위화하고, 검색결과에서 질문에서 요구하는 정답을 추론
-KorBERT 기반으로 정답이 포함되는 확률이 높은 순위로 다수 검색단락을 재순위화(84만 정답-오답 질문-단락 쌍 데이터 학습)
-KorBERT 기반으로 질문에서 찾고자 하는 정답을 기계독해를 통해 추론
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
-사용자 질문과 유사한 질문을 사전등록된 질문/답변 DB를 검색하여 답변 제공
-(심볼릭 모델) 한국어 분석 기반 문장유사도 분류 모델(유의어 사전 16만건, 2만건 유사 문장 쌍 학습)
-(뉴럴 모델) KorBERT 기반 유사 질의 분류 모델(67만 유사/비유사 질의-쌍 데이터 학습 (질문 2,800개))
o 분산처리 플랫폼
-대용량 텍스트 대상 언어분석을 배치로 수행하여 색인하고, 심층질의응답 서버를 운용하기 위한 플랫폼
-배치형 한국어 분석 기반 색인 및 시맨틱 검색
-서버 확장이 가능한 심층질의응답 시스템(로드밸런싱 기능 및 시스템 로그 관리 기능)
o 한국어 딥러닝 언어모델 KorBERT
- 한국어는 어근에 어미/조사가 결합되므로, 의미의 최소 단위인 형태소로 구분 필요
- 형태소 분석 이후, 형태소 단위에 대해서 BPE를 적용하여 한국어 특성 최대한 활용
- 구글 BERT 한국어 모델과 5개 태스크 대상 비교 평가 시 평균 4.5% 높은 성능
o 자연어 질문분석
- Wikipedia Title 연결을 통한 질문의 주요한 토픽을 인식 기술
- 사용자의 질문이 요구하는 정답의 형태를 정확하게 파악하여 정답을 제약 기술
- 응답 방법에 따른 사용자 질문분류 기술 (정의형, 서술형, 단답형)
o 시맨틱 색인 및 검색
- 단락 단위의 가상문서를 생성하기 위한 전처리 기술
- 어휘/어휘의미 관계에 기반 색인 및 검색 기술
- 단락의 구조 정보를 반영한 색인 및 검색 기술
- 심볼릭 기반 시맨틱 재순위화 기술
o KorBERT 기반 딥러닝 재순위화 및 기계 독해
- KorBERT 기반 단락의 정답포함 여부에 따른 재순위화 기술 (정답의 신뢰도)
- 상위 N개의 단락을 대상으로 정답을 찾기 위한 기계독해 기술
- 정답의 이형태(synonym) 사전에 기반한 정답통합 기술
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
- Lexico-Semantic 기반 문장 유사도 계산 알고리즘 기술
- 딥러닝 기반의 KorBERT 문장 유사도 계산 알고리즘 기술
- FAQ을 위한 질문/정답/근거단락 정보에 대한 색인/검색 기술
o 분산처리 플랫폼
- 분산처리를 위해 질의응답 시스템을 프로세스 단위의 쓰레드풀(thread pool) 적용
- 대용량 분산 검색을 위한 Solr 와 언어분석 저장을 위한 Hadoop 플랫폼 적용
- 복수개의 서버에 대한 로드밸런싱 플랫폼 적용
o 한국어 딥러닝 언어모델 KorBERT
- KorBERT 기반 한국어 언어모델
- KorBERT 기반 한국어 언어모델 사용 매뉴얼
o 한국어 질문분석
- 질문분석을 위한 엔진
- Wikipedia Title 연결을 위한 리소스 데이터
- 정답유형과 질문분류를 위한 SVM 기계학습 모델과 규칙 사전
- 질문분석기술에 대한 상세 매뉴얼 및 자료구조 설명서
o 시맨틱 색인 및 검색
- 단락 단위의 가상문서를 생성하기 위한 가이드라인 및 변환 도구
- 시맨틱 색인, 검색, 심볼릭 기반 재순위화 엔진
- 증분색인 등을 위한 색인 도구
- 시맨틱 색인 및 검색을 위한 사용자 매뉴얼 및 자료구조 설명서
o KorBERT 기반 딥러닝 재순위화 및 기계 독해
- KorBERT기반 한국어 언어모델을 이용한 재순위화 엔진
- KorBERT기반 한국어 언어모델을 이용한 기계독해 엔진
- KorBER기반 재순위화와 기계독해 상세 매뉴얼 및 자료구조 설명서
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
- FAQ(질문/정답/근거정보)를 색인/검색하는 엔진
- Lexico-Semantic 문장 유사도 계산 엔진
- KorBERT를 이용한 딥러닝 문장 유사도 계산 엔진
- Hybrid FAQ 검색 상세 매뉴얼 및 자료구조 설명서
o 분산처리 플랫폼
- 범용 질의응답 분산처리 엔진
- 범용 질의응답 사용자 Web UI
- 분산처리 플랫폼 구성을 위한 상세매뉴얼 및 자료구조 설명서
o 적용분야 및 기대효과
● 한국어 리소스의 언어 및 의미 분석/지식 저장에 활용
● 지능형 정보 검색 서비스에 활용
● 한국어 범용 도메인 질의응답에 활용
● 심층질의응답 서비스를 위한 프레임워크로 활용