ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

[Exobrain] Deep Legal Q&A technology based on Machine Reading Comprehesion for Korean Language - v1.0

Manager
Heo Jeong
Participants
Minho Kim, Kim Young Kil, Kim Hyun, Hyunki Kim, Ryu Jihee, Park Sang Kyu, Kyungman Bae, Yongjin Bae, Hyung Jik Lee, Soojong Lim, Lim Joon-Ho, Jang Myung Gil, Miran Choi, Heo Jeong
Transaction Count
2
Year
2020
Project Code
19HS3200, Development of Knowledge Evolutionary WiseQA Platform Technology for Knowledge Augmented Services, Hyunki Kim
18HS2900, Development of Knowledge Evolutionary WiseQA Platform Technology for Knowledge Augmented Services, Hyunki Kim
20HS3200, Development of Knowledge Evolutionary WiseQA Platform Technology for Knowledge Augmented Services, Lim Joon-Ho
본 기술은 사용자의 자연어 질문에 대해 정답이 기술된 단락을 실시간으로 탐색하고, 기계독해를 통해 정답을 제공하는 법률분야 질의응답 기술이다. 정답이 기술된 단락 부재 시에는 질문과 연관성이 높은 단락을 순위화하여 제공한다.
● 넘쳐나는 디지털 정보의 바다에서 원하는 정확한 정보를 찾기가 어려운 현시점에 가장 중요한 기술은 정보를 효율적으로 탐색하고, 원하는 정보를 정확하게 획득하는 것이 중요한 상황이다.

● 다양한 정보를 대상으로 정확한 정보를 획득하기 위해서는 빅데이터에 대한 시맨틱 색인/검색 및 사용자의 질문에 대한 의도를 명확하게 파악하여 정보를 찾고, 원하는 응답을 제시하는 질의응답 기술이 반드시 필요하다.

● 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 머신러닝과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있고, IBM의 ‘왓슨’이라는 질의응답 시스템이 제퍼디 퀴즈 쇼에서 인간 챔피언을 상대로 우승하여 인공지능 기술의 부흥을 이끌고 있다.

● 딥러닝 기술의 발전은 Symbolic AI의 한계를 넘어, Non-symbolic AI로 패러다임을 바꾸고 있고, Non-symbolic 기반의 다양한 기계독해 기술의 개발로 질의응답기술이 크게 발전하고 있다.

● 본 기술에서 제공하는 기능에는 법령데이터 기반 시맨틱 색인/검색, 사용자 질문의 이해, 질문에 대한 응답 추론, 응답에 대한 근거 제시 등이 이다. 해당 기능에 대해서 법률 도메인에서 쉽게 적용할 수 있도록 기술을 패키징하여 다양한 리걸테크 분야의 정보검색 및 질의응답 기반 기술로 활용 가치가 높다.
o 한국어 법률분야 딥러닝 언어모델 KorBERT-Legal
- 한국어 텍스트의 문맥(구문/의미)을 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝을 위한 언어모델
- 위키백과 및 신문기사 23.5 GB (약 15년 분량), 47억개 형태소 학습, 법률분야 텍스트 186MB 학습
- 법률분야 기계독해 적용 시, 일반분야 언어모델 대비 2.01% 성능 개선
o 법률분야 자연어 질문분석
- 자연어 질문을 분석하여 법률명과 핵심 키워드를 판별하고 질문의 유형을 분류
- 법률명 인식 및 연결 등의 핵심 키워드 인식
- 134,412건 질문-정답 쌍 학습을 통한 질문 분류
o 법률문서 시맨틱 색인 및 검색
- 법률, 조항, 문장으로 지식의 단위를 세분화하여 주요 키워드를 색인하고, 질문분석 결과를 입력받아 정답이 포함된 법률/조항/문장을 검색하고 순위화
- 법률, 조항, 문장 등 문서구조 기반 한국어 분석기술을 활용한 시맨틱 색인
- BM25(Best Matching 25) 기반 법률, 조항, 문장 검색 후, 다양한 검색자질을 통합한 검색결과의 1차 재순위화(랭킹)
o KorBERT-Legal 기반 법률분야 딥러닝 재순위화 및 기계 독해
- KorBERT-Legal 기반으로 법률문서 대상 검색결과를 재순위화하고, 검색결과로부터 질문에서 요구하는 정답을 추론
- KorBERT-Legal 기반으로 정답이 포함되는 확률이 높은 순위로 다수 검색 조항을 재순위화 (84만 정답-오답 질문-단락 쌍 데이터 학습)
- KorBERT-Legal 기반으로 질문에서 찾고자 하는 정답을 기계독해를 통해 추론
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
- 사용자 질문과 유사한 질문을 사전등록된 질문/답변 DB를 검색하여 답변 제공
- (심볼릭 모델) 한국어 분석 기반 문장유사도 분류 모델(유의어 사전 16만건, 2만건 유사 문장 쌍 학습)
- (뉴럴 모델) KorBERT-Legal 기반 유사 질의 분류 모델(67만 일반분야 유사/비유사 질의-쌍 데이터 학습, 47만 법률분야 유사/비유사 질의-쌍 데이터 학습)
o 분산처리 플랫폼
- 대용량 텍스트 대상 언어분석을 배치로 수행하여 색인하고, 심층질의응답 서버를 운용하기 위한 플랫폼
- 배치형 한국어 분석 기반 색인 및 시맨틱 검색
- 서버 확장이 가능한 심층질의응답 시스템(로드밸런싱 기능 및 시스템 로그 관리 기능)
o 한국어 법률분야 딥러닝 언어모델 KorBERT-Legal
- 한국어는 어근에 어미/조사가 결합되므로, 의미의 최소 단위인 형태소로 구분 필요
- 형태소 분석 이후, 형태소 단위에 대해서 BPE를 적용하여 한국어 특성 최대한 활용
- 법률분야 텍스트를 적용한 법률도메인 적응 언어모델 KorBERT-Legal 기술
- 법률분야 기계독해 적용 시, 일반분야 언어모델 대비 2.01% 성능 개선
o 법률분야 자연어 질문분석
- 법률명 인식을 통한 질문의 주요한 대상 법령 인식 기술
- 사용자의 질문이 요구하는 정답의 형태를 정확하게 파악하여 정답을 제약하는 기술
- 응답 방법에 따른 사용자 질문분류 기술 (정의형, 서술형, 단답형)
o 법률문서 시맨틱 색인 및 검색
- 조항 단위의 가상문서를 생성하기 위한 전처리 기술
- 어휘/어휘의미 관계에 기반 색인 및 검색 기술
- 법령문서의 구조 정보를 반영한 색인 및 검색 기술
- 심볼릭 기반 시맨틱 재순위화 기술
o KorBERT-Legal 기반 법률분야 딥러닝 재순위화 및 기계 독해
- KorBERT-Legal 기반 조항의 정답포함 여부에 따른 재순위화 기술 (정답의 신뢰도)
- 상위 N개의 조항을 대상으로 정답을 찾기 위한 기계독해 기술
- 정답의 이형태(synonym) 사전에 기반한 정답통합 기술
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
- Lexico-Semantic 기반 문장 유사도 계산 알고리즘 기술
- 딥러닝 기반의 KorBERT-Legal 문장 유사도 계산 알고리즘 기술
- FAQ을 위한 질문/정답/근거조항 정보에 대한 색인/검색 기술
o 분산처리 플랫폼
- 분산처리를 위해 질의응답 시스템을 프로세스 단위의 쓰레드풀(thread pool) 적용
- 대용량 분산 검색을 위한 Solr 와 언어분석 저장을 위한 Hadoop 플랫폼 적용
- 복수개의 서버에 대한 로드밸런싱 플랫폼 적용
o 한국어 법률분야 딥러닝 언어모델 KorBERT-Legal
- KorBERT-Legal 기반 법률분야 한국어 언어모델
- KorBERT-Legal 기반 한국어 언어모델 사용 매뉴얼
o 법률분야 자연어 질문분석
- 법률분야 질문분석을 위한 엔진
- 법률명 인식을 위한 리소스 데이터
- 정답유형과 질문분류를 위한 SVM 기계학습 모델과 규칙 사전
- 질문분석기술에 대한 상세 매뉴얼 및 자료구조 설명서
o 법률문서 시맨틱 색인 및 검색
- 조항 단위의 가상문서를 생성하기 위한 가이드라인 및 변환 도구
- 시맨틱 색인, 검색, 심볼릭 기반 재순위화 엔진
- 증분색인 등을 위한 색인 도구
- 시맨틱 색인 및 검색을 위한 사용자 매뉴얼 및 자료구조 설명서
o KorBERT-Legal 기반 법률분야 딥러닝 재순위화 및 기계 독해
- KorBERT-Legal 기반 한국어 법률분야 언어모델을 이용한 재순위화 엔진
- KorBERT-Legal 기반 한국어 법률분야 언어모델을 이용한 기계독해 엔진
- KorBERT-Legal 기반 재순위화와 기계독해 상세 매뉴얼 및 자료구조 설명서
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
- FAQ(질문/정답/근거정보)를 색인/검색하는 엔진
- Lexico-Semantic 문장 유사도 계산 엔진
- KorBERT-Legal을 이용한 딥러닝 문장 유사도 계산 엔진
- Hybrid FAQ 검색 상세 매뉴얼 및 자료구조 설명서
o 분산처리 플랫폼
- 법률분야 질의응답 분산처리 엔진
- 법률분야 질의응답 사용자 Web UI
- 분산처리 플랫폼 구성을 위한 상세매뉴얼 및 자료구조 설명서
● 법률분야 한국어 리소스의 언어 및 의미 지식 저장에 활용
● 법률분야 지능형 정보 검색 서비스에 활용
● 한국어 법률 도메인 질의응답에 활용
● 질의응답 서비스를 위한 프레임워크로 활용