ETRI Knowledge Sharing Platform : [Exobrain] Deep Legal Q&A technology based on Machine Reading Comprehesion for Korean Language

기술이전 검색
Year	~	Transaction Count		Keyword

본 기술은 사용자의 자연어 질문에 대해 정답이 기술된 단락을 실시간으로 탐색하고, 기계독해를 통해 정답을 제공하는 법률분야 질의응답 기술이다. 정답이 기술된 단락 부재 시에는 질문과 연관성이 높은 단락을 순위화하여 제공한다.

● 넘쳐나는 디지털 정보의 바다에서 원하는 정확한 정보를 찾기가 어려운 현시점에 가장 중요한 기술은 정보를 효율적으로 탐색하고, 원하는 정보를 정확하게 획득하는 것이 중요한 상황이다.

● 다양한 정보를 대상으로 정확한 정보를 획득하기 위해서는 빅데이터에 대한 시맨틱 색인/검색 및 사용자의 질문에 대한 의도를 명확하게 파악하여 정보를 찾고, 원하는 응답을 제시하는 질의응답 기술이 반드시 필요하다.

● 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 머신러닝과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있고, IBM의 ‘왓슨’이라는 질의응답 시스템이 제퍼디 퀴즈 쇼에서 인간 챔피언을 상대로 우승하여 인공지능 기술의 부흥을 이끌고 있다.

● 딥러닝 기술의 발전은 Symbolic AI의 한계를 넘어, Non-symbolic AI로 패러다임을 바꾸고 있고, Non-symbolic 기반의 다양한 기계독해 기술의 개발로 질의응답기술이 크게 발전하고 있다.

● 본 기술에서 제공하는 기능에는 법령데이터 기반 시맨틱 색인/검색, 사용자 질문의 이해, 질문에 대한 응답 추론, 응답에 대한 근거 제시 등이 이다. 해당 기능에 대해서 법률 도메인에서 쉽게 적용할 수 있도록 기술을 패키징하여 다양한 리걸테크 분야의 정보검색 및 질의응답 기반 기술로 활용 가치가 높다.

o 한국어 법률분야 딥러닝 언어모델 KorBERT-Legal
- 한국어 텍스트의 문맥(구문/의미)을 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝을 위한 언어모델
- 위키백과 및 신문기사 23.5 GB (약 15년 분량), 47억개 형태소 학습, 법률분야 텍스트 186MB 학습
- 법률분야 기계독해 적용 시, 일반분야 언어모델 대비 2.01% 성능 개선
o 법률분야 자연어 질문분석
- 자연어 질문을 분석하여 법률명과 핵심 키워드를 판별하고 질문의 유형을 분류
- 법률명 인식 및 연결 등의 핵심 키워드 인식
- 134,412건 질문-정답 쌍 학습을 통한 질문 분류
o 법률문서 시맨틱 색인 및 검색
- 법률, 조항, 문장으로 지식의 단위를 세분화하여 주요 키워드를 색인하고, 질문분석 결과를 입력받아 정답이 포함된 법률/조항/문장을 검색하고 순위화
- 법률, 조항, 문장 등 문서구조 기반 한국어 분석기술을 활용한 시맨틱 색인
- BM25(Best Matching 25) 기반 법률, 조항, 문장 검색 후, 다양한 검색자질을 통합한 검색결과의 1차 재순위화(랭킹)
o KorBERT-Legal 기반 법률분야 딥러닝 재순위화 및 기계 독해
- KorBERT-Legal 기반으로 법률문서 대상 검색결과를 재순위화하고, 검색결과로부터 질문에서 요구하는 정답을 추론
- KorBERT-Legal 기반으로 정답이 포함되는 확률이 높은 순위로 다수 검색 조항을 재순위화 (84만 정답-오답 질문-단락 쌍 데이터 학습)
- KorBERT-Legal 기반으로 질문에서 찾고자 하는 정답을 기계독해를 통해 추론
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
- 사용자 질문과 유사한 질문을 사전등록된 질문/답변 DB를 검색하여 답변 제공
- (심볼릭 모델) 한국어 분석 기반 문장유사도 분류 모델(유의어 사전 16만건, 2만건 유사 문장 쌍 학습)
- (뉴럴 모델) KorBERT-Legal 기반 유사 질의 분류 모델(67만 일반분야 유사/비유사 질의-쌍 데이터 학습, 47만 법률분야 유사/비유사 질의-쌍 데이터 학습)
o 분산처리 플랫폼
- 대용량 텍스트 대상 언어분석을 배치로 수행하여 색인하고, 심층질의응답 서버를 운용하기 위한 플랫폼
- 배치형 한국어 분석 기반 색인 및 시맨틱 검색
- 서버 확장이 가능한 심층질의응답 시스템(로드밸런싱 기능 및 시스템 로그 관리 기능)

o 한국어 법률분야 딥러닝 언어모델 KorBERT-Legal
- 한국어는 어근에 어미/조사가 결합되므로, 의미의 최소 단위인 형태소로 구분 필요
- 형태소 분석 이후, 형태소 단위에 대해서 BPE를 적용하여 한국어 특성 최대한 활용
- 법률분야 텍스트를 적용한 법률도메인 적응 언어모델 KorBERT-Legal 기술
- 법률분야 기계독해 적용 시, 일반분야 언어모델 대비 2.01% 성능 개선
o 법률분야 자연어 질문분석
- 법률명 인식을 통한 질문의 주요한 대상 법령 인식 기술
- 사용자의 질문이 요구하는 정답의 형태를 정확하게 파악하여 정답을 제약하는 기술
- 응답 방법에 따른 사용자 질문분류 기술 (정의형, 서술형, 단답형)
o 법률문서 시맨틱 색인 및 검색
- 조항 단위의 가상문서를 생성하기 위한 전처리 기술
- 어휘/어휘의미 관계에 기반 색인 및 검색 기술
- 법령문서의 구조 정보를 반영한 색인 및 검색 기술
- 심볼릭 기반 시맨틱 재순위화 기술
o KorBERT-Legal 기반 법률분야 딥러닝 재순위화 및 기계 독해
- KorBERT-Legal 기반 조항의 정답포함 여부에 따른 재순위화 기술 (정답의 신뢰도)
- 상위 N개의 조항을 대상으로 정답을 찾기 위한 기계독해 기술
- 정답의 이형태(synonym) 사전에 기반한 정답통합 기술
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
- Lexico-Semantic 기반 문장 유사도 계산 알고리즘 기술
- 딥러닝 기반의 KorBERT-Legal 문장 유사도 계산 알고리즘 기술
- FAQ을 위한 질문/정답/근거조항 정보에 대한 색인/검색 기술
o 분산처리 플랫폼
- 분산처리를 위해 질의응답 시스템을 프로세스 단위의 쓰레드풀(thread pool) 적용
- 대용량 분산 검색을 위한 Solr 와 언어분석 저장을 위한 Hadoop 플랫폼 적용
- 복수개의 서버에 대한 로드밸런싱 플랫폼 적용
o 한국어 법률분야 딥러닝 언어모델 KorBERT-Legal
- KorBERT-Legal 기반 법률분야 한국어 언어모델
- KorBERT-Legal 기반 한국어 언어모델 사용 매뉴얼
o 법률분야 자연어 질문분석
- 법률분야 질문분석을 위한 엔진
- 법률명 인식을 위한 리소스 데이터
- 정답유형과 질문분류를 위한 SVM 기계학습 모델과 규칙 사전
- 질문분석기술에 대한 상세 매뉴얼 및 자료구조 설명서
o 법률문서 시맨틱 색인 및 검색
- 조항 단위의 가상문서를 생성하기 위한 가이드라인 및 변환 도구
- 시맨틱 색인, 검색, 심볼릭 기반 재순위화 엔진
- 증분색인 등을 위한 색인 도구
- 시맨틱 색인 및 검색을 위한 사용자 매뉴얼 및 자료구조 설명서
o KorBERT-Legal 기반 법률분야 딥러닝 재순위화 및 기계 독해
- KorBERT-Legal 기반 한국어 법률분야 언어모델을 이용한 재순위화 엔진
- KorBERT-Legal 기반 한국어 법률분야 언어모델을 이용한 기계독해 엔진
- KorBERT-Legal 기반 재순위화와 기계독해 상세 매뉴얼 및 자료구조 설명서
o 딥러닝과 Lexico-Semantic 기반 Hybrid FAQ 검색
- FAQ(질문/정답/근거정보)를 색인/검색하는 엔진
- Lexico-Semantic 문장 유사도 계산 엔진
- KorBERT-Legal을 이용한 딥러닝 문장 유사도 계산 엔진
- Hybrid FAQ 검색 상세 매뉴얼 및 자료구조 설명서
o 분산처리 플랫폼
- 법률분야 질의응답 분산처리 엔진
- 법률분야 질의응답 사용자 Web UI
- 분산처리 플랫폼 구성을 위한 상세매뉴얼 및 자료구조 설명서

● 법률분야 한국어 리소스의 언어 및 의미 지식 저장에 활용
● 법률분야 지능형 정보 검색 서비스에 활용
● 한국어 법률 도메인 질의응답에 활용
● 질의응답 서비스를 위한 프레임워크로 활용

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI