본 기술은 사용자의 자연어 질문에 대해 정답이 기술된 단락을 실시간으로 검색하고, 기계독해를 통해 정답을 찾아 제공하는 공정거래 법률 분야 질의응답 기술이다. 정답에 대한 신뢰도가 낮을 경우 질문과 연관성이 높은 단락을 순위화 하여 제공한다.
● 인공지능 기술의 발전과 더불어 정보검색 및 질의응답 기술이 크게 발전하였다.
- 넘쳐나는 디지털 정보의 바다에서 원하는 정확한 정보를 찾기가 어려운 현시점에 가장 중요한 기술은 정보를 효율적으로 탐색하고, 원하는 정보를 정확하게 획득하는 것이 중요하다.
- 다양한 정보를 대상으로 정확한 정보를 획득하기 위해서는 빅데이터에 대한 시맨틱 색인/검색 및 사용자의 질문에 대한 의도를 명확하게 파악하여 정보를 찾고, 원하는 정답을 제시하는 질의응답 기술이 반드시 필요하다.
- 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 기계학습과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있다.
- 딥러닝 기술의 발전은 Symbolic AI의 한계를 넘어, Non-symbolic AI로 패러다임을 바꾸고 있고, Non-symbolic 기반의 다양한 기계독해 기술의 개발로 질의응답기술이 크게 발전하고 있다.
● 온라인 기술의 발전으로 인해 온/오프라인 상거래와 관련된 공정거래 문서들이 폭발적으로 늘어나고 있고 법적인 규정과 규제가 다양해지고 있으므로, 공정거래분야의 법률관련 정보를 효율적으로 탐색하여 원하는 정보를 정확하게 찾아주는 기술이 필요하다.
- 본 기술에서는 공정거래분야의 다양한 전문용어와 이형태 어휘를 대상으로 질문분석으로 통해 정의형 대상 용어 정규화 및 질의 확장 기능을 제공한다.
- 본 기술에서 제공하는 기능에는 공정거래 법률 분야 데이터 기반 시맨틱 색인/검색, 사용자 질문의 이해, 질문에 대한 정답 추론, 정답에 대한 근거 제시 등이 있다.
o 공정거래 법률 분야 한국어 언어모델 KorBERT-Legal
- 한국어 공정거래 법률 분야 문서의 문맥(구문/의미)을 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝을 위한 공정거래 법률 분야 언어모델
- 위키백과 및 신문기사 23.5 GB (약 15년 분량), 47억개 형태소 학습, 공정거래 법률 분야 텍스트 186MB 학습
-법률 분야 기계독해 적용 시, 일반분야 언어모델 대비 2.01% 성능 개선
o 공정거래 법률 분야 자연어 질문분석
- 자연어 질문을 분석하여 공정거래 법률 분야 법률명과 전문용어를 판별하고 질문의 유형을 분류
- 공정거래 법률 분야 법률명/전문용어 인식 및 연결 모호성 해소를 통한 핵심 키워드 인식
-약 135,000건 질문-정답 쌍 학습을 통한 질문분류
o 공정거래 법률 분야 단락 단위 가상문서에 대한 시맨틱 색인 및 검색
- 공정거래 법률 분야 문서를 단락 단위의 지식으로 세분화하여 주요 키워드를 색인하고, 질문분석 결과를 입력받아 정답이 포함된 단락 검색하고 순위화
- 공정거래 법률 분야 문서의 조항/문단/문장/테이블 등을 대상으로 문서구조 에 기반하여 단락 단위로 구조화하고 한국어 분석기술을 적용한 시맨틱 색인
-BM25(Best Matching 25) 기반 공정거래 법률 분야 단락을 검색 후, 다양한 검색자질을 이용한 CatBoost 기반 재순위화
o 공정거래 법률 분야 질의응답 학습데이터를 이용한 KorBERT-Legal 기반 딥러닝 검색 재순위화 및 기계 독해
- KorBERT-Legal 기반으로 공정거래 법률 분야 문서 대상 단락 검색결과를 재순위화하고, 단락으로부터 질문에서 요구하는 정답을 추론
- KorBERT-Legal 기반으로 정답이 포함될 확률이 높은 순위로 단락을 재순위화 (약 60만 정답-오답 질문-단락 쌍 데이터 학습)
-재순위화 모델을 통해 순위화된 단락을 대상으로 KorBERT-Legal 기반 기계독해를 통해 정답을 추론(법률 및 공정거래에 관련된 약 20만 질문-정답-단락 쌍의 데이터 학습)
o 딥러닝기반 FAQ 검색
- 사용자 질문과 동일한 의미의 질문을 사전등록된 질문/답변 DB를 검색하여 찾고, 의미적 동의(同義) 정도를 측정하여 제시
- KorBERT-Legal 기반 동의(同義)질문 분류 모델(67만 일반분야 동의(同義)/이의(異義) 질문쌍 데이터 학습, 47만 공정거래 법률분야 동의/이의 질문쌍 데이터 학습)
o 분산처리 플랫폼
- 대용량 텍스트 대상 언어분석을 배치로 수행하여 색인하고, 공정거래 법률 분야 심층질의응답 서버를 운용하기 위한 플랫폼
- 배치형 한국어 분석 기반 색인 및 시맨틱 검색
- 서버 확장이 가능한 심층질의응답 시스템(로드밸런싱 기능 및 시스템 로그 관리 기능)
o 공정거래 법률 분야 한국어 언어모델 KorBERT-Legal
- 한국어는 어근에 어미/조사가 결합되므로, 의미의 최소 단위인 형태소로 구분 필요
- 형태소 분석 이후, 형태소 단위에 대해서 BPE를 적용하여 한국어 특성 최대한 활용
- 공정거래 법률 분야 텍스트를 적용한 공정거래 법률 적응형 언어모델 KorBERT-Legal 기술
- 법률 분야 기계독해 적용 시, 일반분야 언어모델 대비 2.01% 성능 개선
- 구글 BERT 한국어 모델과 5개 태스크 대상 비교 평가 시 KorBERT가 평균 4.5% 높은 성능
o 공정거래 법률 분야 자연어 질문분석
- 공정거래관련 법률명 인식을 통한 질문의 주요한 대상 법령 인식 기술
- 사용자의 질문이 요구하는 정답의 형태를 정확하게 파악하여 정답을 제약하는 기술
- 응답 방법에 따른 사용자 질문분류 기술 (정의형, 서술형, 단답형)
- 공정거래 법률 분야 정의형 질의응답을 위한 공정거래 전문용어 인식 기술
o 공정거래 법률 분야 단락 단위 가상문서에 대한 시맨틱 색인 및 검색
- 공정거래-법령 문서의 구조 정보(조항, 테이블 등)를 반영한 단락 색인 및 검색 기술
- 문서의 심볼릭 자질을 이용한 시맨틱 재순위화(Catboost) 기술
o 공정거래 법률 분야 질의응답 학습데이터를 이용한 KorBERT-Legal 기반 딥러닝 검색 재순위화 및 기계 독해
- KorBERT-Legal 기반 단락의 정답포함 여부에 따른 재순위화 기술
- 상위 N개의 단락을 대상으로 정답을 찾기 위한 기계독해 기술
- 정답이 포함된 단락 및 문장을 구조화 하여 제시하는 정답제시 기술
o 딥러닝기반 FAQ 검색
- 딥러닝 기반의 KorBERT-Legal 문장 유사도 계산 알고리즘 기술
- FAQ을 위한 질문/정답/근거조항 정보에 대한 색인/검색 기술
o 분산처리 플랫폼
- FAQ 질의응답과 기계독해 질의응답의 하이브리드에 기반한 정답 제시 기술
- 분산처리를 위해 질의응답 시스템을 프로세스 단위의 쓰레드풀(thread pool) 적용
- 대용량 분산 검색을 위한 Solr 와 언어분석 저장을 위한 Hadoop 플랫폼 적용
- 복수개의 서버에 대한 로드밸런싱 플랫폼 적용
o 공정거래 법률 분야 한국어 언어모델 KorBERT-Legal
- KorBERT-Legal 기반 공정거래 법률 분야 한국어 언어모델
- KorBERT-Legal 한국어 언어모델 사용 매뉴얼
o 공정거래 법률 분야 자연어 질문분석
- 공정거래 법률 분야 질문분석을 위한 엔진
- 법률명과 전문용어 인식을 위한 리소스 데이터
- 정답유형과 질문분류를 위한 SVM 기계학습 모델과 규칙 사전
- 질문분석기술에 대한 상세 매뉴얼 및 자료구조 설명서
o 공정거래 법률 분야 단락 단위 가상문서에 대한 시맨틱 색인 및 검색
- 문서구조(조항, 테이블 등)에 기반한 시맨틱 색인, 검색, 심볼릭 기반 재순위화(CatBoost) 엔진
- 시맨틱 검색을 위한 대규모 문서 배치색인 및 특정 문서 증분색인 도구
- 시맨틱 색인 및 검색을 위한 사용자 매뉴얼 및 자료구조 설명서
o 공정거래 법률 분야 질의응답 학습데이터를 이용한 KorBERT-Legal 기반 딥러닝 검색 재순위화 및 기계 독해
- KorBERT-Legal을 이용한 딥러닝 검색 재순위화 엔진
- KorBERT-Legal을 이용한 재순위화 검색 단락 기반 기계독해 및 근거인식 엔진
- KorBERT-Legal 기반 재순위화와 기계독해 상세 매뉴얼 및 자료구조 설명서
o 딥러닝기반 FAQ 검색
- FAQ(질문/정답/근거정보)를 색인/검색하는 엔진
- KorBERT-Legal을 이용한 딥러닝 문장 유사도 계산 엔진
- FAQ 검색 상세 매뉴얼 및 자료구조 설명서
o 분산처리 플랫폼
- FAQ 검색과 기계독해 질의응답을 하이브리드하여 정답을 제시하는 플랫폼 엔진
- 공정거래 법률 분야 질의응답 분산처리 엔진
- 쓰레드 풀을 이용한 효율적인 공정거래 법률 분야 질의응답 RestAPI
- 분산처리 플랫폼 구성을 위한 상세매뉴얼 및 자료구조 설명서
● 공정거래 법률 분야 한국어 리소스의 언어 및 의미 지식 저장에 활용
● 공정거래 법률 분야 지능형 정보 검색 서비스에 활용
● 한국어 공정거래 법률 분야 질의응답에 활용
● 질의응답 서비스를 위한 프레임워크로 활용