본 기술은 사용자의 질문에 대해 정답 또는 관련성이 높은 단락을 실시간으로 탐색하는 뉴럴 검색 기술이다.
검색 결과로 스코어로 순위화 된 검색결과 단락 집합과 메타 정보를 제공한다.
● 넘쳐나는 디지털 정보의 바다에서 원하는 정보를 정확히 찾기 어려운 현시점에 가장 중요한 기술은 정보를 효율적으로 탐색하고, 원하는 정보를 정확하게 획득할 수 있는 기술일 것이다.
● 딥러닝 기술의 발전은 Symbolic AI의 한계를 넘어, Non-symbolic AI로 패러다임을 바꾸고 있고, Non-symbolic 기반의 다양한 인코딩 학습 방법을 통해 검색 기술이 크게 발전하고 있다.
● 효과적인 맥락이해를 위해 특정 토큰을 사용하여 검색하는 것 보다, 전체 토큰을 사용하여 늦은 상호작용 연산 방법으로 검색하는 추세이나, 늦은 상호작용 연산에는 큰 비용의 색인 임베딩 볼륨 저장소가 필요하다. 본 기술에서는 이런 문제점을 고려하여 큰 볼륨의 색인데이터를 처리할 수 있는 기술로 다양한 환경에서도 적응력이 뛰어나다.
● 최근에는 LLM의 부상으로 질문에 대한 응답을 생성하는데 주안을 두고 있으나, 향후 LLM의 환각 현상을 극복하기 위해 검색 기술은 더욱 필요로 하고 있다.
● 본 기술에서 제공하는 기능은 텍스트 기반 빅데이터에 대한 뉴럴 색인/검색이다. 해당 기능에 대해서 범용적인 도메인에서 쉽게 적용할 수 있도록 기술을 패키징하여 다양한 산업 분야의 기반 기술로 활용 가치가 높다.
본 기술은 최신 딥러닝 언어모델인 MoBERT에 기반하여 뉴럴 단락 검색을 수행한다.
o한국어 특화 언어모델 MoBERT
-한국어 텍스트의 문맥(구문/의미)을 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝을 위한 언어모델
-일반분야 및 전문분야 대상 고품질의 최신 데이터 수집(총 9B 토큰)
-텍스트 기반 파라미터형 지식 학습을 위한 MorphemePiece 기반 한국어에 최적화된 언어이해 모델
o뉴럴 단락 검색
-단락 단위로 구분된 컬렉션을 토큰 단위로 문맥 정보를 색인하고, 질문이 입력되면, 질문과 단락의 전체 토큰 또는 멀티-뷰 토큰을 기반으로 늦은 상호작용 연산으로 검색 수행
-단락을 기반으로 학습된 이해형 언어모델을 사용하여 임베딩 색인
-늦은 상호작용 연산 및 특정 토큰을 사용하여 유사도 연산 후 스코어 기반으로 순위화된 단락 집합 검색
o 한국어 특화 언어이해 모델 MoBERT-Large
- 사람이 어절을 사용하는 형태로 학습하기 위해 형태소 원형 복원을 제외하고 어절을 형태소로 분할하여 서브워드 토큰화 사용
- MorphemePiece 기반 어절의 토큰 분할, 토큰의 내용 및 위치의 이중 어텐션 계산, 토큰 마스킹 비율등을 조절하여 언어모델 학습
o 뉴럴 단락 검색
- 뉴럴 검색을 위한 인코더 학습 기술
- 단락 단위 텍스트 문서 임베딩 및 색인 기술
- 전체 토큰 또는 멀티-뷰 토큰 기반의 늦은 상호작용 연산 검색 기술
o 한국어 특화 언어이해 모델 MoBERT-Large
- MorphemePiece 기반 한국어 언어이해 모델
o 뉴럴 단락 검색
- 검색을 위해 파인튜닝 된 인코더 모델
- 학습, 색인, 검색 엔진 및 테스트 서버 환경
- 학습 및 색인 도구
- 법률 도메인 학습데이터
- 뉴럴 단락 검색을 위한 사용자 매뉴얼
● 한국어 리소스의 언어 및 의미 분석/지식 저장에 활용
● 지능형 정보 검색 서비스에 활용
● RAG(Retrieval Augmented Generation) 구성시 검색 컴포넌트에 사용
● 한국어 범용 도메인 질의응답에 활용