ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Explainable Self-Critic RAG v1.0

Manager
Yongjin Bae
Participants
Transaction Count
0
Year
2024
Project Code
본 기술은 사용자의 질문에 적합한 응답을 제공하는 AI 기술입니다. 질문이 입력되면 관련 정보를 검색하고 순위를 매겨 최적의 응답을 생성합니다. 결과물에는 질문에 대한 응답과 함께 생성 모델의 자가 검증 결과도 포함되어 있어, 사용자의 신뢰도를 높입니다.
● 정보 탐색 효율성 향상 디지털 정보의 양이 급격히 증가함에 따라, 사용자가 원하는 정보를 신속하고 정확하게 찾아내는 기술의 중요성이 더욱 커지고 있습니다. 특히, 다양한 도메인과 복잡한 질문에 대해 적합한 답변을 제공하는 것은 많은 시간과 자원이 요구되는 작업입니다. 본 기술은 효율적인 정보 탐색을 가능하게 하여, 사용자가 원하는 정보에 더욱 빠르고 쉽게 접근할 수 있도록 지원합니다.

● 고도화된 한국어 처리 능력 글로벌 AI 기술이 빠르게 발전하고 있으나, 한국어 특화 언어 모델과 생성 모델을 활용하여 한국어 기반 정보 탐색 및 응답 생성을 고도화하는 기술은 아직 한정적입니다. MoBERT-Large와 Llama3-11b 모델을 통해 한국어에 특화된 정보 검색 및 응답 생성 기능을 강화함으로써, 한국어 사용자에게 보다 정확하고 풍부한 정보를 제공할 수 있습니다.

● LLM의 환각 현상 완화 대규모 언어 모델(LLM)의 환각 현상으로 인해, 잘못된 정보를 생성하거나 사용자 신뢰를 저하시킬 수 있는 상황이 발생합니다. 이를 해결하기 위해 RAG(검색기반 생성, Retrieval-Augmented Generation)와 같은 기술이 제안되고 있지만, 여전히 응답의 신뢰성을 확보하는 데 한계가 존재합니다. 본 기술에서는 뉴럴 검색 및 자가 검증 기술을 통해 LLM이 생성하는 응답의 정확도와 판단 근거를 지원함으로써 사용자에게 신뢰할 수 있는 정보를 제공합니다.

● 다양한 산업 분야에의 응용 가능성 본 기술은 텍스트 기반 빅데이터의 뉴럴 색인/검색 기능을 사용함으로써, 범용적인 도메인에서 손쉽게 활용될 수 있습니다. 예를 들어, 법률, 의료, 금융 등 다양한 산업 분야에서 대량의 텍스트 데이터를 분석하고 이해하는 데 적용할 수 있으며, 사용자 맞춤형 정보 제공을 통해 생산성 향상 및 서비스 품질 개선에 기여할 수 있습니다.

● 사용자 신뢰도 확보를 통한 서비스 품질 향상 LLM과 검색 기술을 결합하여 사용자에게 더욱 신뢰성 높은 응답을 제공함으로써 서비스 품질을 개선할 수 있습니다. 자가 검증 기능을 통해 모델의 응답 정확성과 설명을 기반으로 시스템에 대한 신뢰를 확보할 수 있고, 검색 및 순위화 기술을 활용해 관련성이 높은 정보를 우선적으로 제공함으로써 사용자가 만족할 수 있는 정보 검색을 제공합니다
본 기술은 설명가능한 자가 검증형 RAG 기술이다. 세부 기술은 아래와 같다.
o 한국어 특화 언어모델 MoBERT
- 한국어 텍스트의 문맥(구문/의미)을 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝을 위한 언어모델
- 일반분야 및 전문분야 대상 고품질의 최신 데이터 수집
- 텍스트 기반 파라미터형 지식 학습을 위한 MorphemePiece 기반 한국어에 최적화된 언어이해 모델
o 뉴럴 단락 검색
- 단락 단위로 구분된 컬렉션을 토큰 단위로 문맥 정보를 색인하고, 질문이 입력되면, 질문과 단락의 전체 토큰 또는 멀티-뷰 토큰을 기반으로 늦은 상호작용 연산으로 검색 수행
- 단락을 기반으로 학습된 이해형 언어모델을 사용하여 임베딩 색인
- 늦은 상호작용 연산 및 특정 토큰을 사용하여 유사도 연산 후 스코어 기반으로 순위화된 단락 집합 검색
o 단락 순위화
- 검색된 단락 집합과 질문이 입력되면, 질문과 단락 간의 관계를 추론하여 단락의 순위 및 점수를 재조정하는 기술
- 질문-단락 집합 쌍을 사용하여 크로스 인코딩과 지역적 대비 추정 손실 기반 재순위화 모델 학습
- 단락 집합의 상대적 관계를 고려하여 스코어 재측정 및 랭킹을 산정하는 단락 재순위화 모델
o 설명 가능한 자가 검증 모델 학습 및 추론
- 질문과 검색 단락 집합을 입력하여, 단락 적합성, 근거 활용성, 응답 적합성 및 설명을 제공하는 기술
-깊이 확장 및 한국어 강화 학습 기반 생성 모델 Llama3-11b
-인스트럭션 학습 기반 응답에 대한 자가 검증 및 설명 피드백 제공
o 한국어 특화 언어이해 모델 MoBERT
- 사람이 어절을 사용하는 형태로 학습하기 위해 형태소 원형 복원을 제외하고 어절을 형태소로 분할하여 서브워드 토큰화 사용
- MorphemePiece 기반 어절의 토큰 분할, 토큰의 내용 및 위치의 이중 어텐션 계산, 토큰 마스킹 비율등을 조절하여 언어모델 학습
o 뉴럴 단락 검색
- 뉴럴 검색을 위한 인코더 학습 및 색인 기술
- 전체 토큰 또는 멀티-뷰 토큰 기반의 늦은 상호작용 연산 검색 기술
o 단락 재순위화
- 질문과 검색 단락 집합이 주어지면, 질문-단락 간의 관계를 추론하여 스코어를 재산정하는 기술
- 질문-단락 추론을 위한 지역적 대비 추정 손실 기반의 파인튜닝 기술
o 설명 가능한 자가 검증 모델 학습 및 추론
- 자가 검증 및 설명을 위한 LLM 학습 기술
- 검증 결과를 활용한 최적 응답 재산정 기술
o 한국어 특화 언어이해 모델 MoBERT-Large(PG20230469)
- MorphemePiece 기반 한국어 언어이해 모델
o 뉴럴 단락 검색(PG20240285)
- 파인 튜닝된 뉴럴 검색 모델
- 학습, 색인, 검색 엔진 및 테스트 서버 환경
- 학습 및 색인 도구
- 법률 도메인 학습데이터
- 뉴럴 단락 검색을 위한 사용자 매뉴얼
o 단락 재순위화(PG20240368)
- 파인 튜닝된 단락 재순위화 모델
- 학습, 추론 모델 및 테스트 서버 환경
- 학습 도구
- 법률 도메인 학습데이터
- 단락 재순위화를 위한 사용자 매뉴얼
o 설명 가능한 자가 검증 모델 학습 및 추론(PG20240345, PG20240308)
- 파인튜닝 된 설명가능한 자가 검증 모델
- 학습, 추론 모델 및 테스트 서버 환경
- 학습 도구
- 법률 도메인 학습데이터
- 설명 가능한 자가 검증 모델을 위한 사용자 매뉴얼
● 적용분야
- 신뢰성 있는 질의응답 시스템: 질문에 대해 단락 적합성, 근거 활용성, 응답 적합성, 설명을 함께 제공하는 고도화된 질의응답 시스템
- 전문가 도메인(법률, 의료 등)에서의 설명 가능한 AI 시스템: 근거 기반의 응답을 제공하여 신뢰도 강화
- 지능형 의사결정 지원 시스템: 예측 결과에 대한 설명을 제공하여 더 신뢰성 있는 의사결정을 지원

● 기대효과
- AI 시스템의 투명성 및 신뢰성 강화: AI 모델의 결과에 대해 설명을 제공함으로써 사용자 신뢰도 증대
- 사용자의 이해도 및 수용성 향상: AI 시스템의 응답 근거와 설명을 통해 결과에 대한 이해를 높임
- 윤리적 AI 구현에 기여: 설명 가능한 AI로 사용자에게 예측 결과의 이유를 명확히 제공하여 책임감 있는 AI 구축