● 본 기술은 문서 이미지(visual document) 기반의 리소스를 사용하여, 사용자의 질문에 적합한 응답을 제공하는 AI 기술입니다. 질문이 입력되면 관련 정보를 검색하고 순위를 매겨 최적의 응답을 생성합니다. 결과물에는 질문에 대한 응답과 함께 생성 모델의 자가 검증 결과도 포함되어 있어, 사용자의 신뢰도를 높입니다.
● 문서 이미지란?
스캔·촬영·PDF 등 ‘이미지 형태로 저장된 문서’를 말합니다.
예: 스캔한 계약서/청구서, 사진으로 찍은 공지문, PDF 보고서·프레젠테이션 슬라이드, 메뉴판·전단지, 표/차트가 포함된 보고서 페이지 등.
*원본 데이터 포멧이 이미지가 아니더라도 HWP, DOC, PPT 등의 문서를 이미지로 변환하여 활용 가능
적용 가능: 글자·도표·도형 등 문서 구성 요소가 이미지에 함께 담긴 자료
부분 적용 가능: 간판·표지판처럼 장면 사진에 텍스트가 중심인 경우
적용 불가능: 순수 풍경/인물 사진처럼 문서적 구조가 없는 이미지
● OCR 한계 보완과 정보 손실 최소화 OCR만 의존하면 텍스트 추출은 가능해도 인식 오류(오탈자·누락)·레이아웃 붕괴로 중요한 정보가 사라질 수 있습니다. 본 기술은 텍스트+레이아웃+시각 문맥을 함께 고려해, OCR 오류에도 견고하게 의미 수준의 유사도를 계산하여 정확한 후보를 탐색합니다.
● 이미지 형태 문서까지 아우르는 정보 접근성 확대 스캔 문서·PDF·사진으로 찍힌 텍스트·표·차트 등 문서 이미지를 검색합니다. 텍스트 기반 RAG가 놓치기 쉬운 시각 자료의 핵심 정보를 포착해 질문-근거 매칭의 폭을 확장할 수 있습니다.
● 설명 가능한 자가 검증으로 신뢰성 제고 생성된 응답에 대해 근거 페이지, 일치 여부 판단을 제공해 환각을 억제하고, 사용자가 왜 이 답이 맞는지를 이해할 수 있게 합니다. 멀티모달 근거 제시는 텍스트 인용만 있을 때보다 높은 신뢰를 확보합니다.
● 사용자 신뢰도 확보를 통한 서비스 품질 향상 VLM과 검색 기술을 결합하여 사용자에게 더욱 신뢰성 높은 응답을 제공함으로써 서비스 품질을 개선할 수 있습니다. 자가 검증 기능을 통해 모델의 응답 정확성과 설명을 기반으로 시스템에 대한 신뢰를 확보할 수 있고, 검색 및 순위화 기술을 활용해 관련성이 높은 정보를 우선적으로 제공함으로써 사용자가 만족할 수 있는 정보 검색을 제공합니다
● 산업 전반으로의 적용 가능성 법률(계약·판결문 스캔), 금융(청구서·명세서), 제조/유통(매뉴얼·도면), 공공(공고문·행정서식), 의료(검사 결과지) 등 이미지 기반 문서가 많은 현장에서 검색 정확도·설명 가능성·업무 생산성을 동시에 끌어올립니다.
문서 이미지 검색 기술
- 페이지 단위 문서 이미지 인덱스에서 질의와 문서의 토큰·패치 임베딩 간 지연 상호작용(late interaction) 점수를 계산하여 상위 K개 페이지를 반환
- 문서 페이지를 개별 이미지로 활용하여 VLM 기반의 임베딩 색인
- 멀티벡터 기반의 지연 상호작용 연산시 로컬 벡터(이미지 부분)와 글로벌 벡터(이미지 전체)를 고려하여 검색 수행
문서 이미지 재순위화 기술
- 검색된 문서 이미지(페이지) 후보와 질문을 입력받아, VLM 기반 정밀 추론으로 질문?후보 간 정합도를 계산하고 점수 및 순위를 재산정
- 문서 이미지(페이지) 집합에 대해 VLM 모델에 기반한 pointwise 재순위화
- 하드 네거티브 학습 및 검색 점수 가중 결합을 통한 재순위화
멀티모달 기반 설명 가능한 자가 검증 추론 기술
- 질문과 문서 이미지 집합을 입력받아, 이미지의 근거 적합성, 응답 생성 시 근거 활용성, 응답 적합성 및 설명을 제공하는 기술
- 멀티모달 환경에서 RAG Triad(질문, 이미지, 응답) 교차 검증 적용
- 지시문(Instruction) 기반 학습으로 응답 자가 검증 및 근거 설명 피드백 제공
멀티모달 기반 XRAG 통합
- 검색, 재순위화, 응답 및 자가 검증 과정을 통합 및 최적화하여 입력된 질문에 설명가능한 응답과 근거를 제시하는 플랫폼
- 다양한 타입의 문서(hwp, ppt, doc 등)를 색인 가능한 형태로 변환
- RAG UI를 통한 질의-응답 및 색인 관리
- 각 모델 단계별 추론 가속화
- 개별 모듈(검색, 재순위화, 설명 가능한 응답, RAG 통합 플랫폼)의 API 서버
o 문서 이미지 검색 기술
- 멀티벡터 기반 문서 이미지 검색을 위한 VLM 기반 학습 기술
- 문서 페이지 단위 임베딩 및 색인 기술
- Weighted Global Fusion 게이트를 통한 문서 이미지 로컬 벡터 및 글로벌 벡터를 활용한 지연 상호작용 연산 검색 기술
o 문서 이미지 재순위화 기술
- 질문과 검색 된 문서 이미지 집합이 주어지면, 질문-이미지 간의 관계를 추론하여 스코어를 재산정하는 기술
- 랭킹 일관성을 위해 검색 점수와 재순위화 점수를 가중합으로 결합해 최종 점수를 계산
- 텍스트·이미지 토큰 상호작용(self-attention) 기반 pointwise 적합도 점수 활용
o 멀티모달 기반 설명 가능한 자가 검증 추론 기술
- 자가 검증 및 설명을 위한 VLM 학습 기술 및 데이터 디자인
- 검증 결과를 활용한 최적 응답 산정 기술
- 응답 불확실성을 고려한 응답/미응답 판단 기술
o 멀티모달 기반 XRAG 통합 플랫폼
- 개별 모듈(검색, 재순위화, 설명 가능한 응답) 및 통합 서버 API
- 다양한 타입의 문서(hwp, ppt, doc 등)를 변환하는 전처리 도구
- 멀티모달 기반 설명 가능한 자가 검증 RAG 인터페이스 환경
- 각 모듈별 추론 가속화 튜닝
o 문서 이미지 검색 기술
- 파인 튜닝 된 문서 이미지 검색 모델
- 학습, 색인, 검색 엔진 및 테스트 환경
- 학습 및 색인 도구
- 파인튜닝에 사용한 학습데이터
- 문서 이미지 검색을 위한 사용자 매뉴얼
o 문서 이미지 재순위화 기술
- 파인 튜닝 된 문서 이미지 재순위화 모델
- 학습, 추론 모델 및 테스트 환경
- 학습 도구
- 파인튜닝에 사용한 학습데이터
- 문서 이미지 재순위화를 위한 사용자 매뉴얼
o 멀티모달 기반 설명 가능한 자가 검증 추론 기술
- 파인튜닝 된 설명 가능한 자가 검증 모델
- 학습, 추론 모델 및 테스트 환경
- 학습 도구
- 파인튜닝에 사용한 학습데이터
- 설명 가능한 자가 검증 모델을 위한 사용자 매뉴얼
o 멀티모달 기반 XRAG 통합 플랫폼
- 사용자/관리자 인터페이스 UI 및 색인 환경
- 검색, 재순위화, 설명가능한 응답 및 통합 서버 및 API 제공
- 문서 변환 도구
- 시스템 전체 운용에 대한 사용자 메뉴얼
● 적용분야
- 신뢰성 있는 문서 이미지 질의응답 시스템: 스캔·PDF 등 문서 이미지 기반으로 질문에 대해 근거와 함께 답변 제공
- 전문가 도메인용 설명 가능한 AI(법률·의료·금융·공공): 규정/지침/계약서에서 근거를 직접 제시하여 감사·컴플라이언스 강화
- 지능형 의사결정 지원: 표·도식·레이아웃을 포함한 문서 근거로 예측/판단을 설명하고 의사결정 리스크 완화
- 안전·품질 관리 및 규정 준수: 안전 매뉴얼/작업지시서/품질 문서에서 근거 기반 응답으로 사고·결함 예방
- 기업 지식관리/검색 포털: 사내 보고서·매뉴얼·회의자료(PPT/PDF)에서 멀티모달 검색·재순위화·자가 검증 제공
- 고객지원/청구 심사: 영수증·명세서·양식 이미지에서 근거 인용과 함께 자동 응답/심사 지원
- 교육·훈련/문서 이해(VDU): 매뉴얼·교안·자료집의 도표·캡션·표를 활용한 질의응답과 설명
● 기대효과
- 투명성·신뢰성 강화: 응답과 함께 근거 적합성·근거 활용성·응답 적합성을 제시하여 사용자 신뢰도 제고 및 환각 감소
- 정확도 향상: 텍스트+레이아웃+시각 단서 융합과 재순위화로 정답률·정합도 개선(특히 OCR 오류·누락 상황에서 강건)
- 감사 가능성·컴플라이언스: 근거 인용으로 감사 추적성 확보, 규정 준수 점검 자동화에 기여
- 사용자 수용성 향상: 점수와 응답에 대한 설명 등 신뢰 지표 제공으로 결과 이해도 상승
- 도메인 확장성·재사용성: 문서 형식(HWP/PPT/DOC/PDF/이미지) 변환·색인 파이프라인과 모듈형 API 서버로 다양한 시스템에 손쉬운 통합
- 데이터 거버넌스: 프라이빗 배포 지원으로 데이터 주권·보안 요구 충족