ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

인공지능 기반 한문 고서의 OCR 기술

전수책임자
민기현
참여자
기술이전수
0
이전연도
2023
협약과제
- 본 이전기술은 한문 고서의 원문 이미지 데이터로부터 텍스트로 옮기는 광학문자인식(OCR: Optical Character Recognition)을 위한 기술임
- 본 기술에는 고서의 한자 위치 정보(x, y, width, height)를 찾는 인공지능 검출 모델, 검출된 바운딩 박스 내 한자 이미지를 기계가 읽을 수 있는 유니코드 기반 텍스트 정보로 제공하는 인공지능 한자 인식 모델, 한문 고서를 사람이 읽는 순서(우종서)에 따라 서순을 정렬하는 알고리즘이 포함됨
- 본 서순 정렬 알고리즘은 하나의 문자에서 근접한 문자 위치를 찾아 위에서 아래로, 우측에서 좌측 방향으로 문자의 순서를 정렬하는 기술임
- 서순정렬 알고리즘에서 본주와 세주가 혼재되어 있는 문장의 경우 세주를 괄호로 구분함
- 한자 검출 및 인식 모델은 AIHUB의 공개 데이터와 자체적으로 구축한 데이터를 사용하여 학습되었으며 6,000자 이상 인식이 가능함
- 최종 디지털 텍스트 결과는 인공지능 기반 한자 검출 모델, 한자 인식 모델을 통해 텍스트로 변환하고, 근접문자 탐지 기반 서순정렬 알고리즘을 통해 우종서순에 따라 텍스트의 순서를 정렬하여 도출됨
- 한문 고서는 각종 역사물, 전통문화, 문화재의 용도, 훼손된 문화유산의 복원을 위한 정보 제공 등 다양한 우리나라의 주요 역사 문화를 알려주는 중요한 역사 기록물로서 그 내용을 추출하는 한자 인식 및 번역 작업은 계속되고 있음
- 이러한 한문 고서는 국립중앙도서관 등에서 약 300만 점을 보유하고 있으나 현재는 보관만 하고 있는 상태임. 일부 고서 보유 기관에서는 고서의 원문이미지 제공 서비스가 실시되고 있으나 한자를 잘 알지 못하는 일반인을 위한 한자 인식 서비스 기술을 요구함
- 이러한 한문 고서들의 내용을 추출하기 위하여 번역 전문가들이 있지만 현재는 노동집약적인 개별 자형 판별 및 전산 입력 과정이 필수적으로서, 이를 대체할 수 있는 자동화 기술을 요구함
- 특히 현대언어의 서순과 달리 우종서 기준을 따르는 한문 고서는 본주와 세주를 분류하여 서순이 진행되어야 하는 까다로운 특성을 갖기에 현재 상용화된 기술이 전무하지만 고서 번역 현장에서는 매우 필요로 하는 기술임
- 본 기술은 한문 고서의 한자를 인공지능으로 검출 및 인식된 한자들의 텍스트 정보를 서순정렬하여 제공하며 출력하며 예측 확률순에 따라 6순위까지의 텍스트 후보군을 도출함. 음가 정보도 제공되어 한글로 옮기는 작업 지원 가능
- 6000자 이상의 한자 자형을 인식할 수 있는 한자 인식 모델
- 본주와 세주의 한자들을 검출할 수 있는 한자 검출 모델
- 인공지능 한자 검출 및 인식 결과를 사용하여 한문 고서 내 한자 서순 정렬
- 본주와 세주가 혼재된 한문 고서 이미지에서도 본문열과 세주열 영역을 분리하여 각각의 영역 내에서 서순을 정렬하고, 본주와 세주의 영역별 순서 정렬이 가능
- 자형들 사이의 폭이 좁은 상태에서도 서순을 정렬하여 한자 인식 결과 도출
- 인공지능 기반 한문 고서의 한자 인식 모델 (정확도 98.2% )
- 인공지능 기반 한문 고서의 한자 검출 모델 (정확도: 98.11%)
- 한자 인식 및 검출 결과 도출 기술
- 근접문자 탐지 기반 한문 고서의 서순정렬 기술
- 인공지능 기반 한문 고서의 OCR 기술 요구사항정의서 1건
- 인공지능 기반 한문 고서의 OCR 기술 시험절차 및 결과서 1건
- 한문 고서의 한자 인식을 위한 바이너리 이미지 생성 방법 및 장치 특허 1건
- 근접문자 탐지 기반 한문고서 서순정렬 방법 특허 1건
- 근접문자 탐지 기반 이본교감대조 지원기술 고도화 분석서 1건
- 근접문자 탐지기반 한문고서 라인분할 알고리즘 개요 1건
- 근접문자 탐지 기반 한문고서 서순정렬 및 디지털텍스트 생성 알고리즘
- 한문고서의 한자 검출 및 인식 결과 도출 프로그램
- 인공지능 기반 한문고서의 한자 검출 모델 1건
- 인공지능 기반 한문고서의 한자 인식 모델 1건
- 한문 번역 종사자들 대상으로 한문 고서의 한자 텍스트 변환 작업 지원 및 이본대조 및 교감대조 작업 지원 플랫폼으로 활용
- 온라인 한자 교육 플랫폼으로 활용 가능
- 한자 OCR 활용
- 고문헌 번역 작업 내 단순 노동 비중 감소 및 업무 효율성 강화
- 고서 번역 작업의 가속화를 통한 역사 고증으로 문화 콘텐츠 제작 시 역사 왜곡 방지 기대됨
- 번역지원 기술을 통해 대중에 대한 성과물의 신속한 공급으로 국가 기록유산의 저변 확대
- 한자 문화권 (중국, 일본, 베트남 등)등의 해외 고전 연구기관의 수출을 통한 해외 시장 진출 가능