ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

AI based Chinese character detection model and recognition model and reading order detection Algorithm

Manager
Min Gi Hyeon
Participants
Kang Hyun Seo, Keo Sik Kim, Kim Jeong Eun, Min Gi Hyeon, Lee Aram, Heo Young Soon
Transaction Count
1
Year
2022
Project Code
22IK1300, 인공지능 기반 개방형 한문 고서 번역 및 해석 지원 기술 개발, Min Gi Hyeon
21IK1300, 인공지능 기반 개방형 한문 고서 번역 및 해석 지원 기술 개발, Min Gi Hyeon
- 본 이전기술은 한문 고서의 원문 이미지 데이터로부터 텍스트로 옮기는 광학문자인식(OCR: Optical Character Recognition) 기술임
- 한문 고서의 한자들의 위치 정보를 제공하는 인공지능 검출 모델 및 검출된 한자 이미지들을 기계가 읽을 수 있는 텍스트로 변환하는 인공지능 한자 인식 모델, 한문 고서의 한자들의 서순을 정렬하는 기술임
- 서순 정렬 기술은 소·중·대분류 3종의 계층적 라인분할을 통해 본주와 세주를 분류하고 우종서 기반의 서순으로 한자를 정렬하여 디지털 텍스트를 추출하는 기술임
- 한자 검출 및 인식 모델은 AIHUB의 공개 데이터와 자체적으로 구축한 데이터를 사용하여 학습되었으며, 2,000자 이상 인식이 가능함
- 한문 고서는 각종 역사물, 전통문화, 문화재의 용도, 훼손된 문화유산의 복원을 위한 정보 제공 등 다양한 우리나라의 주요 역사 문화를 알려주는 중요한 역사 기록물로서 그 내용을 추출하는 한자 인식 및 번역 작업은 계속되고 있음
- 이러한 한문 고서는 국립중앙도서관 등에서 약 300만 점을 보유하고 있으나 현재는 보관만 하고 있는 상태임. 일부 고서 보유 기관에서는 고서의 원문이미지 제공 서비스가 실시되고 있으나 한자를 잘 알지 못하는 일반인을 위한 한자 인식 서비스 기술을 요구함
- 이러한 한문 고서들의 내용을 추출하기 위하여 번역 전문가들이 있지만 현재는 노동집약적인 개별 자형 판별 및 전산 입력 과정이 필수적으로서, 이를 대체할 수 있는 자동화 기술을 요구함
- 특히 현대언어의 서순과 달리 우종서 기준을 따르는 한문 고서는 본주와 세주를 분류하여 서순이 진행되어야 하는 까다로운 특성을 갖기에 현재 상용화된 기술이 전무하지만 고서 번역 현장에서는 매우 필요로 하는 기술임
- 본 기술은 한문 고서의 한자를 인공지능으로 검출 및 인식된 한자들의 텍스트 정보를 서순정렬하여 제공하며 출력하며 예측 확률순에 따라 6순위까지의 텍스트 후보군을 도출함. 음가 정보도 제공되어 한글로 옮기는 작업 지원 가능
- 2000자 이상의 한자 자형을 인식할 수 있는 한자 인식 모델
- 본주와 세주의 한자들을 검출할 수 있는 한자 검출 모델
- 인공지능 한자 검출 및 인식 결과를 사용하여 한문 고서 내 한자 서순 정렬
- 본주와 세주가 혼재된 한문 고서 이미지에서도 본문열과 세주열 영역을 분리하여 각각의 영역 내에서 서순을 정렬하고, 본주와 세주의 영역별 순서 정렬이 가능
- 다량의 학습 데이터를 요구하지 않으며 자형들 사이의 폭이 좁은 상태에서도 서순을 정렬하여 한자 인식 결과 도출
- 인공지능 기반 한문 고서의 한자 인식 모델
- 인공지능 기반 한문 고서의 한자 검출 모델
- 한자 인식 및 검출 결과 도출 기술
- 한문 고서의 서순정렬 기술
- 인공지능 한문 고서 한자 검출, 인식, 서순정렬 모델 요구사항정의서 1건
- 인공지능 한문 고서 한자 검출, 인식, 서순정렬 모델 시험절차 및 결과서 1건
- 서순정렬 알고리즘 관련 기술 문서 1건 (이본교감대조 지원기술 분석서)
- 고문헌 원문이미지의 디지털화를 위한 전자장치 및 방법 특허 1건
- 인공지능 기반 한문 고서의 한자 검출 모델 1건
- 인공지능 기반 한문 고서의 한자 인식 모델 1건
- 인공지능 기반 한문 고서의 한자 검출 및 인식 결과 도출 알고리즘 1건
- 한문고서 서순정렬 및 디지털텍스트 생성 알고리즘 1건
- 한문 번역 종사자들 대상으로 한문 고서의 한자 텍스트 변환 작업 지원 및 이본대조 및 교감대조 작업 지원 플랫폼으로 활용
- 온라인 한자 교육 플랫폼으로 활용 가능
- 한자 OCR 활용
- 고문헌 번역 작업 내 단순 노동 비중 감소 및 업무 효율성 강화
- 고서 번역 작업의 가속화를 통한 역사 고증으로 문화 콘텐츠 제작 시 역사 왜곡 방지 기대됨
- 번역지원 기술을 통해 대중에 대한 성과물의 신속한 공급으로 국가 기록유산의 저변 확대
- 한자 문화권 (중국, 일본, 베트남 등)등의 해외 고전 연구기관의 수출을 통한 해외 시장 진출 가능