ETRI-Knowledge Sharing Plaform

KOREAN
논문 검색
Type SCI
Year ~ Keyword

Detail

Journal Article 한국 고문헌 디지털화를 위한 라인분할 및 서순정렬 알고리즘
Cited - time in scopus Download 130 time Share share facebook twitter linkedin kakaostory
Authors
이아람, 민기현, 김거식, 김정은, 강현서
Issue Date
2022-11
Citation
한국디지털콘텐츠학회논문지, v.23, no.11, pp.2239-2248
ISSN
1598-2009
Publisher
한국디지털콘텐츠학회
Language
Korean
Type
Journal Article
DOI
https://dx.doi.org/10.9728/dcs.2022.23.11.2239
Abstract
본 연구는 고문헌 원문이미지 내 개별 한자들의 서순정렬을 통해 자동 디지털 텍스트화가 가능한 라인분할 알고리즘을 개발하였다. 우종서 기반의 서순을 따르며 본문과 주석이 혼재되어 직관적인 서순정렬이 어려운 한국 고문헌의 특성을 고려하여 광학문자인식(OCR; optical character recognition)을 통해 정의된 각 한자들의 크기와 좌표정보를 투영 프로파일 방법으로 분석하는 접근을 택하였다. 또한 원문이미지의 종서 수직 정렬을 최적화하는 기울기 보정 알고리즘을 적용하여 투영 프로파일 분석의 정확도를 개선하였으며 최종적으로 소·중·대분류 3종의 계층적 라인분할을 통해 서순이 정렬된 디지털 텍스트 추출을 가능케 하였다. 본 연구에서 개발된 라인분할과 서순정렬 알고리즘은 기존의 OCR과 자동번역 기술의 접점을 마련하여 고문헌 이미지를 다양한 언어의 디지털 텍스트로 변환하는 end-to-end의 전자동 프로세스 구현에 기여할 것으로 예상된다.
KSP Keywords
Optical character recognition
This work is distributed under the term of Creative Commons License (CCL)
(CC BY NC)
CC BY NC