Registered
PDF 파일을 대상으로 하는 자동 번역 방법
- Inventors
-
최승권, 권오욱, 이기영, 서영애, 김창현, 박은진, 양성일, 윤창호, 노윤형, 김영길, 황영숙
- Application No.
-
10-2007-0075581 (2007.07.27)
KIPRIS
- Publication No.
-
10-2009-0011712 (2009.02.02)
- Registration No.
- 10-0912502-0000 (2009.08.10)
- Country
- KOREA
- Project Code
-
07MW1500, Domain Customized Machine Translation Technology Development for Korean, Chinese, English,
Park Sang Kyu
- Abstract
- 본 발명은 PDF 파일을 대상으로 하는 자동 번역 방법에 관한 것이다. 본 발명에 따르면, 자동 번역 장치는 입력되는 원시언어 PDF 파일로부터 이미지 변환을 통해 원시언어 텍스트 및 비텍스트를 추출하며, 추출된 원시언어 텍스트를 텍스트 정보로부터 추출한 원시언어 텍스트를 이용해 교정한다. 또한, 추출된 원시언어 텍스트 중에서 비텍스트 등에 의해 문맥적으로 분리된 부분을 복원하고, 원시언어 PDF 파일의 문맥적 흐름에 맞도록 추출된 텍스트 및 비텍스트를 재정렬하여 원시언어 XML/HTML 파일을 생성한다. 이후, 원시언어 XML/HTML 파일의 태그로부터 원시언어 텍스트를 분리한 뒤, 원시언어 PDF 파일에 해당하는 기술 분야에 특화된 번역 지식 및 변환 엔진을 이용하여 목적언어 텍스트를 생성한다. 이렇게 번역된 목적언어 텍스트는 원시언어 텍스트 대신 XML/HTML 파일에 삽입되고, 이에 따라 생성된 목적언어 XML/HTML 파일은 다시 목적언어 PDF 파일로 변환되어 출력된다.