ETRI Knowledge Sharing Platform : Context Extraction of unstructured text data and Ranking technology

기술이전 검색
Year	~	Transaction Count		Keyword

본 과제인 “빅데이터 활용을 위한 지식 자산(Knowledge Base) 구축 및 실시간 Linked Data 응용 기술 개발”의 목표는 빅데이터 응용 서비스의 효과적인 개발을 위해 이질적 데이터 집합들 간의 의미적 상호운용성(Semantic Interoperability)과 매쉬업을 가능하게 하는 Linked Data 기반 서비스 플랫폼 개발하는 것이다.
본 과제를 통해 개발된 기술 중 하나인 “비정형 텍스트 데이터의 컨텍스트 추출 및 랭킹 기술” 결과를 기술이전 하고자 한다.

데이터 분석이 강조되는 웹 3.0 시대에서는 데이터의 연결성과 시맨틱 정보의 활용이 중요하며, 유의미한 정보의 추출을 위한 데이터의 규모, 처리의 실시간성 및 지능성 확보가 중요한 것으로 분석되고 있다.
특히나 공공 Linked Data 지식자산 플랫폼을 개발하여 이를 활용할 수 있는 Open API를 제공함으로써, 다양한 기관이 제공하는 공공 정보를 기계에 의해 자동화된 처리와 의미적 연관이 가능한 Linked Data를 제공하고, 사용자의 웹 데이터로부터 의미적 데이터를 추출 및 분석하여 공공 정보와 연계된 사용자 맞춤형 서비스 제공이 가능하다.
국내에서는 정부를 중심으로 다양한 공공 정보 제공 서비스를 제공하기 위하여 행정안전부을 주축으로 통계청, 법무부 등에서 문화, 법령, 과학, 교육, 건설, 국가 통계 데이터, 판례, 논문 등 다양한 공공 기관의 정보에 대한 검색과 접근을 지원하고 있다. 그러나 행안부를 주축으로 데이터의 통합을 시도하고 있으나 기관별 데이터 형식이 상이하여 서비스별 데이터의 통합을 진행함으로 인해 확장에 제한을 받고 있다.
반면 국외에서는 유럽, 미국 등 선진국들이 각국 정부를 중심으로 공공 데이터로부터 Linked Data를 수행하고 민간으로 응용이 급속히 확산되고 있다. 업체사례로는 Google이 2010년부터 OECD, EU 통계청, 미국 정보 등의 자료를 활용하여 공공 데이터를 정형화된 데이터 중심으로 데이터 서비스를 제공하고 있다.
따라서, 본 기술을 이전 시 비정형 텍스트 데이터의 컨텍스트를 추출하고 제공된 결과를 활용하여 공공데이터와 추출된 컨텍스트를 기반으로 연결한 지식베이스를 구축하여 공공 데이터에 대한 비정형 데이터의 확장 기능을 지원할 수 있다.

가. 기술이전의 내용

- 비정형 텍스트 데이터의 분산 수집 및 MongoDB기반의 저장 병렬화 수행 기술
- 주제어 용어집을 기반으로 랜드마크와 컨텍스트 기반의 연결 기술
- 한글 기반의 주제어 용어집 프레임워크 및 JSON 형식의 분산 저장/추출 기술
- 현재 위치 기반(GPS정보+반경, 행정구역명)을 기반 비정형 텍스트 데이터의
주제기반 컨텍스트 추출 및 순위화 랭킹 기술

나. 기술이전의 범위

- 공공 Linked Data 지식 자산 플랫폼 시스템 요구사항 정의서 1종
- 비정형 텍스트 데이터 컨텍스트 추출 및 랭킹 기술 시스템 요구사항정의서 1종
- 비정형 텍스트 데이터 컨텍스트 추출 및 랭킹 기술 시험절차 및 결과서 1종
- 비정형 텍스트 데이터 컨텍스트 추출 및 랭킹 기술 프로그램 1종

- 정형 데이터를 기반으로 웹 데이터를 수집하고, 수집된 웹 데이터를 응용서비스의 주제를 기반으로 컨텍스트를 추출함으로서, 비정형 텍스트 데이터의 보다 정확하고 다양한 의미 정보 추출과 해석에 적용 가능
- 비정형 웹 데이터를 수집하여 분산 저장소를 기반으로 저장 및 인덱싱을 통하여 대용량 비정형 웹 데이터 저장소로 적용
- 크롤링이나 Open API로 수집한 비정형 웹 데이터의 주제를 추출하기 위한 주제어 용어집(Corpus) 프레임워크를 포함함으로써 JSON기반의 용어집 프레임워크 활용 가능
- 공공 데이터 제공 기반 응용서비스의 요소 기술로서 활용

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI