ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

개방형 데이터 허브 핵심 기술 V2

전수책임자
원희선
참여자
손시운, 우예린, 원희선, 정현재, 차우
기술이전수
4
이전연도
2021
협약과제
19PS3200, 헬스 IoT 및 의료 정보의 통합분석과 협업 진단을 위한 스마트 의료서비스 플랫폼 개발, 원희선
20HS5700, 데이터맵 기반 지능형 빅데이터 탐색·활용 핵심 기술 개발 , 원희선
21HB1800, 데이터맵 기반 지능형 빅데이터 탐색·활용 핵심 기술 개발 , 원희선
- 본 기술은 국내외 공공, 민간, 개인 간에 다양한 데이터를 공유하고 활용할 수 있도록, 데이터 카탈로그 표준인 W3C DCAT(Data Catalog Vocabulary) v2 기반의 데이터 관리 및 공유 기술과 클라우드 기반 분석 개발, 배포, 운영 환경을 제공하는 개방형 데이터 허브 핵심 기술임
- 본 기술은 데이터 관리 인프라, 클라우드 기반 분석·개발 환경, 의료 데이터 관리 기술 등 3개의 세부 기술로 구성되며, 이 중에서 데이터 관리 인프라는 데이터 관리/유통 관련 표준을 관리하는 오픈 데이터 참조모델 및 데이터 수집·배포 등의 기능으로 세분화됨
? 공공, 민간 전 산업 분야에서 데이터에 대한 관심과 수요가 급속히 증가하고 있으나, 대부분의 기관들이 독자적으로 데이터를 수집, 관리하므로 상호간 데이터 소재 파악이 어렵고 활용도가 저조한 편임.
? 특히 중소/영세 기업에게 데이터와 전문 인력 확보, 분석 시스템 구축과 운영 부담으로 빅데이터, 인공지능 등의 최신 ICT 기술 활용에 장애가 되고 있음.
? 향후 데이터를 기반으로 산업 간 융합이 활발히 추진되고 미래 신산업 창출의 계기가 될 것으로 예측되므로, 여러 분야의 데이터를 체계적으로 관리하며 상호 검색과 공유 및 분석, 활용을 지원하는 개방형 데이터 허브 기술이 중요성이 점차 커지고 있음.
- W3C DCAT(Data Catalog Vocabulary) 데이터 인프라, 데이터맵(카탈로그) 공유, 데이터 유통 기능을 제공하는 데이터 산업 전반에 필요한 핵심 기술임
- 데이터의 속성, 품질, 이력 등 다양한 메타데이터 정보를 제공하여 데이터 검색 정확도와 활용성을 높일 수 있도록 도메인별 분류체계와 카테고리를 구성하고 카테고리별로 메타데이터를 확장가능한 프로파일 기능을 제공함
- 새로운 기능 확장과 교체 등 커스터마이징이 용이한 모듈형 구조의 SW 프레임워크를 기반으로 신속한 데이터 허브 개발과 확장성을 지원
A. 세부기술1 : 데이터 관리 인프라
- 테넌트(조직 및 사용자) 인증 및 인가 관리 기술
- W3C DCAT(Data Catalog Vocabulary) V2 기반의 데이터 관리체계
. 각 도메인(의료, 제조, 행정 등)에 대해 여러 개의 분류체계를 정의하고 관리할 수 있음.
. 각 분류체계는 계층적(트리구조)으로 세분화된 카테고리로 구성되며, 각 카테고리는 해당 카테고리에 속하는 데이터 속성을 표현하는 메타데이터 항목으로 정의된 프로파일과 매핑됨
- W3C DCAT V2을 기반으로 프로파일 정보를 포함하는 데이터맵 (카탈로그) 생성, 배포 기술
- 데이터허브 간 데이터맵 수집, 교환 기술
- 데이터셋의 메타데이터 정보와 원본 파일, 다양한 엔드포인트로 제공되는 데이터 서비스, 분석모델(알고리즘, 분석워크플로우 등)의 등록, 배포, 삭제 등의 관리 및 권한 기반 접근제어, 유통 기술
- 외부 데이터셋의 통합 검색 및 필터링 기술
- 외부 기관의 다양한 플랫폼들과의 데이터 상호공유, 검색을 지원하기 위한 데이터 속성정보(메타데이터 항목) 간 매핑을 통한 DCAT RDF 형식의 데이터맵 생성 기술

B. 세부기술2 : 클라우드 기반 분석·개발 환경
- 클라우드 컴퓨팅 인프라 운영관리 및 테넌트 기반 자원 할당관리 기술
- 샌드박스 기반 실행환경 생성 및 실행 관리 기술
- 다양한 데이터 스토리지 연동 개발 지원 (Hadoop, HBase, RDB 등)
- 분석 컴포넌트(알고리즘, 노트북, 분석워크플로우 등) 개발환경 프로비저닝 기술
- 분석 컴포넌트(알고리즘, 노트북, 분석워크플로우 등) 등록, 배포관리 기술

C. 세부기술3 : 의료 데이터 관리
- FHIR 기반 의료 데이터 허브 프로토타입
- 의료 기관의 테넌트(의사, 간호사, 환자 등) 관리 및 의료 데이터 인가 관리 기술
A. 세부기술1 : 데이터 관리 인프라

o 동작환경
- 지원 하드웨어 모델 : x86 기반의 서버
- 지원 운영체제 : ubuntu 16.04.5 LTS
- 활용 공개 SW: nodejs, lerna, rimraf, pkg, wait-on, feathersjs, aws-sdk, axios, camelcase, camelcase-keys, compression, config, cors, crypto-random-string, date-fns, dockerode, elasticsearch, fast-csv, forever, fs-extra, helmet, http-proxy-middleware, i18next, influx, joi, kafkajs, keycloak-admin, kubernetes-client, multer, pg, sequelize, serve-favicon, umzug, uuid, winston, pg, influx, sequelize, sequelize-auto, postgreSQL, Keycloak, Apache Jena, Apache Drill, Apache Airflow, minio, Apache Hadoop, Apache HBase, Hasura, rdflib,, node-schedule, Springboot, tomcat, Apache Common, MyBatis, Java, Maven

o 기능
- 데이터 분류체계 등록, 수정, 삭제, 조회 기능
- 분류체계의 카테고리 등록, 수정, 삭제, 조회 기능
- 각 카테고리의 데이터 속성정보(메타데이터)을 확장한 프로파일 관리 기능
- 사용자 통합 인증(SSO) 기능
- 테넌트(조직/사용자) 정보 등록, 수정, 삭제, 조회 기능
- 테넌트 활동 로그 관리 기능
- 데이터셋 구매 정보 등록, 삭제, 조회 및 외부 결제 모듈 연동 기능
- 카탈로그 등록, 수정, 삭제, 조회 기능
- 데이터셋, 배포파일 및 데이터서비스의 접근권한 등록, 수정, 삭제, 조회 기능
- DCAT V2 RDF 형식의 데이터맵 생성 기능
- 이종 플랫폼의 메타데이터 정보 매퍼 기반 DCAT V2 RDF 생성 기능
- 데이터셋을 상호 교환하는 외부 데이터 소스 등록, 수정, 삭제, 조회 기능
- 데이터 수집(하베스팅) 및 작업 관리 기능

B. 세부기술2 : 클라우드 기반 분석·개발 환경

o 동작 환경
- 지원 하드웨어 모델 : X86 기반의 서버
- 지원 운영체제 : ubuntu 16.04.5 LTS
- 활용 공개 SW: nodejs, lerna, rimraf, pkg, wait-on, feathersjs, aws-sdk, axios, camelcase, camelcase-keys, compression, config, cors, crypto-random-string, date-fns, dockerode, elasticsearch, fast-csv, forever, fs-extra, helmet, http-proxy-middleware, i18next, influx, joi, kafkajs, keycloak-admin, kubernetes-client, multer, pg, sequelize, serve-favicon, umzug, uuid, winston, pg, influx, sequelize, sequelize-auto, rdflib, postgreSQL, Keycloak, Apache Jena, Apache Drill, Apache Airflow, minio, Apache Hadoop, Apache HBase, Hasura, kubernetes, openstack

o 기능
- 테넌트(조직/사용자)별 클라우드 컴퓨팅 자원 할당, 회수, 수정, 조회 기능
- 개발환경 (Eclipse, Jupyter, R 등) 등록, 수정, 삭제, 조회 기능
- 다양한 데이터 스토리지 (Hadoop, HBase, RDB 등) 연동 지원 기능
- 분석 컴포넌트 (오픈 API, 노트북, 분석 워크플로우 컴포넌트 등) 등록, 수정, 삭제, 조회 기능
- 샌드박스 실행환경 관리 (실행, 삭제, 조회, 중지, 정지) 기능
- 물리머신, Hypervisor, 가상머신, 클러스터, 컨테이너 조회 기능

C. 세부기술3 : 의료 데이터 관리

o 동작 환경
- 지원 하드웨어 모델 : X86 기반의 서버
- 지원 운영체제 : ubuntu 16.04.5 LTS
- 활용 공개 SW: hapi-fhir, SpringBoot, Java, Maven, Axios, express, forever, sequelize, vue, vuetify, vuex, koa, fhir-kit-client, joi, pg, uuid, moment, apexchart

o 기능
- FHIR 기반 의료 데이터 허브 프로토타입
- 환자 목록 및 상세 조회 기능
- 환자의 검사 목록 및 검사 내용 조회 기능
- 테넌트(의사, 간호원, 환자 등) 별 데이터 인가 관리 기능
? 국내외 다양한 분야 및 각종 산업에서 발생하는 방대한 데이터를 검색하고 공유와 활용을 지원하는 데이터 인프라 기술로서 지속적인 고부가가치 서비스 창출에 기여함.
? 필요한 모듈을 쉽게 확장하고 교체할 수 있도록 모듈화된 데이터 허브 프레임워크로서, 각 기능의 커스터마이징과 추가 기능 확장을 통해 다양한 요구사항에 맞춤화된 데이터 허브를 빠르게 개발할 수 있음.
? 여러 사용자들이 개발하고 등록한 데이터, 알고리즘, 분석 컴포넌트들을 축적·공개하고 재사용을 지원함으로서 데이터 산업의 오픈 생태계 활성화에 기여할 것으로 기대됨
? 본 기술은 클라우드 환경에서 누구사 쉽게 데이터를 등록, 관리하며 유통, 활용을 지원하는 데이터 허브 기술로서, 산업 전반의 데이터 플랫폼, 범용적인 데이터 유통 및 분석 마켓플레이스 구축 등 광범위하게 적용 가능함