- 본 기술은 다수의 기관 및 도메인에 분산된 데이터를 효율적으로 처리할 수 있도록 지원하는 분산 데이터 파이프라인 개발, 실행, 모니터링 기술임
- 사용자 인증, 분산 데이터 환경* 연동, 이기종 컴퓨팅 자원 모니터링, 협업형 데이터 파이프라인 개발, 분산 데이터 파이프라인 스케줄링/배포/모니터링 등 데이터 파이프라인의 전 과정을 통합 제공함으로써 협업성과 실행 효율성을 극대화함
* 분산 데이터 환경: 지리적 또는 시스템적으로 분산된 데이터 자원, 애플리케이션, 컴퓨팅 자원 등이 연계 및 통합 운영되는 데이터 생태계 산업 환경(예: 데이터 허브, 데이터 플랫폼)
- 공공 및 민간 영역에서 데이터 유통과 활용 수요가 급격히 증가함에 따라, 이기종 자원과 다수의 데이터 주체를 아우를 수 있는 분산 데이터 처리 체계의 필요성이 증대되고 있음
- 기존의 단일 기관 중심 데이터 파이프라인 환경은 확장성, 협업성, 효율성 한계를 지니고 있어, 다기관 및 다도메인 환경에 적합한 새로운 접근이 요구됨
- 산업계와 공공기관은 데이터 처리의 자동화, 실시간 모니터링, 협업형 파이프라인 개발 환경을 통해 서비스 개발과 운영의 효율성을 높일 수 있는 기술적 기반을 필요로 함
1. 분산 데이터 환경 인증 및 컴퓨팅 자원 관리
- 사용자 인증 및 자격 정보 관리
- 분산 데이터 환경 연동 관리
- 이기종 컴퓨팅 자원(CPU, 메모리 등) 정적 정보* 및 동적 메트릭** 관리
* 컴퓨팅 자원 정적 정보: 컴퓨팅 환경 운영 중 빈번하게 변하지 않는 하드웨어 및 시스템의 기본 사양 정보(예: CPU 코어 수, 메모리 용량, 디스크 크기)
** 컴퓨팅 자원 동적 메트릭: 컴퓨팅 환경 운영 중 실시간으로 변화하는 컴퓨팅 자원 상태 지표(예: CPU 사용률, 메모리 점유율, 네트워크 I/O)
- 시계열 DB 기반 모니터링 대시보드 기능
2. 협업 중심 데이터 파이프라인 개발
- DAG(directed acyclic graph) 기반 데이터 파이프라인 그래프 편집 기능
- SW 애플리케이션 정보, 데이터 파이프라인 관리 기능
- 다수 사용자 동시 접속 및 편집을 지원하는 공동 협업 기능
3. 분산 실행 및 상태 모니터링
- 데이터 지역성/자원 가용성 고려 데이터 파이프라인 파티션* 동적 스케줄링
* 데이터 파이프라인 파티션: 데이터 파이프라인 스케줄링에 의해 전체 데이터 파이프라인에서 분할 및 추출된 일부로, 1개 이상의 태스크들로 구성되어 분산 데이터 환경에게 실행을 요청하는 단위
- 분산 데이터 환경 기반 데이터 파이프라인 파티션 배포
- 실행 상태, 오류 로그, 실행 결과 모니터링 제공
A. 기술명 : 분산 데이터 파이프라인 개발 및 실행 기술
- 협업 기반 분산 데이터 파이프라인 대시보드 UI
- REST API 기반 시스템 인터페이스 및 메타 데이터베이스 스키마
- 분산 데이터 파이프라인 스케줄링 및 실행 엔진
- 분산 데이터 환경 측 파이프라인 실행 에이전트(Argo 연동 기반)
o 데이터 파이프라인 대시보드
- 기능: 사용자 계정 관리, 분산 데이터 환경 관리(연동, 자원 모니터링), 데이터 파이프라인 탐색/편집/실행/모니터링, 협업 기능 지원(채팅, 동시 편집)
- SW 산출물: 웹 기반 데이터 파이프라인 대시보드 UI
- 실행 환경: Docker, Kubernetes
o 데이터 파이프라인 REST API
- 기능: 사용자 인증 서비스, 데이터 파이프라인 개발 및 실행 제어, 분산 데이터 환경 연동 관리, 이기종 컴퓨팅 자원 명세 관리, 컴퓨팅 자원 메트릭 관리
- SW 산출물: REST API 서버 (API 엔드포인트, Swagger 기반 명세, 메타 데이터베이스 스키마 배포 및 운영 모듈)
- 실행 환경: Docker, Kubernetes
o 분산 데이터 파이프라인 엔진
- 기능: 데이터 파이프라인 관리, 데이터 지역성 및 자원 가용성 고려 파이프라인 스케줄링, 파이프라인 분산 배포, 상태 및 로그 모니터링
- SW 산출물: gRPC 기반 분산 데이터 파이프라인 엔진
- 실행 환경: Docker, Kubernetes
o 파이프라인 실행 에이전트
- 기능: REST/gRPC 기반 파이프라인 실행 관리, 태스크 실행 및 모니터링, 3rd-party 파이프라인 실행 도구(예: Argo Workflows)와 연계 지원
- SW 산출물: REST API 서버 (API 엔드포인트, Swagger 기반 명세, 메타 데이터베이스 스키마 배포 및 운영 모듈), gRPC 서버
- 실행 환경: Docker, Kubernetes, 분산 데이터 환경 연동 환경, 파이프라인 실행 도구 연동 환경
- 공공 데이터 포털/허브, 광역 자치단체, 산업 데이터 플랫폼: 이기종 기관 간 데이터 처리 협업 및 운영 자동화
- 민간 AI, 클라우드 서비스: 데이터 이동 최소화, 자원 활용률 극대화로 비용/지연 감소 및 스케일아웃 운영
- 데이터 거버넌스, 품질체계 연계: 수집-변환-분석-저장 전 과정의 가시성, 추적성 확보