ETRI-Knowledge Sharing Plaform

KOREAN
연구보고서 검색
Type Funding Org. Research Org.
Year ~ Keyword

Detail

듀얼 모드 배치·쿼리 분석을 제공하는 빅데이터 플랫폼 핵심 기술 개발 (2차년도)
Download 364 time
Participants
이상민, 김성수, 이미영, 최규현, 원종호, 김창수, 김영균, 마이하이탄, 진기성, 허성진, 박정숙, 김재열, 이훈순, 이명철, 정문영, 김홍연, 박경, 송혜원, 이태휘, 이상민, 김영철, 남택용, 차명훈, 한동원
Published
201512
Type
Annual Report
Keyword
인터랙티브 분석, 배치 분석, 데이터 웨어하우스, 듀얼 모드, 분산 파일 시스템
KSP Keywords
Batch query, Big data platform, Big-data, Data Platform, Dual-Mode
Funding Org.
한국전자통신연구원
Research Org.
한국전자통신연구원
Project Code
15ZS1400, 듀얼모드 배치.쿼리 분석을 제공하는 빅데이터 플랫폼 핵심기술 개발, Won Jongho
Abstract
1. 결과
가. 연구개발목표
페타바이트급 이상 정형/비정형 빅데이터 데이터웨어하우스 서비스 운영 시스템에서 쿼리 기반 인터랙티브 온라인 분석과 배치 기반 심층 분석을 동시 지원하는 배치·온라인 듀얼 모드 분석 SW 핵심 기술 개발

나. 연구범위 및 연구수행 방법
1) 연구 범위
- Ad-hoc 질의와 배치 기반 심층 분석 질의를 동시에 제공하는 MR 내장형 분산 Query Engine 기술 개발
- DAG (Directed Acyclic Graph) 기반 동적 데이터 처리 및 데이터 공유를 제공하는 배치/온라인 듀얼 모드 분산 데이터 처리 기술 개발
- 파이프라인 데이터 공유를 제공하는 운영계/분석계/응용계 통합 분산 파일 시스템 기술 개발
· 페타바이트 분산 파일 시스템(GLORY-FS) 기반 분석계(Hadoop/Sql on Hadoop) 통합 구성/운영 기술
· 분석계 특성을 고려한 페타바이트 분산 파일 시스템 인터페이스 기술

2) 연구 수행 방법
- Ad-hoc 질의와 배치 기반 심층 분석 질의를 제공하는 배치/온라인 듀얼 모드 빅데이터 분석 플랫폼을 주관 기관인 한국전자통신연구원에서 수행
- 빅데이터 과학자에게 요구되는 과학 기술 빅데이터 분석을 위한 병렬 알고리즘을 공동연구기관인 한국정보기술연구원에서 수행
- 결과물의 가시성 확보를 위한 의료 정보 기반 시범서비스 모델링 및 구축을 공동연구기관인 ㈜누스코와 시작품제작 업체와 공동 추진
- 결과물의 완성도 및 객관성 확보를 위하여 시험 전문 업체를 통한 시험 추진
- 연구원에서 연구 산출물의 완성도 제고 및 고객 만족도 향상을 위하여 추진하고 있는 CMMI-Level 2 수준의 Q-Mark 기준을 상회하는 CMMI-Level 3 수준으로 연구 개발 수행
- 급변하는 IT 변화에 신속히 대응하고, 개발의 생산성 향상을 위하여 애자일 (Agile) 소프트웨어 개발 방법론을 연구 개발에 도입

다. 연구수행 내용 및 결과
1) 연구 수행 내용 (당해년도, ‘15.01.01 ~ ’15.12.31)
o 배치/온라인 듀얼 모드 빅데이터 분석 플랫폼 기술 개발
- 데이터 워크로드 인지형 질의 처리 기술 개발
- DAG 기반 분산 질의 플랜/파티셔닝 기술 개발

o 운영/분석 통합 분산 파일 시스템 기술 개발
- 운영/분석 응용이 혼재된 상태에서 입출력 간섭 제어를 위한 캐시 및 입출력 스케쥴러 기술
- 분석용 데이터 일관성 유지를 위한 데이터 변경 회피 Pinpoint 스냅샷 기술

2) 연구 수행 결과
o 배치/온라인 듀얼 모드 빅데이터 분석 플랫폼 기술 개발
- 배치/온라인 듀얼모드 빅데이터 분석 플랫폼 사용자/시스템 요구사항 정의
. 요구 사항 목록 (ZS1410_TDP_RD_001), 정의서 (ZS1410_TDP_RD_002) 및 추적표 (ZS1410_TDP_RD_003)

- 배치/온라인 듀얼모드 빅데이터 분석 플랫폼 기능 규격 정의
. 기능 규격 정의서 (ZS1410_TDP_DE_001)

- 질의 및 워크로드 관리 블록 상세 설계
. 상세 설계서 (ZS1410_TDP_DE_002)

- DAG 기반 분산 질의 플랜 파티셔닝 기술 상세 설계
. 상세 설계서 (ZS1410_TDP_DE_003)

- 데이터 워크로드 인지형 질의 처리 기술 개발 결과물
. 질의 및 데이터 워크로드 관리자 블록 구현물
. 관련 프로그램 2건 등록 중 (워크로드 기반 데이터베이스 질의 컬럼 집합 분석 프로그램 외 1건)

- DAG 기반 분산 질의 플랜/파티셔닝 기술 개발 결과물
. DAG 기반 분산 쿼리 처리 엔진 구현물
. 관련 프로그램 4건 등록 중 (배치/온라인 듀얼모드 빅데이터 분석 플랫폼 시험 프로그램 외 3건)
. 시험계획서(ZS1410_TDP_ST_003), 시험절차서 및 결과서(ZS1410_TDP_ST_002), 사용자매뉴얼(ZS1410_TDP_ST_003)

- 의료데이터 기반 빅데이터 분석 시범 서비스 개발
. 표준 의료 빅데이터기반 의료 데이터웨어하우스 설계
. 지역별 질병분포 분석, 질병 원인 분석, 데이터 분석 및 가시화 지원 시범서비스 개발
. 관련 프로그램 5건 등록 중 (의료데이터 기반 분석 서비스 어플리케이션 외 4건)

o 운영/분석 통합 분산 파일 시스템 기술 개발
- 입출력 간섭 회피 기능 상세 설계
- Pinpoint 스냅샷 볼륨 기능 상세 설계
. BIG-FS 시스템 상세 설계서(ZS1420_TDP_002)
- 입출력 간섭 회피 기능 구현
. 입출력 간섭제어 블록
- Pinpoint 스냅샷 볼륨 기능 구현
. 파일시스템 관리블록, 볼륨 관리블록
- 메타데이터 처리 성능 고도화
. 메타데이터 처리 엔진 확장 개발
- 파일시스템 실험시제품 시험
. 입출력 간섭 제어 시험, 메타데이터 처리 성능 시험, Pinpoint 스냅샷 볼륨 기능시험

라. 연구개발목표의 달성도
1) 성과 지표에 대한 계획 대비 실적
MR 분석 성능 10배 10.32배 103% 목표 달성
파일 데이터 처리 성능 10,000 creates/sec 12,000 creates/sec 120% 목표 달성
데이터 입출력 간섭율 50% 38% 131% 목표 달성

마. 연구성과
1) 정량적 달성도
o 배치/온라인 듀얼 모드 빅데이터 분석 플랫폼 기술 개발 정량적 실적 개요
- 논문 (SCI/비SCI) 게제: 10건 (0건/10건)
- 특허 (국내/국외) 출원: 7건 [(3건/0건) 출원, (2건/2건) 출원 중]
- 기술문서 (TDP/TM) 건수: 38건 (8건/30건) 등록

o 빅데이터 파일 시스템 기술 개발 정량적 실적 개요
- 논문 (SCI/비SCI) 게제: 2건 (0건/2건)
- 특허(국내/국외) 출원: 4건 [(1건/0건) 출원, (2건/1건) 출원 중]
- 기술문서 (TDP/TM) 건수: 14건 (2건/12건) 등록

2) 추진 일정 대비 실적 (당해년도)
실적/결과물
- 듀얼모드 분석엔진 설계서
- 파일시스템 시스템 설계서
- 듀얼모드 분석엔진 연구시제품 (SW)
- 유니파이드 분산 파일시스템 실험 시제품 (SW)
- 빅데이터 분석 플랫폼 시험 결과서
- 파일시스템 시험결과서

바. 연구비 집행실적

사. 연구수행에 따른 문제점 및 개선방향
- 해당사항 없음

아. 중요 연구변경 사항
- 해당사항 없음

자. 기타 사항
- 해당사항 없음

2. 차년도 연구계획
가. 국내외 관련분야의 환경변화
· 빅데이터 시장변화
(빅데이터 시장) 글로벌 빅데이터 시장은 2026년에 846억 달러를 넘어설 것으로 예측되고 있으며, 빅데이터 활용 사례가 확대되고 데이터웨어하우스 시장의 성숙, 데이터 거버넌스, 데이터 변환 및 데이터 파이프 라인 생성 기능과 관련한 빅데이터 제품 및 서비스의 지속적인 성능 개선 등을 기반으로 2014년에는 39.6%, 2015년에는 21.7%의 고성장 추세를 이어가고, 2016년 이후에는 연간 15% 내외의 안정적 성장을 보일 것으로 예측 [위키본, 2015]

(빅데이터 서비스 시장) IoT, 소셜 미디어, 웨어러블 기기 등의 임베디드 시스템이 생성하는 데이터의 양이 증가하고 기업 내외 정형/비정형 데이터 풀(pool) 분석이 가능하게 됨으로써, 이러한 환경 기반으로 데이터 분석 관련 기술의 보편화가 이루어질 전망 (가트너, 2015)

· SQL on Hadoop 기술진화
- SQL on Hadoop 기술은 크게 클라우데라, 호튼웍스, 맵알테크놀리지스가 접근하는 네이티브(native) 하둡기반 시스템 계열과 IBM, 오라클, 테라데이터 사들이 출시하는 관계형 데이터베이스와 하둡을 연계한 하이브리드 시스템 계열로 기술 진화를 해 나가고 있음
- 클라우데라는 DataWarehouse on Hadoop 패키지 전략 일환으로 2013년 초 Impala를 발표한 후, 2015년 11월 Cloudera 5.5의 코어 컴포넌트로 Impala 2.3을 공개
- 맵알테크놀로지스는 페타바이트 규모에서 안정적인 인터렉티브 SQL 분석을 제공하는 하둡을 위한 오픈 소스, 저지연 (low-latency) 쿼리 엔진인 아파치 드릴 (Apache Drill) 1.0을 출시 (2015. 6)
- 국내기업인 그루터는 아파치 톱레벨 프로젝트인 ‘타조(Tajo)’를 활발히 진행하고 있으며, SK 텔레콤은 타조를 데이터분석 플랫폼으로 사용
- 테라데이터는 하둡 기반 SQL 처리 엔진으로 프레스토 (Presto)를 통합 (‘15.06)
- 네이티브 하둡기반 시스템은 클라우데라, 호튼웍스가 기술경쟁을 벌이고 있지만, 엔터프라이즈 프로덕션 진입은 아직 본격적이지 않음 (개념검증 단계나 기술평가에 머물러 있음)
· 데이터웨어하우스 기술변화
- 데이터 웨어하우스 시장에서는 테라데이타, 오라클, IBM 등 DB 업체들이 경쟁하던 전통 데이터웨어하우스(DW) 솔루션 시장 경쟁구도에 아마존웹서비스(AWS)와 빅데이터 및 하둡전문업체 클라우데라, 맵알테크놀로지스가 가세 ('2015년 DW 및 데이터 관리 솔루션 매직쿼드런트 보고서', 2015.02)

- 테라데이타는 ‘테라데이타 통합데이터아키텍처(UDA)’의 하둡과 데이터베이스 간 양방향 쿼리를 지원하기 위한 쿼리그리드 (QueryGrid): 데이터베이스 투 프레스토 소프트웨어 발표 (‘15.06)
· 관련 분야에 대한 상기의 기술 동향 및 환경 변화에 따라, 빅데이터 분석을 위하여 SQL on Hadoop 기반의 데이터 웨어하우스 구축을 통한 빅데이터 플랫폼 핵심 기술 개발의 조속한 추진이 요구되고 있음.
· SQL on Hadoop 관련기술간 기능 비교

나. 연구개발 목표 및 내용
· 목표 : 워크로드 인지형 스토리지 및 듀얼모드 분석 엔진 핵심 기술 개발
· 연구내용
o 배치/온라인 듀얼 모드 빅데이터 분석 플랫폼 기술 개발
- 듀얼 모드 분석 프레임워크 기술 개발
- MR 내장형 질의 및 질의 최적화 기술 개발

o 운영/분석 통합 분산 파일 시스템 기술 개발
- Zero-Copy 입출력 가속 기술 개발
- 입출력 스케쥴러 확장 기술 개발

다. 그 밖에 주요 변경사항
- 해당사항 없음

(출처 : 주요사업 연차실적보고서(요약본) 4p)