ETRI-Knowledge Sharing Plaform

KOREAN
연구보고서 검색
Type Funding Org. Research Org.
Year ~ Keyword

Detail

듀얼 모드 배치·쿼리 분석을 제공하는 빅데이터 플랫폼 핵심 기술 개발 (최종)
Download 902 time
Participants
이상민, 김성수, 원종호, 박준영, 김영균, 진기성, 허성진, 박정숙, 김재열, 정문영, 김홍연, 송혜원, 이태휘, 이상민, 김영철, 남택용, 차명훈, 이미영
Published
201612
Type
Final Report
Keyword
Ad-hoc, Directed Acyclic Graph, 듀얼 모드 빅데이터 분석 플랫폼, 유니파이드 빅데이터 파일 시스템, 의료 데이터
KSP Keywords
Big data platform, Big-data, Data Platform, Dual-Mode
Funding Org.
한국전자통신연구원
Research Org.
한국전자통신연구원
DOI
10.22648/ETRI.2016.R.000043 
Project Code
16ZS1400, 듀얼모드 배치.쿼리 분석을 제공하는 빅데이터 플랫폼 핵심기술 개발, Won Jongho
Abstract
Ⅱ. 연구목적 및 중요성
○ 오픈 소스 소프트웨어 프레임워크인 아파치 하둡은 빅데이터에 대한 디지털 비즈니스 욕구가 커짐에 따라, 기업 조직 내에서 큰 지지를 얻고 있음

○ 빅데이터1.0에서는 기업 내 프로젝트들이 급증함에 따라, 지속적이고 빠르게 확장되는 하둡 시스템의 기능들을 조직의 의사결정에 필요한 분석 요구사항에 매핑하는 것은 데이터 과학자 및 분석 리더에게는 복잡한 작업임

○ 이러한 일괄처리 중심인 맵리듀스 기반 빅데이터1.0의 주요한 단점을 해결하기 위해, 스파크 SQL, 스파크 ML 등과 같은 인메모리 데이터처리를 기반으로 하고 있는 아파치 스파크 프로젝트가 진행되고 있음

○ 빅데이터2.0 실현을 위해서는 두 가지 주요한 연구 도전과제가 있음
- (분석처리기술) 배치형과 인터랙티브형으로 양분된 분석 기술을 기능적으로 결합한 빅데이터 분석 소프트웨어 플랫폼 개발
- (저장관리기술) 운영계/분석계의 스토리지를 통합 운영/분석 가능한 유니파이드 빅데이터 스토리지 시스템 소프트웨어 기술 개발

○ 본 사업에서는 세계 최고 수준의 질의 분석 성능(세계 최고 대비), MR 분석 성능(하이브 대비), 파일처리 성능(HDFS)과의 비교를 통해 개발 기술의 우수성이 객관적으로 입증될 수 있도록 성과 목표를 도출함

Ⅲ. 연구내용 및 범위
○ (연구목표) 페타바이트급 이상 정형/비정형 빅데이터 통합 분석을 위해 부하인지형 유니파이드 빅데이터 분산 파일 시스템을 기반으로 인터랙티브 분석과 MR 기반 심층 분석을 동시에 지원하는 분산 쿼리 엔진 개발

○ 애드혹(Ad-hoc) 질의와 맵리듀스 기반 심층 분석 질의를 제공하는 MR 내장형 분산질의 엔진 기술 개발

○ DAG(Directed Acyclic Graph) 기반 동적 데이터 처리 및 데이터 공유를 제공하는 배치/온라인 듀얼모드 분산 데이터 처리 기술 개발

○ 파이프라인 데이터 공유를 제공하는 운영계/분석계 통합 유니파이드 빅데이터 분산파일 시스템 기술 개발

○ 연차별 연구개발 범위
● 1차년도: 운영/분석계 스토리지 공유 및 듀얼모드 분석 엔진 설계
● 2차년도: 워크로드 인지형 스토리지 및 듀얼모드 분석 엔진 핵심 기술 개발
● 3차년도: 유니파이드 분산 파일 시스템 및 듀얼모드 분석 엔진 통합 기술 개발

Ⅳ. 연구목표 달성도
○ 질의 분석 (TPC-H) 성능: 세계최고 대비 1.3배(100% 목표 달성)
(달성 요인) 질의처리 최적화를 통한 데이터 처리 성능 개선

○ MR 분석 성능: Hive 대비 31배(103% 목표 달성)
(달성 요인) 개선된 분산 실행(DAG기반 실행엔진)을 통한 배치처리 성능 향상

○ 파일 데이터 처리 성능: 21,000 creates/sec(105% 목표 달성)
(달성 요인) 저수준 메타데이터 입출력 프로토콜 및 고속 캐시 기술을 통한 파일 데이터 처리 성능 향상

○ 데이터 입출력 간섭률: 10%(100% 목표 달성)
(달성 요인) 워크로드 인지형 입출력 제어 및 제로카피 기술을 통한 간섭률 최소화

○ 특허 출원 (국내/국제): 15건(10건/5건)[출원중(2건/2건) 포함](125% 목표 달성)

○ 논문 (비SCI/SCI): 30건 (27건/3건)(500% 목표 달성)

연구개발결과의 우수성
○ (통합분석 원천기술 경쟁력 확보) 글로벌 벤더 중심으로 형성되는 데이터 웨어하우스 시장에 대응하여, 배치처리와 온라인처리를 통합 지원하는 SQL 온 하둡 시스템의 독창적인 연구 결과 도출을 통한 기술 경쟁력 확보

○ (표준 SQL 지원/처리속도 개선) 하둡과의 연동을 보다 빠른 성능을 내면서도 ANSISQL을 그대로 이용할 수 있는 DAG기반 질의처리 엔진 제공 [세계최고 대비 1.3 배 처리속도 개선]

○ (맵리듀스기반 배치 처리속도 개선) 워크로드기반 데이터 파티셔닝 및 컬럼셋을 적용하여, 대용량 빅데이터의 통계분석을 위한 빠른 맵리듀스기반 배치 처리 성능을 제공 [하이브 대비 31 배 처리속도 개선]

○ (유니파이드 빅데이터 파일 시스템 플랫폼 원천기술 확보) 운영계와 분석계에서 생산되는 데이터의 통합 관리와 분석을 지원하기 위한 유니파이드 빅데이터 파일 시스템 플랫폼 핵심 원천기술 확보 [파일 메타데이터 처리 성능: 21,000 creates/sec 달성]

○ (운영/분석 통합형 입출력 간섭 제어 핵심 기술) 운영계/분석계 데이터 접근 우선권, 데이터 접근 일관성, 상호간의 성능 간섭에 대한 효율적인 제어 기술 등 빅데이터 스토리지의 핵심 도전 기술 확보 [데이터 입출력 간섭률: 10% 달성]

Ⅴ. 활용계획 및 파급효과
○ 듀얼모드 빅데이터 분석 플랫폼을 신용카드사 감성 분석, 기업 평판 관리 시스템 등에 활용해 나감으로써, 빅데이터 데이터 웨어하우스 플랫폼 국내시장 창출

○ 또한, 보건/복지/의료 분야등과 같은, 공공 정부의 데이터 공유 및 활용 분야에 적용을 통해 성과 확산

○ 기계학습, 배치분석등과 같은 빅데이터 분석 응용시스템의 하부 빅데이터 운영 및 분석용 파일 시스템으로 활용

○ 국내 분산 파일시스템 사업화 또는 서비스 구축 경험이 있는 업체를 대상으로 유니파이드 빅데이터 파일시스템 기술을 조기 확산 유도

○ 빅데이터 운영/분석/응용계의 일원화를 통해, 빅데이터 플랫폼에 대한 기존 투자비 대비 40% 이상 절감 효과 예상

(출처 : 요약문 8p)