ETRI Knowledge Sharing Platform : 빅데이터의 반복적인 연산 작업을 지원하기 위한 Hadoop 기반 순환처리 시스템

Titles

논문 검색
Type		SCI
Year	~	Keyword

List

Journal Article 빅데이터의 반복적인 연산 작업을 지원하기 위한 Hadoop 기반 순환처리 시스템

Cited - time in scopus

Abstract: 최근 빅데이터의 효율적인 분석을 위하여, 대표적인 MapReduce 프레임워크인 Hadoop에 대한 연구가 활발히 이루어지고 있다. 한편, 유전체 데이터 분석과 같이, 대부분의 빅데이터 분석 응용은 동일한 Map과Reduce 함수의 반복적인 수행을 요구한다. 그러나 Hadoop은 비순환처리 구조를 가지고 있기 때문에, 순환처리 응용에 비효율적인 문제점이 존재한다. 따라서 본 논문에서는 빅데이터의 반복적인 연산 작업을 지원하기위한 Hadoop 기반 순환처리 시스템을 제안한다. 제안하는 시스템은, 첫째, 반복적인 MapReduce job을 관리하기 위해 순환처리 job 스케줄링 기법을 제안한다. 둘째, 데이터 입출력 비용을 감소시키기 위해 불변 데이터캐싱 기법을 제안한다. 셋째, 불필요한 연산을 방지하기 위해 종료조건 검사 기법을 제안한다. 넷째, Hadoop 클러스터 자원의 효율적인 관리를 위해 순환처리 자원 관리 기법을 제안한다. 마지막으로, 기존 하둡 기반시스템과의 비교를 통해 제안하는 시스템의 성능 우수성을 보인다.

218 Gajeong-ro, Yuseong-gu, Daejeon, 34129, KOREA, Contact: sh.kim@etri.re.kr

Please refrain from automatic collection of e-mail addresses posted on this homepage.