ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

딥러닝 HPC 플랫폼 대시보드

전수책임자
박유미
참여자
김영균, 박유미, 안신영, 우영춘, 임은지, 최완, 최용석
기술이전수
4
이전연도
2018
협약과제
18HS2700, 대규모 딥러닝 고속 처리를 위한 HPC 시스템 개발, 최완
딥러닝 HPC 플랫폼 대시보드는 딥러닝 HPC 시스템을 기반으로 구축된 딥러닝 HPC 플랫폼 상에서 딥러닝 모델을 개발, 실행, 관리하는 환경을 제공하는 사용자 인터페이스 프로그램으로 다음 두 종류의 이용자를 지원한다.
- 딥러닝 모델 개발자
딥러닝 모델 개발자는 딥러닝에 널리 이용되는 라이브러리를 그래픽 컴포넌트로 제공하는 모델 편집 기능을 이용하여 드래그&드랍 방식으로 딥러닝 모델을 생성할 수 있고, 딥러닝 프레임워크(Caffe, TensorFlow) 중 하나를 선택하여 트레이닝 할 수 있고, 트레이닝 중 결과를 모니터링할 수 있다.
- 딥러닝 플랫폼 관리자
딥러닝 플랫폼 관리자는 모델 개발자가 등록한 모델/데이터셋/트레이닝 이력과 모델 개발자가 이용하는 컴퓨팅 자원을 안전하고 편리하게 관리할 수 있다.
- 딥러닝 기술은 대규모 데이터와 모델(프로그램)에 대한 이해, 그리고 모델을 트레이닝 할 수 있는 프레임워크 등을 심도있게 숙지하고 있어야 접근이 가능한 기술로서 일반 개발자들에게 있어서 진입 장벽이 높은 편임
- 사회적으로 국가적으로 딥러닝(인공지능) 기술에 대한 인지도는 높으나 높은 기술적 진입 장벽으로 인해 개발자 확보가 어려워 딥러닝 기술 선진국에 비하여 인공지능 기술의 저변 확대가 상당히 더딘 상황임
- 또한 딥러닝 기술은 고성능 컴퓨터와 가속 하드웨어(GPGPU등)가 필수적으로 갖추어져 있어야 하는 상황에서 일반적인 프로그래밍 개발 환경과 그에 대한 관심만으로는 기술 개발이 어려움
- 본 기술 이전은 딥러닝 기술의 진입 장벽을 낮추기 위한 기술로서 고성능 컴퓨팅 시스템을 기반으로 하는 딥러닝 플랫폼을 통해 딥러닝 모델 개발자에게 쉽고 편리한 개발/트레이닝 환경을 제공하고자 함.
. 기존에는 딥러닝 모델 개발 시 딥러닝 모델의 구조와 프로그래밍 언어(python 등)와 데이터셋의 특성을 잘 알고 있어야 모델 개발이 가능함. 본 기술은 프로그래밍 언어를 몰라도 딥러닝 모델의 구조를 그래픽 컴포넌트를 이용하여 자유롭게 구성해 가며 딥러닝 모델을 쉽게 개발할 수 있게 지원하는 기술임
. 딥러닝 프레임워크에 익숙하지 않아도 몇 가지 설정만으로 트레이닝을 실행할 수 있어 딥러닝 전문가 뿐 아니라 입문자도 쉽게 이용할 수 있음
- 딥러닝 레이어를 그래픽 컴포넌트화하여 이를 드래그&드랍함으로써 간단히 딥러닝 모델 저작 가능. 즉, python 등 프로그래밍 언어를 몰라도 딥러닝 모델 개발 가능
- 딥러닝 트레이닝 전 딥러닝 프레임워크(Caffe, TensorFlow) 선택 가능 (하나의 모델로 다른 두 프레임워크에서 실행 가능)
- 딥러닝 트레이닝을 위해 가속 장치 (하드웨어) 할당/지정 가능 (GPGPU #)
- 딥러닝 트레이닝 도중/완료 후 결과 시각화로 모니터링 가능
- 간단한 선택만으로 분산 딥러닝 트레이닝 가능
- 체크포인트 기반의 트레이닝 재시작 가능
■ 딥러닝 모델 개발자용 기능
(1) 사용자 관리
- 가입/탈퇴
- ID/암호 기반 로그인/로그아웃
(2) 딥러닝 트레이닝 데이터 셋 관리
- ImageNet, MNIST 등 well-known 데이터 셋 업로드 수정/삭제
- 사용자 데이터셋 업로드/수정/삭제
(3) 딥러닝 모델 생성/관리
- 그래픽 기반 CNN/RNN/LSTM 레이어 컴포넌트 라이브러리 제공
- CNN/RNN/LSTM 모델 저작(편집)
- 모델의 DL-MDL 변환
(4) 딥러닝 트레이닝
- 트레이닝 기본/고급 옵션 설정
- 트레이닝 결과 시각화 및 모니터링
- 트레이닝 이력 관리
- 체크포인트 저장 정책 설정
- 체크포인트 기반 트레이닝 재시작
■ 딥러닝 플랫폼 관리자용 기능
(1) 사용자 정보 관리 기능
- 사용자 추가/수정/삭제
- 사용자 권한 설정
(2) 플랫폼 자원 관리
- 딥러닝 데이터 셋 관리
- 딥러닝 모델 관리
- 딥러닝 모델 트레이닝 실행 및 제어
- 트레이닝 상태 및 각종 관리 대상 모니터링
(3) 컴퓨팅 자원 관리
- 계산가속기 및 통신 가속기 장착 디바이스 로그/상태 관리
- 메모리 사용 로그/상태 관리
- 디스크 사용 로그/상태 관리
■ 대시보드 SW 프로그램
(1) 대시보드-웹서버 1.0
(2) 대시보드-마스터 노드 2.0
(3) 대시보드-계산 노드 2.0
■ 대시보드 설계문서
(1) 딥러닝 HPC 시스템 사용자 요구사항 정의서
(2) 딥러닝 HPC 시스템 시스템 요구사항 정의서
(3) 딥러닝 HPC 플랫폼 대시보드 상세설계서
(4) 딥러닝 HPC 플랫폼 대시보드 시험절차서
(5) 딥러닝 HPC 플랫폼 대시보드 시험결과서
(6) 딥러닝 HPC 플랫폼 대시보드 사용자매뉴얼
- 클라우드 플랫폼 서비스로 구축
. AI(딥러닝) 데이터 센터 구축하여 클라우드 이용자에게 딥러닝 개발환경 제공 (유사 사례: Microsoft Azure Machine Learning Studio, 라벨아이오(Labellio))
- 온프레미스 AI(딥러닝) 플랫폼 서비스로 구축
. 사내 데이터 센터 구축 : AI(딥러닝) 응용 개발, 빅데이터 분석
. 소규모 AI(딥러닝) 연구실에서 AI(딥러닝) 응용 개발 환경으로 구축
. 개인용 딥러닝 모델 개발 도구로 이용