ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Distributed Deep Learning Training Platform v2

Manager
Ahn Shin Young
Participants
Transaction Count
0
Year
2025
Project Code
’분산 딥러닝 학습 플랫폼 v2’ 기술은 고성능컴퓨팅(High Performance Computing: HPC) 시스템 상에서 다수의 이종 성능 GPU 서버들을 이용하여 고속으로 대규모 딥러닝 모델의 트레이닝(학습)을 수행하는 분산 처리 SW 기술이다.
본 기술은 많은 계산량을 필요로 하는 딥러닝 모델 및 학습 데이터량이 많은 심층 학습 모델의 학습 시간을 이종의 다중 GPU 서버상에서 효율적인 분산 학습을 통해 획기적으로 줄일 수 있다.
분산 딥러닝 학습 플랫폼(v2.0)은 EDDIS(v1.6) 라이브러리와 Soft Memory Box(v2.1) SW로 구성되며, TensorFlow와 PyTorch와 같은 기존 딥러닝 라이브러리 기반의 딥러닝 모델을 다수의 GPU 서버에서 빠르게 분산 학습 가능하다.
SMB Server는 로컬 노드의 메모리를 다른 노드의 응용에서 직접 접근할 수 있도록 지원한다.
SMB Library는 EDDIS에게 원격 노드의 메모리 세그먼트들을 결합하여 매우 큰 공유 메모리 버퍼를 제공한다.
EDDIS는 SMB Library가 제공하는 공유 메모리 버퍼를 분산 학습 프로세스간 전역 파라미터를 공유하는데 사용한다.
EDDIS를 이용하여 기존 Tensorflow, PyTorch 모델을 분산학습하기 위해서는 기존 Python 훈련 코드를 EDDIS가 제공하는 API를 사용하여 수동으로 수정해줘야 한다.
본 기술에서는 수정을 위한 매뉴얼을 제공한다. EDDIS는 EDDIS Core, EDDIS Utility, EDDIS Python Inferface SW로 구성된다. 설치 버전은 상기 3개의 SW를 통합하여 하나의 패키지로 설치 가능하다.
분산 학습시 발생하는 통신 병목의 문제를 해결하고, 이종 GPU 클러스터 운영시의 비효율성을 해결하여, 딥러닝 응용을 개발하고자 하는 기업, 대학, 연구소 등의 기관들이 대규모 딥러닝 학습데이터를 딥러닝 모델로 학습할 때 비용 효율적인 방법으로 적시에 딥러닝 서비스 개발을 지원하고자 함.
Tensorflow와 PyTorch와 같은 딥러닝 라이브러리 기반 딥러닝 모델의 분산 학습시 발생하는 통신병목을 해소하도록 확장하여 심층 학습속도를 빠르게 향상시키는 분산 학습 솔루션임.
Soft Memory Box(SW)의 공유메모리를 분산 딥러닝 파라미터 통신을 위해 사용함으로써 분산 학습 시간을 개선함.
Horovod/PyTorch DDP 대비 모델에 따라 최대 2배 이상 빠르게 학습이 가능함.
이종의(세대가 다른) GPU들로 구성된 서버들을 효과적으로 활용할 수 있음
Ubuntu와 Rocky OS를 지원함, FP32, FP16, BF16 학습을 지원함.
서버간 네트워킹 기술로 인피니밴드를 요구함,
분산 딥러닝 학습 플랫폼v2
- 소프트 메모리 박스(통합공유매모리버퍼프레임워크, USMB) v2.1
(1) 소프트 메모리 박스 클라이언트 기능
(2) 소프트 메모리 박스 서버 기능
(3) 사용자 레벨 인피니밴드 통신 계층 모듈 기능
(4) SMB MPI 지원 기능
(5) 기술 특징 및 성능

- EDDIS(ETRI 분산딥러닝 플랫폼) v1.6
(1) 분산 프로세스 실행 관리 기능
(2) 파라미터 공유 메모리 관리 기능
(3) 데이터 병렬 트레이닝 기능
(4) 분산 딥러닝 계산과 파라미터 통신 병렬화 기능
(5) 분산 프로세스간 학습 진도 제어
(6) 분산학습 타임라인 로깅과 학습 프로파일링 기능
(7) 기타 기술 특징 및 성능
분산 딥러닝 학습 플랫폼 V2

- 공통 기술문서(3건)
분산 딥러닝 학습 플랫폼 요구사항정의서 (v2.0)
분산 딥러닝 학습 플랫폼 시험계획절차서 (v2.0)
분산 딥러닝 학습 플랫폼 시험결과서 (v2.0)

- 소프트 메모리 박스 (v2.1)
(1) 기술문서(4건)
통합공유메모리버퍼프레임워크 상세설계서 (v2.1)
통합 공유 메모리 프레임워크 설치 매뉴얼 (v2.1)
통합 공유 메모리 버퍼 프레임워크 프로그래밍 매뉴얼 (v2.1)
통합 공유 메모리 버퍼 프레임워크 바이너리 설치 및 운용 매뉴얼(v2.1)
(2) 프로그램(SW, 1건)
통합 공유 메모리 버퍼 프레임워크 버전 2.1

- EDDIS (v1.6)
(1) 기술문서(9건)
분산 딥러닝 플랫폼 상세설계서 (v1.6)
EDDIS를 위한 Ubuntu 서버 설치 매뉴얼(v1.6)
EDDIS를 위한 Rocky Linux 서버 설치매뉴얼(v1.0)
텐서플로우 프로그래밍 스타일 분석
EDDIS 설치 매뉴얼 (v1.6)
EDDIS 사용자 API 매뉴얼 (v1.6)
Tensorflow-to-EDDIS 코드 변환 매뉴얼 (v1.6)
EDDIS 분산 학습 매뉴얼 (v1.1)
Pytorch-to-EDDIS 코드 변환 매뉴얼 (v1.1)
(2) 프로그램(SW, 3건)
분산 딥러닝 코어 라이브러리 버전 1.6
분산 딥러닝 유틸리티 라이브러리 버전 1.6
분산 딥러닝 파이썬 인터페이스 버전 1.6
- 고속 딥러닝 학습 서비스 구축 가능
. AI(딥러닝) 데이터 센터 구축 시 활용 가능
. 클라우드용 딥러닝 컴퓨팅 인프라 구축 가능
. 사내 데이터 분석, AI(딥러닝) 응용 개발 지원

- 딥러닝/인공지능 어플라이언스 제품 개발시 활용 가능