ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

KSB AI Cluster Platform(KAP-C) technology

Manager
Lee Yeonhee
Participants
Transaction Count
0
Year
2021
Project Code
본 이전기술(이하, KAP-C 기술)은 다양한 도메인의 인공지능 서비스 생성하고 제공하는데 필요한 공통의 기능들을 제공하는, 하나 이상의 분산된 컴퓨팅 노드 상에서 실행되는 KSB 인공지능 클러스터 프레임워크 및 플랫폼 기술이다(그림 2). KAP-C는 분산된 컴퓨팅 노드 상에서 다양한 목적의 서비스를 제공하는 논리 기능블럭 (이하, “엔진”)을 연결하여 워크플로우를 구성할 수 있는 프레임워크 기술, 워크플로우를 구성하는 엔진들을 실행 및 제어하고 관리하는 기술인 플랫폼 기술을 제공한다. KAP-C를 이용하면 하나의 판단이나 예측 지능을 생성하여 제공하기 위한 다양한 리소스의 관리와 분산환경에서 실행 및 운영할 수 있는 데브옵스 도구를 제공함으로써 실시간 지능형 제어 서비스를 손쉽게 설계-개발-배포-운영할 수 있도록 돕는다.
KAP-C는 플랫폼 상에 다양한 엔진들의 파이프라인으로 워크플로우를 구성함으로써 다양한 응용들을 실행할 수 있다. 구체적으로, 실시간 또는 배치로 데이터를 수집하여 처리하고, 기계학습모델을 이용한 예측모델의 튜닝, 튜닝한 예측모델의 서빙하는 데이터 주도의 현장형 기계학습 파이프라인을 실행하고 운영할 수 있다. 또한 학습모델을 주기적으로 파인튜닝하여 최적의 모델을 지속적으로 갱신하여 지능 최적화 파이프라인을 구성하는 것도 가능하다. 다수의 지능형 서비스를 파이프라인 하여 새로운 서비스를 정의하고 실행하는 융합 서빙 파이프라인을 구성하여 복합 지능 서비스를 제공하는 것도 가능하다. 이러한 다양한 지능 기반 응용개발을 위한 데이터셋, 학습코드, 모델, API 등의 자원을 등록하여 관리할 수 있다. 엣지 플랫폼, IoT 플랫폼 등 현장의 도메인 특화된 플랫폼과 KAP-C 응용과의 연동을 용이하게 하도록 플랫폼 자원의 등록 관리가 가능하다.
­ - 실제 산업에서 머신러닝 기술을 이용한 지능 서비스를 제공받기 까지는 데이터에 대한 처리부터, 학습, 서빙 등을 위한 다양한 인프라 기술들이 필요하며, 이들이 산업 시스템과 연계되어 유기적으로 작동되어야 한다.
­ - 실제 산업에서 머신러닝 기술을 이용한 지능 서비스를 제공받기 까지는 데이터에 대한 IoT, 데이터 처리, 학습, 서빙, 최적화, 서비스 간 융합 등을 위한 다양한 기술들의 연계가 필요하며, 이들이 현장과 연계되어 유기적으로 작동되어야 한다.
­ - 지능형 서비스 기술을 도입하고자 하는 대다수의 기업들은 이러한 기술을 습득하고 내재화하는데 상당한 시간과 노력, 인적자원이 요구되므로, 초반에는 클라우드에서 제공하는 다앙한 서비스를 활용한다. 하지만 범 국가적인 디지털 전환 전략에 따라 많은 기업들이 이러한 지능의 역할을 확대하고자 하고 있다.
­ 지능서비스를 제공하기 위한 클러스터 기반의 공통의 프레임워크 기술과 지능형 서비스를 운영하고 관리할 수 있는 기반 기술이 절실하다.
□ 특징
○ 현장 적용형 지능서비스를 위한 워크플로우 구성 프레임워크 기술
­ - 데이터 처리, 모델 학습, 학습모델 기반 서빙, 서빙을 융합한 응용서비스를 포함한 인공지능 파이프라인 기능
­ - 빅데이터, 모델학습, 서빙을 위한 일원화된 인프라의 연동 제공하며 이를 통한 인공지능 서비스를 위한 실시간 처리와 배치 처리 파이프라인 구성 가능
­ - 파이썬 모듈, 예측모델을 탑재하여 서빙할 수 있는 마이크로서비스 기술 제공
­ - 엔진컨테이너를 구성하는 구성체인 5가지 컴퍼넌트 조합에 의한 엔진의 모듈식 구성 기술
- 학습모델의 현장적응을 위한 자동 모델 평가 및 업데이트를 위한 워크플로우 지원
○ 클러스터 노드와 다중 서버형 노드 상에 워크플로우의 정의/배포/운영 데브옵스 플랫폼 기술
­ - 엔진단위의 자원사용(cpu core, 메모리)의 명시적 할당 기능
- 모델 학습의 GPU와 CPU 자원 사용 자동 전환 기능
- 응용이 외부 서비스 API에 접근 인증/인가 보안 클라이언트 기능
- 그룹별 API 접근제어 서버/클라이언트 기능
- 응용 API에 개별 및 그룹 단위의 토큰 기반의 접근제어 보안 서버 기능
- 하나 이상의 분산된 컴퓨팅 자원 상에서의 동작 기능
- 단일 서버형 백엔드 노드 상에 워크플로우 실행 기능
- 운영 중인 엔진의 처리량 확장을 위한 스케일-아웃 기능
- 워크플로우 실행에 따른 운영 중인 엔진 갱신 기능
- 리소스의 공유 관리 기능
○ 웹 기반의 워크플로우 저작도구 제공
- 워크플로우 개념 도입하여 그래픽 기반의 편집 인터페이스 제공
- 정의된 워크플로우 스펙에 따라 프레임워크는 실행시스템을 동적으로 구성
- 도메인의 응용에 필요한 서비스를 제공하도록 클러스터 또는 다수의 서버형 노드 상에 선택적 실행 가능
- 그래픽 기반의 관리자 기능 제공 (리소스의 공유관리, 노드 등록 관리, 컴퍼넌트 등록 관리, 사용자 그룹관리, 사용자 그룹 단위의 토큰 발행 및 접근제어 관리 기능, 엔진템플릿 관리 기능 등)
- SW 개발자들이 기능을 확장할 수 있도록 컴퍼넌트 개발환경 제공
- 응용 개발자들이 지능 파이프라인을 구성하여 지능 서비스를 개발할 수 있는 인터페이스 제공
- 응용 개발 결과를 실행하고 관리할 수 있는 운영자 인터페이스 제공

□ 장점
­ - 실시간 지능형 서비스 수용 : 조립형 컴퍼넌트 간의 실시간성 제공으로 현장에서 다양한 사물의 즉각적인 지능형 제어를 수행할 수 있는 현장 지능형 서비스 인프라 아키텍쳐
- 클러스터 기반의 성능 확장성 제공과 다중 노드 관리 기술
- 지능서비스의 현장 최적화: end-to-end 파이프라인 기술과 실시간 라벨링 및 예측서비스 평가 기능을 통한 지능서비스의 실시간 현장 최적화 가능
- 기술 내재화 : SW/Data/Analytics/경험 등 기업의 데이터를 활용한 인공지능 기술력 축적하여 재활용할 수 있는 내재화 기능
- 다양성 : SW 컴퍼넌트들의 조합으로 다양한 응용 서비스 시스템 구성 가능
- 재활용성 : 워크플로우 재활용 및 공유 기능 제공
- 확장성 : 개발자 API를 이용한 3rd Party 컴퍼넌트 개발 및 등록 인터페이스 제공
- 편의성 :
. 웹 기반 DIY 워크플로우 저작도구 및 모니터링/실행/제어 인터페이스제공
. Stand-alone 실행환경과 웹툴킷 저작 환경을 포함한 컨테이너 기반 툴박스 제공
. 모델 학습과 서빙 프로세스 일원화
* KAP-C 코어
- 하나 이상의 KAP-C엔진 컴퍼넌트들의 조합을 통한 동적 엔진 구성 기능
- 실행요청에 의한 엔진 인스턴스 생성 기능
- 엔진을 구성하는 KAP-C엔진 컴퍼넌트 유형들의 규격 제공
- (플랫폼)사용자 관리
- 내부 모듈에 대한 접근제어 기능
- 백엔드 노드 관리
- 사용자 그룹 관리
- 사용자 서비스 접근권한 관리
- 엔진단위 리소스 할당 및 관리 기능
- 모델학습의 GPU와 CPU 자원 사용 자동 전환 기능
- 엔진 실행 사전사양검증 기능(빌드)
- 엔진 코어-클러스터노드에 배포하는 기능
- 엔진 엣지-서버노드에 배포하는 기능
- 엔진의 실행 및 종료 제어 기능
- 엔진의 실행시점을 스케쥴링하는 기능
- 엔진이 제공하는 예측 서비스를 중단하지 않고 예측모델을 갱신하는 기능
- 워크플로우 동시 실행 기능
- 엔진 복제본의 수를 제어하는 기능
- 운용중인 엔진을 서비스 중단없이 갱신하는 기능
- 운용중인 엔진을 서비스 중단없이 이전 버전으로 회귀하는 기능
- 데이터셋/학습모델/학습코드 리소스 관리 기능
- 파이썬 모듈/컨테이너 이미지/API 리소스 관리 기능
- 플랫폼 리소스/구독 정보 관리 기능
- 인증정보 리소스 관리 기능
- 공유 리소스 관리 기능
- 데이터셋/학습모델/학습코드/파이썬모듈 저장소 관리 기능
- 임의의 파일에 대한 저장소 기능
- 데이터셋/학습모델/학습코드/파이썬모듈 파일 저장소 기능
- HDFS 스토리지 관리 기능
- 엔진의 진행상태 조회 기능
- 엔진의 건전성 상태를 확인하는 기능
- 엔진 로그 출력 기능
- 엔진의 갱신 히스토리를 조회하는 기능
- 백엔드 노드에 대한 모니터링 기능
- API 인증/인가 클라이언트 기능
- API 인증/인가 서버 기능
- 사용자 그룹별 접근제어
- Root 및 Intermediate CA 발급 및 관리
- 백엔드 노드에 대한 인증서 발급 및 관리

* KAP-C 컴퍼넌트- 외부 저장소로부터 적재하는 기능
- 스트림 데이터를 적재하는 기능
- 외부(EdgeX) 플랫폼으로부터 데이터 적재 기능
- 데이터를 배치방식으로 처리하는 기능
- 데이터를 스트림방식으로 처리하는 기능
- 데이터를 비식별 처리하는 기능
- 기계학습 모델 학습 기능
- 딥러닝 모델 학습 기능
- 자동기계학습 (AutoML) 기능
- 머신러닝 모델의 스트림 방식 서빙 기능
- 딥러닝 모델의 스트림 방식 서빙 기능
- 딥러닝모델의 On-Demand 방식의 서빙 기능
- 서빙에 의해 생성된 하나 이상의 서비스를 파이프라인하여 새로운 서빙을 제공하는 기능
- 보안이 적용된 상태에서 외부 API와 서빙을 파이프라인 하는 기능
- 하나 이상의 외부 서비스를 파이프라인하여 서비스를 제공하는 기능
- 학습모델 Live 데이터 자동 라벨 생성 기능
- 재학습된 딥러닝 모델 검증 기능
- 학습모델 Live 데이터 평가 기능
- 파일 시스템 간 파일의 이동 기능
- 데이터 생성을 통한 KAP-C 응용 서비스의 사전 시뮬레이션 기능
- 다수의 엣지-서버노드와 코어-클러스터노드 간 연계 응용 서비스 지원 기능

* KAP-C 클라이언트

- DIY 방식으로 워크플로우를 정의할 수 있는 저작 기능
- 프로젝트 단위 워크플로우 관리 기능
- 사전 정의 엔진 템플릿 기능
- 워크플로우 위저드 생성 기능
- 워크플로우 단위의 실행상태 모니터링 기능
- 엔진 단위의 실행상태 모니터링 기능
- 워크플로우 단위의 실행 제어를 요청하는 기능
- 엔진 단위 리소스 사용량 모니터링 기능
- 운용 중인 엔진에 대한 갱신 기능
- 운용 중인 엔진에 대한 스케일-아웃 성능 확장 기능
- 엔진의 갱신 히스토리 조회 기능
- GUI 기
­- KAP-C 코어 SW (KAP-C Lite 포함, 소스코드 제공)
­- KAP-C 클라이언트 SW (소스코드 제공)
­- KAP-C 엔진 컴퍼넌트 SW (오픈소스 라이센스 정책)
­- 요구사항 및 시험절차서 문서
­- 설치 및 사용자 매뉴얼
<적용분야>
스마트 공장/제조, 스마트 시티, 교통, 사물인터넷, 플랜트 등
<기대효과>
­ 이전기술에서 제공하는 인공지능 서비스 파이프라인을 활용하여 기계학습모델 기반의 인공지능 서비스를 빠르게 프로덕션화(실제 응용 분야에 배포 및 운영)함으로써, 신속한 인공지능 개발-배포-운영-피드백의 사이클을 통해 인공지능 수준의 신속하고 점진적인 발달 효과를 얻을 수 있다.
­ 특히 인공지능 알고리즘을 end-to-end 서비스 파이프라인과 함께 정의하여 배포하고, 프로토타입 운영 및 폐기의 반복 사이클을 통해 빠르게 현장 최적화할 수 있다.
­ 이전기술에서 추구하는 동적 엔진 구성기술을 통해서, 기존의 인공지능 서비스를 위해서 개별적으로 시스템이 개발되고 운영됨으로써 발생하는 시스템 개발, 유지 및 관리하는데 드는 비용을 현저히 줄일 수 있다.
­ 이전기술에서 제공하는 실시간/배치 빅데이터, 모델학습, 서빙, 융합서빙의 일원화된 오케스트레이션 방식과 워크플로우 개념의 도입을 통해서 인공지능에 필요한 기반기술과 응용(인공지능 서비스)의 일원화된 운영과 관리가 가능하다.