(TCGA DNA 데이터의 종양(Tumor) 종류 분류 AI 기술)은 TCGA 프로젝트에서 정한 DNA 데이터 셋을 입력으로 하여 종양 여부와 종류를 분류하는 AI 기술 기술에 관한 것임
o 대상 기술은 인공지능 응용 시스템에 내장되는 기술이며, 특히 근래 인공지능을 활용한 헬스케어나 의료 진단 서비스와 같은 다양한 기능을 탑재한 지능형 서비스가 증가하는 추세에 있음
o 종양 여부를 판단하는 기술은 의료 영상기반이나 신체 바이오마커 등의 정보에 기반하여 의료 영상 전문가가 판단하는 것에서 인공지능을 활용한 판단 방법으로 발전하고 있음
o 암을 예측하는 획기적인 방법으로 여겨지는 DNA 정보로부터 암여부 나 종류를 판단하는 기술 분야에서 인공지능을 적용하여 예측 정확도를 높이려는 노력들이 대두되고 있고, 본 기술은 이러한 필요성과 요구를 충족시키기 위해서 TCGA DNA 데이터기반의 인공지능 Tumor 분류 AI 모델을 개발하였고 이를 사업화하기 위한 목적임
o 본 기술은 상기의 필요성과 목적에 부합하도록 데이터 전처리, 인공지능 모델 등은 물론 지능형 응용 소프트웨에 손쉽게 탑재하기 위해 API를 갖춘 기술임
첫째, 기계 학습 인공지능 모델에 있어서 종래에는 X-ray와 자기공명 등의 영상데이터를 사용하여 기계 학습한 인공지능 모델을 통해서 종양 여부를 판별하는 기술 또는 DNA 데이터를 사용하여 기계 학습한 인공지능 모델을 통해서 종양 종을 예측하는 방법이 있으나 본 기술은예측 성능을 높이기 위해 전처리한 DNA 데이터를 사용하여 기계 학습한 인공지능 모델을 통해 종양의 여부와 종류를 판별한다는 점이 장점이다. 즉, 종양 보유자로부터 확보한 DNA 데이터를 인공지능 모델의 기계 학습에 바로 사용하지 않고 인공지능 모델의 신뢰성과 정확성을 향상하기 위해 DNA 데이터에서 불필요한 항목 제거, 데이터 구조 변경, 데이터 정규화 등의 “데이터 전처리”를 한다는 점이 특성이다. 둘째, 인공지능 모델의 종류로는 랜덤 포레스트(Random Forest) 모델을 취하였으나 일반적인 랜덤 포레스트 모델은 언더피팅(Under-fitting)을 피하기 위해 디시전 트리(Decision Tree, n_estimater)값을 최대 1,000개까지 구성하며 오버피팅(Over-fitting)을 피하기 위해 노드를 분할하기 위한 최소 샘플 데이터 수(min_samples_split) 값을 5이상 설정하지만 본 기술에서는 데이터 전처리를 통해 정제된 DNA 데이터를 인공지능 모델의 기계 학습에 사용함으로써 “디시전 트리는 10분의 1 수준으로 줄여서 적용하고 최소 샘플 데이터 수도 2분의 1이하로 줄여서 적용”하여 기계 학습 시간은 단축하고 분류 정확도는 향상시켰다는 특성이 있다.
o 기술명 : TCGA DNA 데이터의 종양(Tumor) 종류 분류 AI 기술
o TCGA DNA 데이터의 종양(Tumor) 종류 분류 AI 구현 SW일체
- (TCGA DNA 데이터의 종양(Tumor) 건강이상자나 건강검진자 등으로부터 무구속 상태에서 간편하고 신속하게 DNA(유전자) 데이터를 획득할 수 있는 기술의 발전 덕분으로, 특정 종양을 내재한 건강이상자들로부터 확보한 DNA 데이터(예를 들어, TCGA 프로젝트의 DNA Tumor 데이터셋)를 활용하여 기계학습(인공지능) 모델(프로그램)을 학습시키고, 모델을 활용하여 사용을 원하는 자, 누구나 DNA 데이터 내에 종양 정보 내재 여부와 종양의 종류를 분류할 수 있는 인공지능 모델(프로그램) 기술이다.