전 세계적으로 생성되는 디지털 정보량이 급격하게 증가하면서 최근에는 개인 별로 특징들을 데이터화하고, 이를 그룹별로 통합 및 분석하여 새로운 지식을 발굴하는 연구가 다양한 분야에서 진행되고 있다. 예를 들어, 특정 질병에 걸린 환자군과 정상군의 특징들을 비교하여 이로부터 질병을 판별해낼 수 있는 지표를 발굴하거나, 개인의 스마트기기 사용 기록을 데이터화하여 남/여 또는 연령대별로 관심있는 컨텐츠나 사용자경험을 제공하는 등 다양한 데이터 기반의 분석 및 서비스 기술들이 개발되고 있다. 이와 같은 그룹(클래스)별 데이터 분석에서는 그룹 내에서 공통되며, 그룹 간에는 배타적인 특징들의 조합을 찾는 것이 핵심 기술인데, 이러한 최적의 특징 조합을 찾기 위해서는 다양한 특징 조합을 분석하고 테스트하는 단계가 반복적으로 수행되어야 한다. 따라서, 대용량의 샘플별 특징 데이터를 입력하고, 개별 특징 및 특징 조합을 분석하며, 추출한 결과를 기반으로 클래스 분류 테스트를 수행하는 일련의 프로세스를 효과적으로 수행할 수 있는 통합기술이 요구되고 있다.
본 기술은 2차원 샘플 데이터를 입력받고, 사용자가 관심있는 범위의 데이터를 필터링하고, 단일 및 복합 특징 조합 기반으로 샘플을 클래스별로 분류하는 기술을 포함한다. 본 연구팀에서는 본 기술을 바이오 분야의 대사체 농도 데이터 연구에 실제 적용시켰으나, 해당 기술은 2차원 샘플 별 특징 데이터 분석에 관한 핵심 기술로써 경제, 스마트기기 로그 분석 등 다양한 분야에 적용되어 분류기 제작 및 맞춤형 서비스 제공에 활용될 수 있다. 기술이전 업체에서 빅데이터 기반 지식서비스를 제공하기 위한 핵심 기술로써 본 기술에 대한 요구사항이 있으므로, 본 기술이전을 통해 2차원 샘플 데이터의 핵심 분류 기술을 이전하려고 한다.
- GUI(Graphical User Interface) 상에서 모든 기능 수행 가능
- 관심있는 영역의 데이터만을 선택하여 분석 가능
- 클래스 판별을 위한 최적의 특징 조합 추천
- 사용자가 원하는 특징 조합 선택 및 반복 수행 가능
- 2차원 샘플 데이터 입력 기술
- 2차원 샘플 데이터 필터링 기술
- 단일 특징 기반 분류 기술
- 최적 특징 조합 추천 기술
- 분류 시뮬레이션 기술
* 기술이전의 범위는 아래 기능을 포함하는 소프트웨어로 정함
-- 2차원 샘플 데이터 입력 기능
- 데이터 업로드 기능
- 데이터 파싱 기능
-- 2차원 샘플 데이터 필터링 기능
- 필터링할 수치 범위 지정 기능
- 필터링 결과 데이터 생성 기능
-- 단일 특징 기반 분류 기능
- KNN(K-nearest neighbors) 분석 기능
- SVM(Support vector machine) 분석 기능
- 개별 특징 별 분류 정확도 가시화 기능
-- 최적 특정 조합 추천 기술
- 전진소거(Forward elimination) 분석 기능
- 단계적소거(Stepwise elimination) 분석 기능
- 특징 조합 별 분류 정확도 가시화 기능
-- 분류 시뮬레이션 기능
- 테스트 데이터 입력 기능
- 분류 시뮬레이션 결과 가시화 기능
* 본 기술은 수치 형태의 2차원 샘플 데이터에 모두 활용 가능함
A. 분류기(classifier) 제작
시장 및 경제 상황 데이터를 이용한 비즈니스 의사결정지원 시스템
외형적 특징 기반의 생물 종 분류기
B. 데이터 기반 특이 마커 발굴
유전자 발현 데이터를 이용한 클래스 특이적 유전자 선택 (gene selection)
대사체 농도 데이터를 이용한 질병 바이오마커 발굴
C. 맞춤형 서비스 제공
스마트기기 사용 로그 데이터를 이용한 맞춤형 컨텐츠 제공
생체신호 데이터를 이용한 건강 위험 주의보 서비스