ETRI-Knowledge Sharing Plaform

KOREAN
연구보고서 검색
Type Funding Org. Research Org.
Year ~ Keyword

Detail

유전자-주석-질병 간 연관성 분석을 위한 문헌 데이터 마이닝 기술 개발 (4차년도)
Download 32 time
Participants
박수준
Published
201803
Type
Annual Report
Keyword
바이오 문헌 수집, 하이브리드 정보 추출, 빅데이터 분석, 텍스트 마이닝
KSP Keywords
Data mining(DM), Disease association, Literature data, Literature data mining, association analysis, data mining techniques, mining techniques
Funding Org.
과학기술정보통신부
Research Org.
한국전자통신연구원
Project Code
17JS1500, Development of literature data mining techniques for gene-annotation-disease association analysis, Park Soo Jun
Abstract
□ 연구의 목적 및 내용
빅데이터 분산처리 기법을 이용하여 공개 문헌 아카이브(Pubmed 등)로부터 대용량 논문 등 문헌데이터를 집중수집하고, 정보추출기법을 이용하여 문헌으로 부터 유전자 및 질병 용어를 자동 추출하며, 마이닝 기법(association rule mining)을 이용하여 특정 유전자 관련 유전자-주석–질병간의 연관성을 분석/추출하는 기술 및 시스템 개발
○ 빅데이터 분산처리 기법을 이용한 문헌 또는 서지 데이터 집중수집 및 전처리 기술 개발
- Pubmed 등 공개문헌 아카이브로부터 질병, 유전자와 관련된 다양한 문헌 또는 서지정보의 온톨로지 기반 집중수집 기술 개발
- 빅데이터 분산처리 기법인 hadoop을 이용하여 대용량 텍스트데이터 전처리 기술 개발
○ 정보추출기법을 이용한 유전자, 질병 용어 자동추출 기술
- 문헌정보로부터 유전자 및 질병 용어 자동 추출 기술 개발
○ 데이터 마이닝 기법을 이용한 유전자-주석-질병 연관성 분석/추출 기술
- 데이터 마이닝 기법을 이용하여 유전자-유전자, 유전자-질병, 질병-질병 간의 연관성 추출

□ 연구개발성과
○ 대용량 바이오 문헌 수집 및 검색 기술 개발: 사용자가 원하는 키워드 기반의 관련 문헌을 자동으로 검색하고 수집하는 시스템 개발 완료
○ 바이오 개체명 인식 기술 개발: 질병명, 유전자명 태깅 기술 개발 완료
○ 유전자-주석-질병 연관성 추출 텍스트마이닝 기술 개발 완료
○ 유전자-주석-질병 연관성 예측 시스템 개발 완료

□ 연구개발성과의 활용계획(기대효과)
○ 문헌 집중수집 기술 개발을 통하여 빅데이터 사회에서 필요한 주제의 정보들만을 웹이나 문헌으로부터 효과적으로 수집이 가능하여, 일반적인 분야별 검색엔진의 데이터 수집기로 응용가능
○ 생명과학연구분야, 생명과학제품 마케팅분야, 및 문서특성에 따라 특허분석을 위한 수집/검색 솔루션, 웹검색을 위한 수집 솔루션등에 활용가능
○ 하이브리드 정보추출 기술을 활용하여 정확도를 향상한 개체명인식이 가능하며, 의미기반 정보검색 및 온톨로지 구축에 활용
○ 데이터 마이닝 기법을 활용하여 다른 네트워크들 간의 연결 알고리즘을 통한 유망기술예측, 연관검색어 추출 등 지식을 구조화하는 지식지도 구축에 활용가능

(출처 : 요약문 4p)