바이오 텍스트 마이닝 시스템 (Bio Text Mining System)은 바이오 및 의료 문헌(논문)으로부터 개체명을 인식하고 인식된 개체명들 간의 관계를 추출하여 바이오 개체간의 연관성을 분석하는 기술임
- 문헌으로부터 유전자/단백질 등 개체명을 자동으로 인식하는 기술
- 바이오 개체간 관계 추출 기술
- 텍스트 마이닝 기법을 이용하여 바이오 개체간의 연관성을 분석하는 시스템
많은 생물학자 및 생물정보학자들은 연구 과정에서 필요한 정보를 기연구되어 발행된 문헌(literature)으로부터 얻고자 하는 노력을 기울이고 있음
Pubmed는 바이오정보기술을 담고 있는 공개 문헌저장소로, 2천만편이 넘는 논문을 포함하고 있고 급속히 생물학 관련 문헌 아카이브 Pubmed에는 매년 급속히 증가하고 있으며 사람이 그 내용을 일일이 파악하기 어려움
발표된 의생물학 논문에서 정보의 홍수(information deluge)로 인하여 전통적인 정보 검색/문헌 마이닝 기술은 이러한 문제를 해결하는 좋은 역할을 해 왔으나, 빅데이터 시대의 도래로 정제된 정보를 제공하는 데에는 여전히 부족함.
검색된 결과조차도 사람이 일일이 확인하기 어려운 상황에서, 모든 문헌을 읽고 유전자-질병 패턴을 찾기란 더욱 어려운 상황임
빅데이터의 텍스트 마이닝과 자연어 처리기반의 지식 베이스 구축은 일반적인 자연어 처리 문제를 바이오텍스트 마이닝에 결합하여 바이오 의료 지식의 지식 체계를 구축함으로써 새로운 질병 발현 메커니즘을 찾아내거나 새로운 약물 후보 물질을 탐색하는 데 핵심적인 기술이 될 것으로 기대되고 있음
최근, 바이오 문헌의 초록이 아닌 full text를 대상으로 하는 텍스트 마이닝이 점점 더 중요해지고 있으며, full text에는 초록에 없는 많은 양의 정보가 있어 주요 결론이 초록에 표시되더라도 전문으로 나타나는지 확인하거나 확인하는 데 필요한 정보가 됨
문헌 집중수집 기술개발을 통하여 빅데이터 사회에서 필요한 주제의 정보들만을 웹이나 문헌으로부터 효과적으로 수집할 수 있어, 일반적인 분야별 검색엔진의 데이터 수집기로 응용 가능하며, 활용범위로는 생물 및 의학 분야에서 미래예측을 위한 현재의 트렌드 분석 솔루션으로 활용 가능함
- 문헌으로부터 유전자/단백질 등 개체명을 자동으로 인식하는 기술
- 바이오 개체간 관계 추출 기술
- 텍스트 마이닝 기법을 이용하여 바이오 개체간의 연관성을 분석하는 시스템
바이오 및 의료 문헌(논문)으로부터 개체명을 인식하고 인식된 개체명들 간의 관계를 추출하는 시스템
- 문헌검색모듈: PubMed로부터 문헌을 검색하고 저장하는 모듈
- 개체명인식모듈: 저장된 문헌을 대상으로 개체명을 인식하는 모듈
- 관계인식모듈: 인식된 개체명간의 관계를 인식하는 모듈
- 가시화모듈: 개체명 인식, 관계 인식 결과를 가시화하는 모듈
바이오 및 의료 문헌(논문)으로부터 개체명을 인식하고 인식된 개체명들 간의 관계를 추출하는 시스템
- 문헌검색모듈: PubMed로부터 문헌을 검색하고 저장하는 모듈
- 개체명인식모듈: 저장된 문헌을 대상으로 개체명을 인식하는 모듈
- 관계인식모듈: 인식된 개체명간의 관계를 인식하는 모듈
- 가시화모듈: 개체명 인식, 관계 인식 결과를 가시화하는 모듈
의생물학 문헌자료로부터의 질병 및 유전자 개체명 인식 및 추출 기술 개발 및 연구를 통하여 질병과 연관된 유전자를 분석하기 위한 기반 지식을 확보하고, 개별적으로 유전자 네트워크 및 질병 네트워크를 구성할 수 있는 기술로 활용
의생물학연구자들이 대량으로 쏟아지는 문헌정보로 말미암아 새로운 출간된 모든 문헌으로부터 새로운 사실들을 받아들이고 자신의 분야에 적용하는 일이 큰 장애로 작용하는 것을 감안할 때, 자동화된 의생물학 문헌 마이닝 시스템을 통하여 빠른 지식 추출 및 활용을 도와 줄 수 있음
대용량 문헌 분석을 통하여 관심있는 연구 분야의 최신 연구 트렌드를 알 수 있으며 이를 통하여 새롭게 도전하는 연구 분야를 확인하는 작업에 도움을 줄 수 있음