ETRI-Knowledge Sharing Plaform

ENGLISH

성과물

논문 검색
구분 SCI
연도 ~ 키워드

상세정보

학술지 질의 응답에서 위키피디아 인포박스에서의 답변 추출을 위한 페이지 제목과 인포박스 속성 인식
Cited - time in scopus Download 3 time Share share facebook twitter linkedin kakaostory
저자
허정, 류법모, 김현기, 박상규, 옥철영
발행일
201309
출처
정보과학회논문지 : 소프트웨어 및 응용, v.40 no.9, pp.544-557
ISSN
1229-6848
출판사
한국정보과학회 (KIISE)
협약과제
13VS1200, 웹 인텔리전스를 위한 웹 폭증 데이터 분석형 리스닝 플랫폼용 소셜웹 이슈 탐지-모니터링 및 예측 원천 기술 개발, 김현기
초록
본 논문에서는 위키피디아 인포박스 질의응답의 질문분석을 위한 페이지 제목 인식과 인포박스 속성제약 방법을 제안한다. 위키피디아는 반구조화된 지식정보로서, 페이지 제목, 본문, 인포박스 등의 정보가 포함되어 있다. 특히 인포박스는 페이지 제목과 관련된 중요정보를 테이블형식의 구조화된 방식으로 기술하고 있다. 따라서, 위키피디아 인포박스 질의응답을 위해 질문에 포함된 위키피디아 페이지 제목과 인포박스 속성정보를 인식하는 것이 매우 중요하다. 본 논문은 페이지 제목 인식과 인포박스 속성정보 인식을 위해 명사기준 가변길이 슬라이딩 윈도우 방법과 어휘-의미 패턴을 이용한 방법을 제안한다. 그리고, 페이지 제목 인식 향상을 위한 음절기준 가변길이 슬라이딩 윈도우 방법을 제안한다. 인포박스 속성 제약을 위해 정답유형에 기반한 제약방법을 제안한다. 평가데이터로 위키피디아 인포박스를 대상으로 한 질문 398개를 수작업으로 구축하였다. 실험결과, 질문 내 페이지 제목과 인포박스 속성 쌍의 인식 정밀도가 60.05%였다. 이는 위키피디아 인포박스를 대상으로 한 질문의 약 60%는 페이지 또는 단락검색과 정답추출 없이도 정답추출이 가능함을 의미한다.