ETRI-Knowledge Sharing Plaform

KOREAN
연구보고서 검색
Type Funding Org. Research Org.
Year ~ Keyword

Detail

웹 인텔리전스를 위한 웹 폭증 데이터 분석형 리스닝 플랫폼용 소셜웹 이슈 탐지-모니터링 및 예측 원천 기술 개발 (최종)
Download 133 time
Participants
김수정, 윤여찬, 임수종, 이영직, 박상규, 배용진, 이충희, 허정, 오효정, 최윤재, 장명길, 김현기, 조요한, 이성주, 최미란, 박준
Published
201403
Type
Final Report
Keyword
소셜 빅데이터 분석, 감성분석, 리스닝 플랫폼
Funding Org.
미래창조과학부
Research Org.
한국전자통신연구원
Project Code
13VS1200, Development of Social Web Issue Detection-Monitoring & Prediction Technology for Big Data Analytic Listening Platform of Web Intelligence, Hyunki Kim
Abstract
핵심기술
o 소셜웹 콘텐츠 수집 및 비문/단문에 강건한 소셜미디어 자연어 처리 기술 개발
o 소셜웹 상의 복합이슈 탐지 및 모니터링 기술 개발
o 통계 및 기계학습을 적용한 하이브리드 이슈 예측분석 핵심기술 개발
o 소셜웹 대상 이슈 질의응답 기술 개발
o 도메인 적응형 의사결정 지원 이슈 리스닝 플랫폼 핵심기술개발

최종목표
o 웹 폭증 데이터 분석형 리스닝 플랫폼을 위한 소셜웹 콘텐츠 고정밀 의미분석 기반 이슈 탐지-모니터링, 이슈 예측분석, 이슈 질의응답 기술 개발
- 소셜웹 콘텐츠 의미분석 정확도: 85%
- 소셜웹 대상 실시간 이슈 탐지-모니터링 정확도: 90%
- 소셜웹 대상 이슈 예측분석 정확도: 85%
- 소셜웹 대상 이슈 질의응답 정확도: 85%

개발내용 및 결과
o 소셜 빅데이터 수집 및 맵리듀스 기반 병렬처리 기술 개발
- 클라우드 기반 대용량 소셜웹 콘텐츠 수집 기술 개발
- 클라우드 기반 대용량 구조적/비구조적 소셜웹 콘텐츠 저장기술 개발
- 대용량 텍스트 빅데이타 처리를 위한 Hadoop/HBase 기반 고수준 언어 분석 병렬처리 플랫폼 구축
- 소셜웹 대상 중복/스팸 콘텐츠 필터링 기술 개발

o 소셜 미디어 자연어 처리 기술 개발
- 맞춤법/띄어쓰기 오류가 많은 트위터 콘텐츠에 대한 문장전처리(띄어쓰기, 문장경계인식 등) 기술 개발
- 소셜웹 대상 비문/단문에 강건한 형태소 분석 성능 개선
- 최신 기계학습(Structural SVM) 기반 세계 최다 180개 개체명 분석 기술 성능 개선
- 소셜웹 콘텐츠 구문구조 의미관계 분석을 위한 의존구문분석 기술 개발: Transition-based (deterministic) parsing 방식 및 hash kernel을 사용, 분석 속도 개선 (기존 O(n^3)에서 O(n): 기존 대비 약 8배 속도 향상)
- 뉴스, 블로그, 트워터 도메인 특화 자연어처리 기술 개발
※ LAS(Labeled Attachment Score): 의존 구문 관계의 head와 label을 올바르게 부착한 단어의 비율
- 세계 최다 20개 세부분류 감성분류 체계 정립 및 감성분석기술 개발: TTA “소셜웹을 위한 감성 온톨로지” 국내표준 제정(2012.12) 및 개정(2013.12)
- 개체 속성별 고정밀 감성분석 기술 및 감성의 긍정/부정원인분석 기술 개발

o 소셜웹 이슈 탐지-모니터링 기술 개발
- 소셜웹 이슈의 신규성, 중요도, 파급력, 신뢰도, 관심도를 고려한 이슈 탐지 기술 개발
- 이슈 간 연관성 자질(경쟁관계, 연관관계)을 고려한 복합이슈연계성 모델링 완료
- 이슈 키워드 빈도, 중요도, 감성, 연관어, 영향력자 추이에 따른 복합 이슈 탐지-모니터링 기술 개발

o 소셜웹 이슈 예측분석 기술 개발
- 소셜 빅데이터 분석 기반 주요 경제지표 이슈 유형별(실업율,소비자 물가지수, 소비자 심리지수)에 대한 예측 분석 모델구축
- 소셜웹 분석 정보를 이용한 업율, 소비자 물가지수, 소비자심리지수 상승/하락의 선행지표/동행지표/후행지표 분석
- 최근 2년(2011.9 ~ 2013.8) 국내 뉴스/블로그/트위터 정보를 이용한 실업율, 소비자 물가지수, 소비자 심리지수 예측분석기술 개발
- 실업율, 소비자 물가지수, 소비자 심리지수 지표와 연관된 통계데이터, 소셜 빅데이터 키워드 빈도, 긍정/부정 감성 빈도간의 하이브리드 교차상관분석(Cross Correlation Analysis)모델 수립
※ MAPE(Mean Absolute Percentage Error): 추정된 모형의 예측치와 실재치의 평균 절대적 백분율 오차

o 소셜웹 이슈 질의응답 기술 개발 완료
- 소셜 빅데이터 대상 다양한 분석결과의 상관성 분석을 통한 스마트 리포트(Insight) 자동생성 기술 개발
- 질문 의도 및 이슈 유형 분석 기술 개발
- 질문에 대한 객체 인식 기술 개발
- 단일 질문, 복합질문에 대한 질문 의도 분석 기술 개발
- 질문 유형에 따른 분석 전략 수립
- 이슈 정답 추출 및 순위화 기술: 분석 기간내의 이슈 기간순위화 기술 개발
- 키워드 빈도 분석, 감성시계열 분석, 세부감성 분석, 속성감성 분석, 감성원인 분석, 이벤트 분석, 연관어 분석, 경쟁어분석, 영향력자 분석, 연관이슈 분석 결과의 상관성 분석 기반 정답 추출 및 통합 기술 개발
- 자연어 요약 정답지식 자동생성 프레임워크 개발

o 도메인 적응형 이슈 리스닝 플랫폼 기술 개발 완료
- 기업/공공의 의사결정 지원 이슈 리스닝 플랫폼 기술 개발
- 이종 소셜 데이터 포맷 변환 및 정규화 기술개발
- 기업/공공분야 리스닝 플랫폼 기술 수요 조사: 트위터 이용자 800명 온라인 정량조사 및 기업/공공기관 총 15개사 19명 대상 3회 정성조사 기반 기술 수요 도출
- 다각적 요약 및 시각화 기반 심층 분석정보(Insight) 시각화 기술 개발: 이슈 브리핑, 이슈 모니터링, 리스크 모니터링, 소셜지수 예측분석, 소셜웹 이슈 질의응답 통합 심층분석 정보시각화 기술 개발
- 도메인 적응형 의사결정 지원 이슈 리스닝 플랫폼 시스템 시범서비스 3회 실시

기술개발 배경
o 데이터는 21세기의 원유이나 현재 창출되는 빅데이터의 5%만 구조화되어 활용되고 있어, 소셜 빅데이터로부터 경제적 가치를 극대화 할 수 있는 자연어 처리 기반 빅데이터 분석 기술개발 필요
o Nature, Gartner, IDC, IBM 등은 빅 데이터를 심층분석하여 지식을 서비스하는 기업이 기존 산업의 혁신을 주도하여 현재의 구글처럼 성장 예상
o 온라인에서 정치/경제/사회 현상에 대한 토론이 국가적 변화동인으로 부상함에 따른 소셜 빅데이터 기술 확보를 통한 창조경제 기반 조성 필요

핵심개발 기술의 의의
o 소셜 빅데이터 대상 키워드 분석 위주 빅데이터 분석 기술의 한계 극복을 위한 형태소분석 및 개체명 인식 기술 성능 개선 및 의존구문분석 자연어 처리 기술 신규 개발
- 텍스트 분석, 빅데이터 마이닝, 정보추출 등의 핵심원천 기술로 활용 가능
o 수작업 구축 사전 및 패턴을 활용한 단순 이진 분류의 감성분석을 탈피한 세계 최다 20개 세부분류 감성분석(준지도학습) 및 감성의 원인분석 마이닝 기술 신규 개발
- 빅데이터 감성분석 분류 체계의 국내 표준화를 통한 국내 감성분석 토대 구축
o 통계정보 위주 예측분석에서 소셜 빅데이터 분석 정보를 연계한 주요 경제지표(실업률, 소비자 물가지수, 소비자 심리지수)에 대한 예측분석 기술 신규 개발
- 빅데이터 분석정보를 공식통계(사회/경제 지표) 등과 결합하여 보다 신속하게 각종 지표를 예측하는 데 활용 가능
o 사용자 질의에 대한 다양한 빅데이터 분석결과의 상관성 분석을 통한 스마트 리포트(Insight) 자동생성하는 소셜웹 이슈질의응답 기술 개발
- 빅데이터 분석의 증거(Evidence) 기반 의사결정 지원 시스템으로 활용 가능

적용 분야
o 소셜 빅데이터 대상 웹 동향분석 및 예측분석, 웹 오피니언검색, 온라인 여론 분석, 온라인 광고/홍보/마케팅, 차세대리스닝 플랫폼 등 웹 인텔리전스 및 비즈니스 인텔리전스의 다양한 지능형 서비스 분야에 적용 및 차별화된 시장 창출가능
o 웹 분야: 웹 트렌드 분석 및 예측분석 시스템, 웹 오피니언분석 시스템
o 온라인 리서치 분야: 온라인 동향분석 및 예측분석 시스템,온라인 여론 조사 시스템, 온라인 광고효과 분석, 광고 전략수립 시스템
o 기업 분야: 브랜드/제품/서비스 리스닝(모니터링, 의사결정지원) 플랫폼
o 공공 분야: 인물/기관/정책 등의 정치·사회적 여론 탐지 및 모니터링 시스템