ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

엑소브레인 한국어 언어분석 학습데이터 v1.0

전수책임자
임수종
참여자
김현기, 박상규, 배경만, 배용진, 왕지현, 이충희, 이형직, 임수종, 임준호, 장명길, 최미란, 허정
기술이전수
2
이전연도
2017
협약과제
16MS3800, (엑소브레인-1세부) 휴먼 지식증강 서비스를 위한 지능진화형 Wise QA 플랫폼 기술 개발, 박상규
본 기술이전은 한국어 텍스트에 대한 개체명인식, 의미역인식, 무형대용어 복원 기술을 개발하기 위해서 필요한 학습데이터에 대한 것이다.
● 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 머신러닝과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있고, IBM의 ‘왓슨’이라는 질의응답 시스템이 제퍼디 퀴즈 쇼에서 인간 챔피언을 상대로 우승하는 사건도 있었다.
● 빅데이터 기반의 인공지능 기술에는 다양한 언어분석 기반기술이 필요하며, 언어분석 기반기술에는 개체명인식 기술, 의미역인식 기술, 무형대용어 복원 기술 등이 있다.
● 언어분석 기술은 단순히 사전에 기반해서 구현될 수도 있지만 도메인 변경 시에 추가적인 사전 구축 비용과 시간이 필요하다는 단점이 있어서 최근에는 딥러닝 등의 분류 알고리즘에 기반한 머신러닝 방법을 적용한 언어분석 기술이 주류를 이루고 있다.
● 머신러닝 기반 언어분석 기술을 개발하기 위해서는 수작업으로 정답이 태깅된 학습데이터가 반드시 필요하며, 고성능 언어분석 기술 개발을 위해서는 대량의 학습데이터가 필요하다. 이러한 필요성에 따라서 각 세부 언어분석기술 별로 정답이 태깅된 학습데이터를 대량으로 구축하였고, 업체에서 본 기술을 이전받음으로써 머신러닝 기반 언어분석 기술을 개발할 수 있도록 하고, 그로 인해서 정보검색, 질의응답 등의 인공지능 기술들을 활성화하고자 한다.
● 개체명 태깅말뭉치는 개체명 태그 세트 및 태깅 말뭉치 구축 표준(TTAK.KO-10.0852)에 기반해서 정답 개체명이 태깅된 말뭉치이며, 질의응답 등의 응용분야에서 사용될 수 있는 183개 세부분류 개체명 분류체계를 기반으로 전문가가 수작업으로 정답 개체명을 구축하였다. 태깅 대상 문서는 IT분야, 게임분야, 맛집분야, 여행분야, TV분야 등의 다양한 분야의 문서를 웹문서, 뉴스기사, 블로그문서의 다양한 매체로부터 수집해서 태깅말뭉치를 구축하였다.
● 의미역인식 태깅말뭉치는 영어권의 대표적인 의미역 말뭉치인 Propbank(Proposition Bank) 의미역 세트(set) 및 태깅 원칙에 기반하여 전문가가 수작업으로 구축한 의미역 태깅 말뭉치이다. 질문 문장 및 질문에 대한 정답이 포함된 정답 단락 문장들을 수집하여 태깅 말뭉치를 구축하였으며, 질의응답 시스템, 자연어처리 시스템 개발에 활용이 가능하다.
● 무형대용어 복원 태깅말뭉치는 한국어에서 일반적으로 생략하는 문장 성분 중에서 필수격에 해당하는 주어, 목적어가 생략될 경우 이를 복원하는 정보를 담은 태깅 말뭉치이다. 백과사전류의 문서, 질문 문장 및 질문에 대한 정답이 포함된 정답 단락 문장들을 수집하여 태깅 말뭉치를 구축하였으며, 질의응답 시스템, 자연어처리, 대화처리 시스템 개발에 활용이 가능하다.
* 엑소브레인 한국어 언어분석 학습데이터
- 한국어 세부분류 개체명 태깅말뭉치
- 한국어 의미역 태깅말뭉치
- 한국어 무형대용어 복원 태깅말뭉치
A. 세부기술명 : 한국어 개체명 태깅말뭉치
- 한국어 세부분류 개체명 태깅말뭉치 구축 매뉴얼
- 한국어 세부분류 개체명 태깅말뭉치 DB: 30,000개 문서
B. 세부기술명 : 한국어 의미역인식 태깅말뭉치
- 한국어 의미역인식 태깅말뭉치 구축 매뉴얼
- 한국어 의미역인식 태깅말뭉치 DB: 7,000개 문장
C. 세부기술명 : 한국어 무형대용어 복원 태깅말뭉치
- 한국어 무형대용어 복원 태깅말뭉치 구축 매뉴얼
- 한국어 무형대용어 복원 태깅말뭉치 DB: 1,700개 문서
● 한국어 세부분류 개체명인식 기술 개발에 활용
● 한국어 의미역인식 기술 개발에 활용
● 한국어 무형대용어 복원 기술 개발에 활용