ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

엑소브레인 한국어 언어분석 툴킷 V4.0

전수책임자
배경만
참여자
김민호, 김영길, 김현, 김현기, 류지희, 박상규, 배경만, 배용진, 이형직, 임수종, 임준호, 장명길, 허정
기술이전수
8
이전연도
2020
협약과제
18HS2900, (엑소브레인-1세부) 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발, 김현기
19HS3200, (엑소브레인-1세부) 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발, 김현기
본 기술은 한국어 문어체 텍스트에 대해서 형태소분석, 개체명인식, 엔터티정규화, 구문분석, 동음이의어/다의어 분석, 의미역 인식의 언어 분석을 수행하고, 언어분석된 결과를 전달해 주는 기술에 대한 것이다.
● 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 머신러닝과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있고, IBM의 ‘왓슨’이라는 질의응답 시스템이 제퍼디 퀴즈 쇼에서 인간 챔피언을 상대로 우승하는 사건도 있었다.

● 빅데이터 기반의 인공지능 기술에는 다양한 언어분석 기반기술이 필요하며, 언어분석 기반기술에는 형태소분석 기술, 개체명인식 기술, 엔터티정규화, 구문분석 기술, 동음이의어 및 다의어 분석 기술, 의미역인식 기술이 있다.

● 형태소분석 기술은 의미를 가진 최소 단위인 명사, 동사, 형용사, 부사, 조사, 어미 등의 형태소를 분석하는 기술이다.

● 개체명은 인명, 지명, 기관명 등과 같은 고유 명사를 말하며, 필요에 따라서는 지위, 관계 등의 일반 명사 등도 대상이 된다. 개체명 인식 기술은 텍스트에 출현한 개체명을 자동으로 인식하는 기술이다.

● 엔터티정규화는 위키백과 기반으로 주요한 엔터티에 대한 모호성을 해소하여 위키백과 타이틀과 연결하는 기술이다.

● 구문분석 기술은 자연어 문장의 구조를 분석하는 기술로, 문장의 각 어절에 대해서 지배소 어절을 인식하고, 주격, 목적격과 같은 세부 의존관계 유형을 인식하는 기술이다.

● 동음이의어 및 다의어 분석은 형태는 동일하지만 의미가 다른 단어에 대해서 의미를 분석해 주는 기술이다. 예를 들면, ‘배’의 의미에는 신체부위, 운송수단, 열매 등의 의미가 있는데, 동음이의어 및 다의어 분석 기술은 문장에 나타난 ‘배’의 의미를 주변 문맥을 고려해서 가장 적합한 의미를 찾아주는 기술이다.

● 의미역인식 기술은 자연어 문장에서 who does what to whom을 인식하는 기술로, 문장 내에서 predicate(does)을 중심으로 하여 predicate의 의미적인 역할을 하는 문장의 부분을 인식하는 것이다.
* 형태소분석 기술은 기계학습 방법에 기반해서 형태소를 자동으로 분석해 주며, 사용되는 태그셋은 45개 세종 태그셋을 기반으로 한다. 기계학습 방법론으로는 sequence labeling 기반 음절 단위 품사 태깅 방법을 사용한다. 분류 알고리즘으로는 Structural SVMs을 사용하고, 전처리/후처리 단계에 대용량 형태소 사전을 결합해서 성능을 개선하였다.
* 개체명인식 기술은 sequence labeling 방법론에 기반해서 개체명 경계 및 대분류를 인식하고, 다음 단계로 146개 세부분류를 수행하는 2단계 인식 방법론을 적용하였다. 분류 알고리즘으로는 Structural SVMs을 사용하고, 전처리/후처리 단계에 대용량 개체명 사전과 패턴 사전을 결합해서 성능을 개선하였다.
* 엔터티정규화 기술은 위키백과의 다양한 구조적 정보를 바탕으로 다양한 엔터티 이형태를 대상으로 정규화하고, 위키백과 타이틀과 연결하고, 문장의 토픽을 파악하여 문장의 의미적 해석이 가능하도록 한다.
* 구문분석 기술은 세계적으로 가장 많이 연구되고 있는 의존구조에 기반하여 문장의 구조를 분석한다. 한국어의 지배소 후위 특징을 반영한 후위 트랜지션 기반 의존 구문분석 알고리즘을 적용하였고, 세부적으로 어절 간 지배소-피지배소 분석을 위하여 의미 자질과 문맥 자질을 적용하여 성능을 개선하였다.
* 동음이의어 및 다의어 분석 기술은 고빈도 의미 기반 분석 알고리즘, 공기정보 기반 분석 알고리즘 등의 분류 방법을 이용하여 문맥에 가장 적합한 의미를 분석한다.
* 의미역인식 기술은 영어권을 중심으로 널리 쓰이는 Propbank 의미역 체계를 도입하였고, 용언(predicate)과 의미역 간의 관계만을 보던 기존 기술과 달리sequence labeling 기반 기계학습 기술을 적용하여 전체적인 의미 문맥을 반영할 수 있도록 하여 성능을 개선하였다. 또한, Korean Propbank에서 제공하는 frame 등 언어자원을 규칙처럼 이용하여 기계학습 기술의 단점을 보완하였다.
* 엑소브레인 한국어 언어분석 기술
- 한국어 형태소분석 기술
- 한국어 개체명인식 기술
- 한국어 엔터티정규화 기술
- 한국어 구문분석 기술
- 한국어 동음이의어 및 다의어 분석 기술
- 한국어 의미역인식 기술
* 한국어 형태소분석 엔진, 리소스
* 한국어 개체명인식 엔진, 리소스
* 한국어 엔터티정규화 엔진, 리소스
* 한국어 구문분석 엔진, 리소스
* 한국어 동음이의어 및 다의어 분석 엔진, 리소스
* 한국어 의미역인식 엔진, 리소스
* 언어분석 기술 사용 매뉴얼, 자료구조 매뉴얼
● 한국어 정보추출에 활용

● 한국어 문장의 의미적 관계 분석에 활용

● 정보검색, 질의응답을 위한 심층언어이해에 활용

● 텍스트 빅데이터 분석 및 마이닝 기술에 활용