본 기술은 한국어 구어체 텍스트에 대해서 형태소분석, 개체명인식을 수행하고, 언어분석된 결과를 전달해 주는 기술에 대한 것이다.
● 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 머신러닝과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있고, IBM의 ‘왓슨’이라는 질의응답 시스템이 제퍼디 퀴즈 쇼에서 인간 챔피언을 상대로 우승하는 사건도 있었다.
● 텍스트로 이루어진 빅데이터를 처리하기 위해서는 다양한 언어분석 기반기술이 필요하다. 대표적인 언어분석 기술로 형태소분석 기술과 개체명인식 기술이 있다.
● 형태소분석 기술은 의미를 가진 최소 단위인 명사, 동사, 형용사, 부사, 조사, 어미 등의 형태소를 분석하는 기술이다.
● 개체명은 인명, 지명, 기관명 등과 같은 고유 명사를 말하며, 필요에 따라서는 지위, 관계 등의 일반 명사 등도 대상이 된다. 개체명 인식 기술은 텍스트에 출현한 개체명을 자동으로 인식하는 기술이다.
● 예전에는 문어체로 이루어진 텍스트 데이터를 처리하는 요구가 많이 있었지만, 최근에는 음성인식과 같은 다양한 인공지능 기술의 발전으로 구어체 텍스트 데이터에 대한 요구사항이 많아지고 있다. 구어체 텍스트 데이터 분석을 위해서는 축약어와 같은 구어체 텍스트 데이터에서 많이 출현하는 특성을 고려한 언어분석 기술이 필요하다.
● 기존의 문어체 언어분석 기술을 구어체 텍스트 분석에 적합한 형태소 분석 기술과 개체명 인식 기술을 개발하였고, 구어체 텍스트 데이터를 분석하여 활용하고 싶은 곳에서 효과적으로 사용할 수 있도록 구어체 언어분석 기술을 기술이전하고자 한다.
* 구어체 형태소분석 기술은 기계학습 방법에 기반해서 형태소를 자동으로 분석해 주며, 사용되는 태그셋은 45개 세종 태그셋을 기반으로 한다. 기계학습 방법론으로는 sequence labeling 기반 음절 단위 품사 태깅 방법을 사용한다. 분류 알고리즘으로는 Structural SVMs을 사용하고, 전처리/후처리 단계에 대용량 형태소 사전을 결합하였으며, Smith-Waterman 알로리즘을 적용하여 구어체 텍스트에 적합한 원형복원을 진행함으로써 성능을 개선하였다.
* 구어체 개체명인식 기술은 sequence labeling 방법론에 기반해서 개체명 경계 및 대분류를 인식하고, 다음 단계로 146개 세부분류를 수행하는 2단계 인식 방법론을 적용하였다. 분류 알고리즘으로는 Structural SVMs을 사용하고, 전처리/후처리 단계에 대용량 개체명 사전과 패턴 사전을 결합해서 성능을 개선하였으며, 구어체가 가지는 특징인 축약어에 대한 처리를 효과적으로 할 수 있게 학습 및 전/후처리를 진행하였다.
* 엑소브레인 한국어 구어체 형태소 분석 및 개체명 인식 기술
-한국어 구어체 형태소분석 기술
-한국어 구어체 개체명인식 기술
*한국어 구어체 형태소분석 엔진 및 리소스
*한국어 구어체 개체명인식 엔진 및 리소스
● 한국어 정보추출에 활용
● 한국어 문장의 의미적 관계 분석에 활용
● 정보검색, 질의응답을 위한 심층언어이해에 활용
● 텍스트 빅데이터 분석 및 마이닝 기술에 활용