ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Tree-tagged Corpus DB for Korean Dialogue

Manager
Kim Chang Hyun
Participants
Kwon Oh Woog, Kangil Kim, Kim Young Kil, Jin Yun, Kim Chang Hyun, Seung-Hoon Na, Roh Yoon-Hyung, Park Sang Kyu, Park Eun Jin, Young-Ae Seo, Jong Hun Shin, Lee Ki Young, Lee Yunkeun, Sang Keun Jung, Choi Sung Kwon, Huang Jinxia
Transaction Count
1
Year
2015
Project Code
14MS5500, Development of Original Software Technology for Automatic Speech Translation with Performance 90% for Tour/International Event focused on Multilingual, Kim Young Kil
13VS3500, Development of Original Software Technology for Automatic Speech Translation with Performance 90% for Tour/International Event focused on Multilingual, Kim Young Kil
12VS1500, Development of Original Software Technology for Automatic Speech Translation with Performance 90% for Tour/International Event focused on Multilingual, Kim Young Kil
한국어 구어체 형태소/구문구조 태그드 코퍼스
한국어 구어체 구문구조 부착 말뭉치는 한국어 구어체 문장에 대해 형태소 품사 및 구문구조, 구문관계를 부착한 말뭉치이다. 구문부착 말뭉치는 언어현상의 통계적 정보 추출에 유용할 뿐 아니라, 최근 실용화 수준까지 가능할 만큼 기술이 발전한 기계학습 기반의 분석 기술 개발에 핵심 역할을 한다. 즉, 기계학습 기반의 구문분석 기술을 개발하기 위해서는 정확한 구문정보가 부착된 말뭉치가 반드시 필요하다.

ETRI에서는 기계학습 기반의 구어체 구문분석 엔진 개발을 위해서 구어체 한국어 문장을 대상으로 구문구조 부착 말뭉치를 구축하였다. 기존에 기 구축된 구문구조 부착 말뭉치는 문어체 위주의 말뭉치이며, 이를 구어체 구문분석 엔진 개발에 이용하기에는 적절하지 않아 구어체 구문구조 부착 말뭉치를 구축하였으며, 이를 통해 구어체 분석 및 구어체 자동번역 기술 개발을 활성화하고자 한다.
- 한국어 구어체 형태소/구문분석 기술 개발에 특화된 구어체 구문구조 부착 말뭉치
한국어 구어체 문장에 대해, 구문 단위들 간의 의존성 및 의존 관계를 부착한 코퍼스
한국어 구어체 형태소/구문부착 말뭉치 60,000 문장
- 한국어 구어체 구문 분석기 개발에 활용

- 한국어 구어체 자동번역 기술 개발에 활용