ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

기계학습 기반의 텍스트 요약 기술

전수책임자
방준성
참여자
김용준, 박영수, 방준성
기술이전수
2
이전연도
2021
협약과제
21IR1800, 대화형 치안 지식 서비스 폴봇 개발, 방준성
머신러닝 기반으로 텍스트에서 핵심 문장/문구를 추출하거나 맥락에 따라 추상화된 문구를 생성하여 텍스트의 요약문 및 제목을 생성하는 것이 가능한 기술
(1) 목적
- “대화형 치안 지식서비스 폴봇 개발” 과제에서 정확한 민원 내용을 이해를 위한 대화 내용 분석 기술의 서브 기술로 개발된 텍스트 요약 기술에 대한 기술수요가 발생하여 기술이전을 진행함

(2) 필요성
- 텍스트 요약 기술은 긴 글의 내용을 파악하기 쉽게 요약하는 기술로, 상담관이 고객의 문의 내용을 확인할 때, 빠르게 문맥을 파악할 수 있도록 도움을 줄 수 있음
- 머신러닝(딥러닝) 기술을 활용한 추출/추상 텍스트 요약 기술
- 서비스 도메인에 특화된 언어모델 생성 기능 제공
- 데이터 학습용 텍스트 문서 전처리 도구 지원
가. 기술이전의 내용

(1) 기술명 : 기계학습 기반의 텍스트 요약 기술
- 텍스트 전처리 기능
? 학습에 사용한 텍스트에 대해 불필요한 단어, 특수기호 등을 다른 텍스트로 전환 또는 삭제하는 기능
? 불용어 삭제 기능
? 정규표현식에 따른 텍스트 전처리 기능

- 언어모델 생성 기능
? 도메인 특화된 텍스트에서 BPE(Byte Pair Encoding) 기반의 언어모델을 생성할 수 있는 기능
? BPE 기반의 언어모델 생성 및 vocab size 설정 기능

- 추상 텍스트 요약 모델 생성 기능 (트랜스포머 기반)
? 기본 트랜스포머 기반 추상 텍스트 요약 모델 생성 기능
? 트랜스포머 모델 학습에 필요한 주요 수치 설정 기능(모델 차원, 레이어 개수 등)
? 학습 환경에 맞춘 학습 파라미터 설정 기능 (배치 사이즈, 버퍼 사이즈, 에폭 횟수 등)

- 한국어 어순에 특화된 추상 텍스트 요약 모델 생성 기능 (트랜스포머 기반)
? 어순이 불명확한 한국어의 특징을 반영할 수 있는 개선된 트랜스포머 추상 텍스트 요약 모델 생성 기능
? 트랜스포머 모델 학습에 필요한 주요 수치 설정 기능(모델 차원, 레이어 개수 등)
? 한국어 어순을 반영한 인코더에 필요한 주요 수치 설정 기능 (인코더 개수 등)
? 학습 환경에 맞춘 학습 파라미터 설정 기능 (배치 사이즈, 버퍼 사이즈, 에폭 횟수 등)

- 학습된 모델 로딩 및 학습 결과 평가 기능
? 학습된 추상 텍스트 요약 모델의 가중치 로드 기능
? ROUGE 기반의 학습 결과 평가 수치화 기능

나. 기술이전의 범위

(1) 기술명 : 기계학습 기반의 텍스트 요약 기술
- 기술 설명 문서
- 개발 소스코드
(1) 적용분야
- (도메인 특화된 서비스 적용) 공공 언어모델이 아닌 특수한 언어를 사용하는 특정 도메인에서 직접 언어모델을 생성, 추상 텍스트 요약이 필요한 분야에 적용 가능
- (회의록 요약) 발화자의 내용을 전사한 텍스트에 대해 특정 길이로 텍스트 요약이 필요한 분야에 적용 가능
- (개인화된 서비스 적용) 통화내용 요약 등 개인정보로 인해 개인화 서비스가 필요한 분야에서 텍스트 요약 기능 적용 가능

(2) 기대효과
- (업무 생산성 증대) 텍스트에 대한 요약문을 생성하여 텍스트를 빠르게 찾을 수 있고, 텍스트의 중요한 내용을 확인함으로써 업무 편의성을 높이는 효과 기대
- (생활 편의성 향상) 개인화된 텍스트로부터 생성된 추상 텍스트 요약 기능 통해 보다 쉽고 빠르게 텍스트 정보에 접근할 수 있는 효과 기대