본 이전기술은 한국어 주제 유도형 자유 대화 학습 기술에 관한 것으로, 한국어를 배우는 학습자가 실제 생활에서 접하는 다양한 상황에서 AI와 자연스럽게 대화하며 말하기 능력을 훈련할 수 있도록 지원하는 교육용 대화 기술이다.
- 한국어 학습자가 중·고급 수준에 진입하면 말하기 연습에 대한 수요가 증가한다. 그러나 아직 표현력과 유창성이 충분하지 않아 원어민과 자연스럽게 교류하기에는 부담을 느끼는 경우가 많으며, 이에 따라 특정 주제를 중심으로 자유롭게 대화하며 연습하고자 하는 욕구가 높아진다. 그러나 일반 LLM은 학습자가 주도적으로 대화를 이어가야 하여 학습자의 지적 피로도가 높다.
- 본 기술은 중·고급 한국어 학습자를 대상으로, 학습 주제와 내용을 시스템 주도로 지속적으로 이끌어 가면서도 자유로운 대화를 허용하는 교육용 대화 기술을 제공한다.
- 특징: 본 기술은 특화 SLM인 주제 유도형 대화 모델을 활용하는 라우팅 경로와, 특화 SLM이 충분히 학습하지 못한 사용자 발화에 대해 외부 LLM API를 활용하는 라우팅 경로를 결합한다. 이를 통해 사업화 단계에서 안정적인 교육용 대화 서비스를 제공한다.
- 장점: 본 기술은 학습 시나리오(주제 제목과 시나리오별 발화 목록 및 단계 정의)에 기반하여, 외국인 학습자가 자유 발화로 대화에 참여하더라도 시스템은 학습 주제를 끝까지 유도하면서 자연스러운 한국어 응답을 생성하는 교육용 대화 기술이다.
- "한국어 주제 유도형 자유 대화 학습 기술"은 한국어 학습 시나리오에 기반하여 외국인 학습자와 주제 유도형 자유 대화를 수행하는 대화 기술이다.
- 본 기술에는 대화 모델 학습 및 생성 기능, 도메인 분류 기능, 하이브리드 라우팅 기능, 대화 단계 인식 기능이 포함된다.
(1) 주제 유도형 대화 생성 엔진: 텍스트로 된 학습 시나리오와 시스템-학습자 대화 이력을 입력으로 받아, 학습자의 자유 발화에 대해 문맥에 맞는 한국어 응답을 생성·출력하여야 한다. 반복 질문 억제와 오류 대화 억제를 위한 후편집 기능도 통합되어 있다. 대화 모델 학습(대화 학습)과 학습한 대화 모델을 실행하여 대화를 생성(대화 생성)하기 위한 소스코드가 포함된다.
(2) 도메인 분류 모듈: 사용자 입력의 도메인 일치 여부(in-domain / out-of-domain / init-turn)를 자동 판별한다. 입력된 사용자 발화가 지정된 학습 주제의 시나리오에 정의되어 있는 여부와, 학습한 대화 모델이 해당 주제와 관련된 유사 발화를 학습 했는지 여부를 판별하는 엔진이다. 사용자 발화는 in-domain과 out-of-domain으로 구분하고, 사용자 입력 없이 시스템 발화가 필요한 경우 init-turn으로 간주한다. 학습데이터에 대한 벡터 인덱싱 및 도메인 분류를 위한 소스코드가 포함된다.
(3) 하이브리드 라우팅 모듈: 입력 발화의 도메인 분류 결과에 따라 로컬 모델(대화 모델, SLM) / 외부 LLM / 사전정의 응답으로 우회 처리하는 기능을 제공한다. 하이브리드를 사용하기로 설정하고, 도메인 분류 결과 out-of-domain인 경우, 외부 LLM으로 라우팅하고, in-domain 인 경우 로컬 모델로 라우팅하며, init-turn인 경우 로컬 모델 또는 사전정의 응답으로 라우팅한다. 하이브리드 라우팅 소스코드가 포함된다.
(4) 대화 단계 인식 모듈: 하나의 시나리오 내에서 의미적으로 구분되는 대화의 진행 단계를 자동으로 인식하는 기능을 제공한다. 시스템은 시스템-학습자 대화 이력에 대하여 학습 시나리오에서 미리 정의한 단계를 참조하여 대화 내 현재 단계와 필요시 다음 단계 전환을 자동 탐지하는 소스코드가 제공된다.
* 이외, 사업화 가능성 확인을 위한 ETRI 구축 소규모 한국어 주제 유도형 자유 대화 코퍼스로 학습한 대화 모델 및 도메인 분류를 위한 인덱를 제공한다. (기술이전 제공 모델·인덱스는 사업화 가능성 확인 목적으로만 그 사용을 제한한다.)
- 본 기술은 기존 시나리오 기반 대화 학습 기술과 달리, 정해진 학습 시나리오를 유지하면서도 학습자의 자유 발화를 자연스럽게 수용할 수 있다는 점에서 차별성을 갖는다. 특화 SLM 기반 주제 유도형 대화 처리와 외부 LLM API 기반 응답 처리를 결합하여, 시나리오 범위를 벗어난 발화에 대해서도 대화 단절 없이 자연스러운 응답을 제공할 수 있다. 또한 학습 주제와 단계 전환을 시스템 내부에서 관리함으로써, 학습자는 자유롭게 대화하는 경험을 유지하면서도 교육적으로 설계된 학습 목표와 핵심 표현을 자연스럽게 연습할 수 있다.
- 본 기술은 외국인 대상 한국어 말하기 교육 서비스, AI 한국어 튜터링 서비스, 온라인 한국어 회화 학습 플랫폼, 메타버스 한국어 교실, 다문화 가정 및 이주민 대상 한국어 학습 지원 서비스 등 다양한 에듀테크 분야에 활용될 수 있다. 특히 세종학당 등 공공 한국어 교육기관의 비대면·온라인 교육 플랫폼에 백엔드 대화 엔진으로 적용하여, 학습자의 말하기 연습 기회를 확대하고 개인 맞춤형 한국어 대화 학습 서비스를 제공하는 데 기여할 수 있다.
- 이를 통해 중·고급 한국어 학습자의 말하기 연습 부족 문제를 완화하고, 학습자가 원어민과 대화하기 전 단계에서 부담 없이 반복적으로 회화 능력을 훈련할 수 있는 환경을 제공할 수 있다. 또한 교육기관 및 서비스 사업자는 시나리오 기반 학습 콘텐츠의 교육적 통제성과 생성형 AI 기반 자유 대화의 장점을 동시에 활용함으로써, 학습 몰입도 향상, 서비스 품질 제고 및 비용 효율적인 AI 튜터링 서비스 구축 효과를 기대할 수 있다.