ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Post-training Technology for User Preference-based Knowledge Retrieval

Manager
Jong Hun Shin
Participants
Transaction Count
0
Year
2025
Project Code
사전학습(pre-training) 이후의 생성형 언어모델을 특정 작업이나 태스크에 맞게 소량의 데이터에 기반하여 언어모델을 정렬하고, 사용자가 선호하는 인출을 생성하도록 조정하는 기술
- 어댑터(adapter)기술과 고품질 소량의 태스크(task) 데이터를 활용한 미세조정(fine-tuning) 기술
- 인간의 선호(preference) 기반 피드백(feedback)이 있는 학습데이터를 활용한 강화학습(reinforcement learning) 기술
● 저비용으로 생성형 언어모델을 다양한 태스크와 도메인에 적용할 수 있도록 학습하고, 사용자가 선호하는 결과를 인출할 수 있도록 학습하는 기술의 개발/보급이 필요함.
● 대규모 언어모델은 사전학습만으로도 다양한 언어 태스크를 수행할 수 있으나, 논리적 일관성 부족, 사실 오류(hallucination) 발생과 사용자 의도와 불일치하거나 유해한 응답생성 등과 같은 한계점이 존재함.
● 사전학습의 한계를 극복하고 대규모 언어모델의 능력을 극대화하기 위해서는 실제 응용 환경에 맞게 조정하기 위한 사후학습(post-training) 전략이 중요하고, 이를 위해서는 미세조정(fine-tuning)과 강화학습(reinforcement learning) 기반 정렬(alignment)이 필요함.
본 기술은 사전학습된 언어모델을 적용 태스크와 환경에 맞게 효율적으로 사후학습 하는 방법으로 다음과 같이 구분된다.
- 사전학습된 생성언어모델을 사용자 지시(instruction)를 이해하고 도메인에 적응할 수 있도록 소량의 데이터로 지도 미세조정(supervised fine-tuning)하는 기술
- 사용자의 선호정보에 대한 피드백 데이터를 기반으로 사용자가 선호하는 결과를 생성하도록 정렬하는 강화학습 기술
A. 기술명 : 사용자 선호 기반 지식인출을 위한 사후학습 기술
- adapter를 활용한 효과적인 미세조정 기술
- 도메인 특화 Continual Pretraining을 위한 미세조정 기술
- Long CoT(chain-of-thought) 적용을 위한 효율적인 미세조정 기술
- 사용자의 선호도 기반 응답 생성에 효과적인 강화학습 기술
A. 기술명 : 사용자 선호 기반 지식인출을 위한 사후학습 기술
- 도메인 특화 Continual Pretraining을 위한 미세조정 모듈
- Long CoT 적용을 위한 미세조정 모듈
- 사용자 선호도 기반 응답 생성 학습을 위한 강화학습 모듈
- 미세조정을 위한 학습 데이터 구조과 학습 파라미터 설명에 대한 매뉴얼
● 적용분야: AI 업무자동화 시스템
▶ 업무지원을 위한 정보검색 및 질의응답 서비스
▶ 최신 정보서비스를 위한 AI 챗봇 서비스
▶ 불공정 계약문서 분석 및 조항 수정 지원 서비스
▶ 최신정보를 반영한 의사결정지원 서비스

● 기대효과
▶ 글로벌 인공지능 시장에서 핵심 기술로 성장한 생성형 언어모델에서의 기술 경쟁력 확보로, 신뢰성이 확보된 언어모델 활용을 통한 기술 우위를 기반으로 국내 인공지능 서비스 경쟁력 강화에 기여
▶ 도메인 및 태스크별 언어모델 활용을 극대화하고, 생성형 언어모델의 한계점을 극복할 수 있는 기술로 AI 업무자동화 혁신에 기여