ETRI-Knowledge Sharing Plaform

KOREAN
기술이전 검색
Year ~ Transaction Count Keyword

Detail

Technology for Training and Evaluation Database of Automatic Source Code Generation

Manager
Ma Yu Seung
Participants
Transaction Count
0
Year
2025
Project Code
본 기술인 “오토코딩 소스코드 학습 및 평가 데이터 베이스(오토코딩 데이터 베이스)”는 자연어로 기술된 요구사항에서 전문 개발자 수준의 고품질 코드를 자동으로 생성하는 데 활용되는 데이터 베이스 기술임. RAG(Retrieval-Augmented Generation) 기반 벡터 검색 기법, 데이터 베이스 백엔드 및 API 인터페이스, 오토코딩 모델 학습·평가를 위한 데이터를 포함
- 개발 인력 부족 문제, 프로젝트 리드 타임 단축, 대규모 코드베이스 유지·보수의 복잡성 증가 등의 문제를 해결하는 데 있어 자동화된 코드생성 기술이 큰 관심을 받음. 오토코딩 데이터 베이스는 이러한 수요를 충족시킬 주요 기반 기술임.
- RAG(Retrieval-Augmented Generation), 대규모 언어 모델, 코드 합성 알고리즘 등의 최첨단 AI 기술이 반영된 데이터베이스 관리가 필요함. 기존의 전통적인 관계형 DB나 단순 파일 관리 체계로는 처리 어려움이 존재하며, 새로운 벡터 DB 중심 아키텍처가 요구됨.
- 벡터 데이터베이스 기반 유사도 검색: Milvus 등 벡터 DB를 활용해 요구사항(텍스트)과 학습 데이터(코드, 문서 등)를 벡터로 변환·저장·검색함. 유사도 검색을 통해 정확도 높은 코드 추천과 관련 정보를 빠르게 제공, 자동 코드 생성 성능을 향상시킴.
- 모듈형 구성 및 확장성: FastAPI, Docker, Milvus 등 모듈형 구조로 구성되어 환경 변화나 트래픽 증가에 유연하게 대응 가능. 온프레미스 및 클라우드 환경에서 손쉽게 배포·확장 가능.
- 학습 데이터 자동 관리 시스템: 대규모 학습 데이터와 메타 정보를 체계적으로 관리하고, 수집부터 검색까지 전 과정을 자동화하여 모델 학습·추론 효율을 극대화하고 데이터 품질을 유지함.
- RAG(Retrieval-Augmented Generation) 기반 벡터 검색 기법
- 데이터 베이스 백엔드 및 API 인터페이스
- 오토코딩 모델 학습·평가를 위한 데이터를 포함
- 요구사항 정의서
- 시험 절차서 및 시험 결과서
- 소스코드
- 특허 1건
- 기술 문서 5종
- 적용분야 : 자연어 요구사항을 받아 코드를 추천·생성해야 하는 오토코딩, IDE 플러그인, 코드 리뷰·리팩토링 시스템 등 AI 모델 경량화가 필요한 온디바이스 또는 저비용 서빙 상황에서 활용.
- 기대효과 : 비정형 데이터 및 대규모 코드 예제를 자동으로 검색·활용함으로써, 요구사항 분석부터 코드 작성까지 걸리는 시간을 단축하고 품질을 향상시킴.