ETRI-Knowledge Sharing Plaform

ENGLISH
기술이전 검색
연도 ~ 이전수 키워드

상세정보

딥러닝을 이용한 악성파일 탐지기술

전수책임자
김종현
참여자
기술이전수
0
이전연도
2017
협약과제
- 본 기술은 딥러닝을 이용하여 악성파일을 탐지하는 기술에 관한 것이다.
- 본 기술은 크게 두 부분으로 이루어지는데 정상파일과 악성파일을 전처리하여 딥러닝 모델을 학습하기 위한 전처리블록과 딥러닝 모델을 학습하고 테스트하는 딥러닝블록으로 이루어진다.
- 전처리블록은 정상파일 및 악성파일에서 어셈블리코드를 추출하는 ASM 추출모듈과 어셈블리코드로부터 opcode 시퀀스를 추출하는 opcode 추출모듈, 또, opcode 시퀀스로부터 트라이그램 시퀀스를 추출하는 trigram 추출모듈로 구성된다.
- 딥러닝블록은 트라이그램 시퀀스 데이터로부터 딥러닝모델을 학습하는 트레이닝모듈과 정상 및 악성여부가 라벨링되어 있지않은 파일의 트라이그램 데이터를 입력으로 받아 정상 및 악성여부를 판단하는 테스트모듈로 구성된다.
- av-test 에 따르면 최근 하루 약 30-40만개의 신종 악성파일이 만들어지고 있고 1년에 약 1억5천만개의 신종 악성파일이 만들어지며 누적으로 총 약 5억개의 악성파일이 존재하는 것으로 알려져있다. 그 외에도 아직 알려지지 않은 제로데이성 악성파일들이 존재한다.
- 기존의 안티바이러스 제품들은 알려진 악성코드에서 추출한 악성패턴을 기반으로 악성코드를 탐지하였다. 그러나 이러한 패턴기반 안티바이러스 제품들은 패턴이 알려지지 않은 신종 악성파일에 대응하지 못하는 단점을 가진다.
- 이러한 패턴이 알려지지 않은 제로데이성 신종 악성파일에 대응할 수 있는 기술이 필요로 된다.
- 본 기술은 악성파일을 탐지하기 위하여 PE파일의 opcode를 전처리 데이터로 사용한다. PE파일의 어셈블리코드로부터 opcode 시퀀스를 추출하고 3개의 연속된 opcode로부터 트라이그램을 구성하여 최종적으로 트라이그램 시퀀스를 전처리 데이터로 사용한다.

- 본 기술은 전처리 데이터와 CNN (Convolutional Neural Network)를 기반으로 한 딥러닝모델을 사용하여 딥러닝모델을 학습하고 라벨링되어 있지 않은 전처리 데이터를 딥러닝모델에 입력하면 딥러닝 테스트모듈에서 해당 파일의 정상 및 악성여부를 판단한다.

- 본 기술은 opcode를 전처리 데이터로 사용하기 때문에 api 시스템콜을 전처리 데이터로 사용하는 것보다 훨씬 빠르게 학습데이터를 수집하고 테스트데이터를 만들어낼 수 있다.

- 본 기술은 딥러닝 모델을 기반으로 정상 및 악성여부를 판단하기 때문에 패턴기반 안티바이러스보다 더 정확한 탐지율을 보여준다.
- 악성파일을 탐지하기 위하여 정상파일 및 악성파일을 전처리하여 트라이그램 데이터를 추출하고 추출된 트라이그램 데이터를 사용하여 악성파일탐지 딥러닝 모델을 학습하고 테스트하는 기술

A. 기술명: 딥러닝을 이용한 악성파일 탐지 기술
- 정상파일 및 악성파일 전처리 기술
- 악성파일탐지를 위한 딥러닝모델 트레이닝 기술
- 악성파일탐지를 위한 딥러닝모델 테스트 기술
A. 기술명 : 딥러능을 이용한 악성파일 탐지 기술
- 소스코드: ASM 추출모듈, opcode 추출모듈, 트라이그램 추출모듈, 딥러닝 트레이닝 모듈, 딥러닝 테스트 모듈
- 문서: 시스템 설계서, 개발문서, 기술문서
- 본 기술은 기존의 안티바이러스 업체에서 자신의 안티바이러스 엔진을 보완하는 역할로 사용할 수 있다.

- 본 기술은 국방 및 기관에서 해당 기관의 네트워크로 유입되는 파일에 대한 악성여부를 판단하고 해당 네트워크 및 장비들을 보호하는 방법의 하나로 사용할 수 있다.

- 본 기술을 통하여 패턴이 알려지지 않은 제로데이성 악성파일에 대해 대응할 수 있다.