ETRI Knowledge Sharing Platform : Deep Learning based Object Classification and Detection

기술이전 검색
Year	~	Transaction Count		Keyword

이미지/동영상에서 사물을 분류 및 검출하는 기술은 다양한 사물을 동시에 인식할 수 있어야 하기 때문에 기저에 다양한 사물을 구분할 수 있는 능력을 가지고 있어야 한다. 본 기술은 입력된 영상에서 주요한 객체가 학습된 분류에 따라 어디에 해당되는 지를 알려준다. 이를 위해 다양한 계층을 적층하여 100 레이어 이상의 심층 구조를 제공한다.

기존의 기계 학습은 제한된 학습 데이터의 패턴을 일반화하여, 보편적인 패턴을 추론하는 과정이다. 이러한 일반화, 혹은 학습 후 학습 모델의 추론 성능은 두 가지 이유로 저하되게 된다. 첫 번째는 충분하지 못한 학습 시간, 성능이 좋지 않은 최적화 알고리즘, 유연하지 못한 모델이 이유이다. 이 경우에는 일반화의 문제가 아니기 때문에 학습 데이터에 기반한 학습 모델이 생성되고 다시 추론 과정을 거치게 되어도 성능이 낮아지는 문제가 있다. 이를 under-fitting 문제라 하고 이를 해결하기 위해서는 더 우수한 최적화 기법을 개발해야 한다. 두 번째는 학습 데이터가 모든 패턴을 포함한다고 맹신하여, 학습 데이터와 다른 경우에 대하여 올바른 판단을 못하게 되는 경우이다. 이는 모델이 지나치게 유연하고, 성능 좋은 최적화 알고리즘의 파라미터를 부적절하게 잡았을 때, 모델이 학습 데이터에 너무 최적화되어 일어나는 문제이다. 이를 over-fitting 문제라 하고 이를 해결하기 위해서는 학습 데이터의 외적인 상황을 고려한 Regularization 설계가 필요하다.

본 기술은 Under-fitting 문제와 Over-fitting 문제를 고려하여 설계 및 개발된 기술로 다양한 사물 분류 및 인식을 지원한다. 특히 신경망 시스템을 포함하여, 관심 영역 추천 기술을 포함하고 있다.

. 기존의 이미지/동영상에 등장하는 다양한 사물을 인식하는 기술은 사람의 생각에 의존하고 있어 다양한 상황에 적절하게 대응하지 못하는 한계가 있음
- 사람의 인지능력에 기초하고 있어 대량의 사물을 학습하기에는 어려운 구조를 지니고 있어 확장성이 낮음
- 사람이 사물을 잘못 이해하는 경우 시스템도 같이 성능이 낮아지고, 정확도가 떨어지는 경우가 발생
- 작은 사물이나 흐른 사람에 대해서 정확한 인식 성능 제공이 어려움 (학습 데이터에서 관련된 내용이 포함된 경우 일부 가능)

. 본 기술은 사람의 생각이나 추론을 대신하여 데이터를 기반으로 학습하고 학습된 결과를 수행하여 사물을 인식할 수 있는 시스템 기술을 제공
- 데이터 기반으로 학습하고 분류하고 있으며, 중간 처리 과정을 사람의 인지 능력을 모사하는 심층 신경망 기반의 기술
- 다양한 분야의 필요한 사물을 빠르게 학습 및 대체가 가능해, 산업적 활용 범위를 다양하게 적용 가능

- 1. 눈높이 카메라 각도(eye-level camera angle)에서의 객체 검출 엔진
. 사물과 같은 위치에서 사물을 바라보는 눈높이 영상에서 객체의 위치 추정 기술
. 눈높이 영상에서 다양한 객체의 종류를 분류하여 인식하는 기술

- 2. 높은 카메라 각도(high-level shot)에서의 객체 검출 엔진
. 객체보다 높은 위치에서 내려다보는 영상에서 객체의 위치를 추정하는 기술
. 높은 카메라 각도에서 객체의 종류를 분류하여 인식하는 기술

- 3. 객체 검출 엔진을 위한 고속화 엔진
. 제시된 세부 기술 1과 2의 객체 검출 엔진들의 객체 검출 속도를 향상시키기는 기술

- 4. 눈높이 카메라 각도(eye-level camera angle)에서의 속도 우선 객체 검출 엔진
. 눈높이 영상에서 속도 우선 객체의 위치 추정 기술
. 눈높이 영상에서 속도 우선 객체의 종류를 분류하여 인식하는 기술

이미지/비디오에서 다양한 사물의 위치와 내용을 이해하고 판단하기 위한 SW 및 관련 기술로 인식 및 시각화 기술을 포함하여 추진하며, 다음의 세부기술들을 조건에 따라 조합하여 기술 이전됨

- 1. 눈높이 카메라 각도에서의 객체 검출 엔진
. 해당 엔진을 위한 신경망의 구조
. 80종류의 객체를 검출하기 위한 학습된 모델
. 객체와 배경을 분리하여 객체의 위치를 추정하는 기능
. 객체의 종류를 분류하여 추론하는 기능
. 검출된 객체의 정보를 가시화하는 기능

- 2. 높은 카메라 각도에서의 객체 검출 엔진
. 해당 엔진을 위한 신경망의 구조
. 10종류의 객체를 검출하기 위한 학습된 모델
. 객체와 배경을 분리하여 객체의 위치를 추정하는 기능
. 객체의 종류를 분류하여 추론하는 기능
. 검출된 객체의 정보를 가시화하는 기능
. 세부 기술 1의 기능 일부 포함

- 3. 객체 검출 엔진을 위한 고속화 모듈
. 디바이스 종류에 따른 고속화 기능
. 다중 디바이스를 이용한 고속화 기능

- 4. 눈높이 카메라 각도에서의 속도 우선 객체 검출 엔진
. 해당 엔진을 위한 신경망의 구조
. 80종류의 객체를 속도 우선 검출하기 위한 학습된 모델
. 객체와 배경을 분리하여 객체의 위치를 추정하는 기능
. 객체의 종류를 분류하여 추론하는 기능
. 속도 우선으로 검출된 객체의 정보를 가시화하는 기능
o 각 세부 기술별 공통(제공) 부문:
- 관련 소스 코드 외 샘플 프로그램
- 시험 절차서 및 결과서

o 3을 제외한 각 검출 엔진 제공 부문:
- 각 검출 엔진별 신경망 구조
- 각 검출 엔진별 학습 모델

- 이미지/동영상에서 사물을 분류 및 검출하는 기술은 다양한 응용 분야에서 활용이 가능하지만, 다음의 3가지 시나리오를 고려하고 있으며, 본 기술은 사물의 분류 및 검출에 최적화 되어 있어 사업화에 필요한 추가적인 기술 개발이 필요함

1. 공산상황 분석 및 예측 분야: 수자원관리, 기후변화, 해수변화 관리 등의 다양한 환경 변화를 영상으로 분석하는 기술 분야
2. 시각지식 큐레이션: 이미지/동영상 큐레이션 서비스를 대상으로 사용자의 환경에 맞는 미디어를 추천하거나 검색 (해운대 가면 해운대 관련 영화를 추천)
3. 원격시각: 사람을 대신하여 위험지역이나 탐사가 쉽지 않은 지역을 탐사하는 경우 탐사 지역의 다양한 사물과 환경을 이해하기 위한 엔진으로 활용 가능

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI