ETRI Knowledge Sharing Platform : AI based Object Detecion and Action Recognition

기술이전 검색
Year	~	Transaction Count		Keyword

본 기술이전은 사물을 검출하는 기술과 행동을 관절 수준에서 이해하는 기술로 구성되며, 기술을 활용처에 따라서 기본 엔진과 추가 기능을 포함한 기술로 구성되어 있으며, 각각의 개요는 다음과 같음

□ 사물의 검출 기술

이미지/동영상에서 사물을 분류 및 검출하는 기술은 다양한 사물을 동시에 인식할 수 있어야 하기 때문에 기저에 다양한 사물을 구분할 수 있는 능력을 가지고 있음. 본 기술은 입력된 영상에서 주요한 객체가 학습된 분류에 따라 어디에 해당되는 지를 알려주며, 이를 위해 다양한 계층을 적층하여 100 레이어 이상의 심층 구조를 제공함

□ 관절 수준의 행동이해

행동을 이해하는 기술은 전체적인 움직임 정보를 이용하는 기술과 세부 관절 정보를 이용하는 기술로 구분되며, 본 기술은 관절 정보를 이용하여 행동을 추론하고 인식하는 기술로 관절 정보를 추출하는 기능은 포함하지 않고 있음 (단, 관련 정보는 오픈 소스로 공개되어 있기 때문에 관련 기능의 정합은 기술을 지원함)

. 기존의 이미지/동영상에 등장하는 다양한 사물을 인식하는 기술은 사람의 생각에 의존하고 있어 다양한 상황에 적절하게 대응하지 못하는 한계가 있음

- 사람의 인지능력에 기초하고 있어 대량의 사물을 학습하기에는 어려운 구조를 지니고 있어 확장성이 낮음
- 사람이 사물을 잘못 이해하는 경우 시스템도 같이 성능이 낮아지고, 정확도가 떨어지는 경우가 발생
- 작은 사물이나 흐른 사람에 대해서 정확한 인식 성능 제공이 어려움 (학습 데이터에서 관련된 내용이 포함된 경우 일부 가능)

. 기존의 행동을 인식하는 기술을 특정 상황만을 고려하기 때문에, 사람의 움직임 다양성을 지원하고 있지 않으나, 본 기술은 관절 수준의 행동을 인식하여 다양성 환경에 적용 가능

- 관절 수준의 움직임을 이용하여 사람에 따른 변동 가능성을 줄이는 방식을 적용하여 다양한 상황에서도 강인하고 동작이 가능한 기술 적용
- 배경과 전경을 분리하여 분석하여 배경 변화에도 강인하고 조도, 날씨 변화에도 강인하게 동작하는 기능을 제공

- 세부기술 1. 딥러닝 기반의 고성능 객체 검출 엔진
. 이미지/동영상에서 등장하는 사물의 위치와 종류(80종)를 인식하는 기술
. 심층 신경망 기반의 사물 인식 네트워크 기술

- 세부기술 2. 와이드 딥러닝 기반의 고속 객체 검출 엔진
. 이미지/동영상에서 등장하는 사물의 위치와 종류(80종)를 빠르게 인식하는 기술
. 와이드 & 딥 러닝 기법을 이용한 학습으로 속도 개선 기술 적용

- 세부기술 3. 포즈 기반의 행동 인식 엔진
. 사람의 주요 관절 움직임을 기반으로 행동을 인식하는 기술
. 던지기, 놓기, 담넘기 등의 단위 행동 인식에 적용

- 세부기술 4. 투기 행위를 위한 포즈 기반의 인식 엔진
. 포즈 기반의 행동 인식 엔진을 투기 행위 감지하도록 개발한 기술
. 관절 수준에서 실시간 인식이 가능한 엔진 적용

이미지/비디오에서 다양한 사물과 행동을 이해하고 판단하기 위한 SW 및 관련 기술로 인식 및 시각화 기술을 포함하여 추진하며, 다음의 세부기술들을 조건에 따라 조합하여 기술 이전됨

- 세부기술 1. 딥러닝 기반의 고성능 객체 검출 엔진
. 80종류의 객체를 검출하기 위한 학습된 모델
. 객체와 배경을 분리하여 객체의 위치와 분류를 추정하는 기능

- 세부기술 2. 와이드 딥러닝 기반의 고속 객체 검출 엔진
. 80종류의 객체를 속도 우선 검출하기 위한 학습된 모델
. 객체와 배경을 분리하여 객체의 위치와 분류를 추정하는 기능

- 세부기술 3. 포즈 기반의 행동 인식 엔진
. 주어진 동영상에서 전경 탐지 기술을 활용하여 사람의 외형을 탐지하는 기술
. 사람의 관절 좌표들과 전경 탐지 기술을 활용하여 사람의 포즈를 인식하는 기술

- 세부기술 4. 투기 행위를 위한 포즈 기반의 인식 엔진
. 주어진 동영상에서 사람의 포즈, 그리고 사람과 객체와의 관계를 이용해서 쓰레기 투기 동사를 탐지하는 프로그램
. 입력으로 동영상을 처리하며, 출력으로 투기행위가 발생하는 시점을 알려줌
o 각 세부 기술별 공통(제공) 부문:
- 관련 소스 코드 외 샘플 프로그램
- 시험 절차서 및 결과서

o 세부기술 1 : 딥러닝 기반의 고성능 객체 검출 엔진
- 특허 3건, 기술문서 2건, 프로그램 3건

o 세부기술 2 : 와이드 딥러닝 기반의 고속 객체 검출 엔진
- 특허 4건, 기술문서 4건, 프로그램 3건

o 세부기술 3 : 포즈 기반의 행동 인식 엔진
- 특허 4건, 기술문서 3건, 프로그램 1건

o 세부기술 4 : 투기 행위를 위한 포즈 기반의 인식 엔진
- 특허 6건, 기술문서 4건, 프로그램 2건

- 이미지/동영상에서 사물을 분류 및 검출하는 기술은 다양한 응용 분야에서 활용이 가능하지만, 다음의 3가지 시나리오를 고려하고 있으며, 본 기술은 사물의 분류 및 검출에 최적화 되어 있어 사업화에 필요한 추가적인 기술 개발이 필요함

1. 공산상황 분석 및 예측 분야: 수자원관리, 기후변화, 해수변화 관리 등의 다양한 환경 변화를 영상으로 분석하는 기술 분야
2. 시각지식 큐레이션: 이미지/동영상 큐레이션 서비스를 대상으로 사용자의 환경에 맞는 미디어를 추천하거나 검색 (해운대 가면 해운대 관련 영화를 추천)
3. 원격시각: 사람을 대신하여 위험지역이나 탐사가 쉽지 않은 지역을 탐사하는 경우 탐사 지역의 다양한 사물과 환경을 이해하기 위한 엔진으로 활용 가능

ETRI-Knowledge Sharing Plaform

BROWSE

Titles

Detail

ETRI