본 연구는 VLM(Vision Language Model)에 기반하여 다양한 환경에서 강인한 행동 인식 기술을 개발하기 위해, 복잡하고, 연속적이며, 다양한 손동작으로 구성되어 있는 수어 행동인식 데이터를 기반으로 학습하고, 이를 실시간으로 강인하게 인식할 수 있는 기술을 개발하였다.
ㅇ 청각 장애인과 비장애인 간의 소통은 여전히 언어적·사회적 제약이 많음. 수어 인식 기술은 수어를 음성 또는 문자로 변환하여 이러한 소통의 단절을 해소하는 것을 목표로 함
ㅇ 수어 인식 시스템은 청각 장애인의 사회 참여를 확대하고, 교육·공공 서비스·고용 등 다양한 영역에서 평등한 접근권을 보장하는 기반이 됨
ㅇ 인공지능과 컴퓨터 비전 기술을 활용해 수어 동작을 실시간으로 인식하고 자연어로 변환함으로써, 자동 수어 통역기나 실시간 자막 생성기 등의 응용 서비스를 개발이 활발히 추진됨
ㅇ 수어는 손동작뿐만 아니라 표정과 몸짓이 함께 표현됨. 이를 인식 가능한 형태로 디지털화함으로써, 다양한 감정과 의도까지 포함하는 풍부한 의사소통 데이터를 구축 가능함.
ㅇ 국내외적으로 수어 통역사는 수요에 비해 절대적으로 부족함. 자동 인식 시스템은 이러한 인력 문제를 보완하여 언제 어디서나 접근 가능한 통역 지원 도구로 활용될 수 있음.
ㅇ 병원, 은행, 관공서 등에서 청각 장애인이 도움 없이 서비스를 이용하기 위해서는 실시간 수어 인식 및 변환 기술이 필수적임
ㅇ 청각 장애 아동의 언어 습득을 돕거나, 비장애인이 수어를 배우는 데에도 인식 기술은 효율적인 교육 보조 도구가 될 수 있음.
ㅇ 보건복지부가 발표한 2024년 기준 등록 장애인 수는 약 2,631,356명이며, 등록 장애인들중 청각장애인이 약 16.8%로 442,000명 정도로 추정되며, 실제로 수어 인식 기술이 필요한 대상 범위는 이보다 더 넓거나 좁을 수 있음.
ㅇ UN 장애인권리협약 및 국내 장애인 차별금지법 등에서는 정보 접근권 보장을 명시하고 있음. 따라서 수어 인식 기술은 단순한 기술 개발을 넘어 사회적 책임과 인권 향상을 위한 필수 기술임
- 복잡하고, 연속적이며, 다양한 손동작으로 구성되어 있는 수어 단어 및 문장을 강인하게 인식
- 손쉬운 학습 방법을 통한 다양한 수어 문장, 단어의 추가 및 재학습
- 손쉬운 학습 방법을 통한 다양한 수어 언어(영어, 스페인어, 프랑스어 등) 추가 및 재학습
기술명 : VLM을 이용한 강인한 행동인식 기술(수어단어, 수어문장)
A. 요소기술: VLM을 이용한 강인한 수어단어, 수어문장 인식 기술
- AI 허브에서 제공된 18명(학습 16명, 테스트 2명)분의 수어 문장(2,000개) 및 단어(3,000개) 학습데이터의 전처리 기술
- 수어 문장 2,000set에 대한 VLM-7B모델의 Fine-turning 기술
- 수어 단어 3,000set에 대한 VLM-7B모델의 Fine-turning 기술
- 서버-클라이언트 구조 제공
- 실행 결과 시각화 및 출력 기능
기술명 : VLM을 이용한 강인한 행동인식 기술(수어단어, 수어문장)
A. 요소기술 : VLM을 이용한 강인한 수어단어, 수어문장 인식 기술
- 검출된 휴먼 영상에서 VLM 학습을 위한 전처리 SW 코드
- VLM 학습을 위한 Fine-turning 코드
- 기술문서
<적용분야>
ㅇ 실시간 통역 서비스 분야
- 청각장애인과 비장애인 간의 실시간 대화 지원
- 공공기관·병원·은행 창구에서 수어를 문자나 음성으로 자동 변환해 주거나, 온라인 회의나 화상상담 플랫폼에 자동 수어 통역 기능 탑재가능
ㅇ 교육 및 학습 지원
- 수어 교육 및 학습 효율 향상
- 청각장애 학생의 언어 습득 보조 (수어 → 문장 변환) 및 비장애인의 수어 학습을 위한 자동 피드백 시스템 (동작 정확도 분석)
ㅇ 공공서비스 접근성 강화
- 장애인의 정보 접근권 확대
- 정부 민원 창구, 철도역, 병원 등에서 AI 수어 안내 키오스크 운영
ㅇ 로봇 및 메타버스 인터페이스
- 미래형 인간-기계 상호작용(HCI) 기반 구축
- 수어로 의사소통 가능한 서비스 로봇 또는 메타버스 아바타 및 수어를 이해하고 반응하는 감정형 AI 비서
<기대효과>
- 본 기술은 청각장애인의 소통권 및 정보 접근권 보장, 비장애인과의 소통 격차 해소 및 사회 통합 촉진, 장애인 친화적 사회 인프라 조성을 통한 포용적 사회 구현 가능
- 통역 인력 부족 문제를 해소하고 공공비용 절감 및 수어 인식 관련 AI·헬스케어·교육 산업의 신시장 창출이 가능하며, 데이터 수집·모델 학습을 통한 AI 기술 산업화 촉진
- 한국형 수어 데이터셋 구축으로 국가 AI 언어자원 경쟁력 강화 및 HCI(Human-Computer Interaction), AR/VR, 로보틱스 등과의 융합 발전이 가능함