데이터사이언스학과 김정현 석박통합과정, AI/CV 분야 Top Conference “CVPR 2025” 논문 발표
날짜
2025-06-18
조회수
60
작성자
산업공학과
첨부파일
데이터사이언스학과 김정현 석박통합과정, AI/CV 분야 Top Conference “CVPR 2025” 논문 발표
데이터사이언스학과 데이터인텔리전스연구실 (Data Intelligence Lab, 지도교수 황상흠) 소속의 김정현 석박통합과정 학생이 인공지능/컴퓨터비전 분야의 세계 최고 권위 학술대회인 Computer Vision and Pattern Recognition (CVPR) 2025에 논문을 발표했다. 본 연구는 대규모 시각-언어 모델(VLM)의 학습 외 분포(Out-of-Distribution, OoD) 데이터 탐지 성능을 개선하는 새로운 방법론을 제시한다.
기존의 OoD 탐지 연구는 주로 단일 모달리티에 집중되어 왔으며, 최근 CLIP과 같은 멀티모달 모델을 활용하는 방법들이 등장했으나, 사전 학습된 모델의 능력을 부분적으로만 활용하는 한계가 있었다. 연구팀은 이러한 한계가 모달리티 갭(modality gap) 현상, 즉 이미지와 텍스트 임베딩이 분리되는 것이 원인임을 실증적으로 분석했다.
이를 해결하기 위해 연구팀은 교차 모달 정렬(Cross-Modal Alignment, CMA)이라는 새로운 학습 목표를 제안했다. CMA는 학습 데이터의 이미지와 텍스트 임베딩 간의 거리를 조절하여 두 모달리티를 고차원 공간상에서 가깝게 정렬시킨다. 이 방법을 통해 모델의 신뢰성과 직결되는 OoD 탐지 성능과 분포 내 데이터 분류 정확도를 모두 크게 향상시켰다.
본 연구는 ImageNet-1k OoD 벤치마크 데이터셋에서 기존 최고 성능을 뛰어넘는 결과를 달성했으며, 이는 자율주행이나 의료 진단과 같이 높은 안전성이 요구되는 분야에서 AI 모델의 신뢰도를 높이는 데 기여할 것으로 기대된다.
논문정보
학회명: Computer Vision and Pattern Recognition (CVPR) 2025
논문제목: Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations