| 제목 | 데이터사이언스학과 이슬비 석사, 기계학습/AI 분야 저명 학술대회 ICML 2026 논문 채택 | 날짜 | 2026-05-27 | 조회수 | 54 |
|---|---|---|---|---|---|
| 작성자 | 산업공학과 | ||||
| 첨부파일 | |||||
|
데이터사이언스학과 이슬비 석사, 기계학습/AI 분야 저명 학술대회 ICML 2026 논문 채택
데이터사이언스학과 데이터인텔리전스연구실 (Data Intelligence Lab, 지도교수 황상흠) 이슬비 석사가 기계학습/AI 분야의 국제 저명 학술대회인 International Conference on Machine Learning (ICML) 2026에서 대규모 비전-언어 모델 (Large Vision-Language Models, LVLMs)이 텍스트 단서에 과도하게 의존하지 않고 실제 이미지 정보를 기반으로 답변하도록 만드는 새로운 학습 방법을 발표한다. 해당 연구는 LVLM의 시각적 근거 활용 능력을 정량적으로 측정하는 Visual Information Gain(VIG)을 제안하고, 이를 활용해 보다 신뢰도 높은 멀티모달 AI 모델을 학습하는 방법을 제안한다.
최근 LVLM은 이미지 질의응답, 캡션 생성, 멀티모달 추론 등 다양한 작업에서 뛰어난 성능을 보이고 있지만, 질문만으로 답을 추론하거나 이미지에 존재하지 않는 내용을 생성하는 환각 문제가 여전히 남아 있다. 이러한 현상은 모델이 시각적 근거보다 텍스트 패턴에 과도하게 의존하기 때문에 발생하며, 특히 멀티모달 학습 데이터 안에는 실제로 이미지를 봐야만 답할 수 있는 샘플과 텍스트만으로도 답할 수 있는 샘플이 혼재되어 있다는 점이 주요 원인으로 지적된다.
이를 해결하기 위해 연구팀은 Visual Information Gain(VIG)이라는 새로운 지표를 제안했다. VIG는 동일한 질문과 답변에 대해 이미지가 주어졌을 때 모델의 예측 불확실성이 얼마나 줄어드는지를 perplexity 기반으로 측정한다. 즉, 이미지가 답변 생성에 실제로 얼마나 기여했는지를 정량화하는 지표이다. VIG는 샘플 단위뿐만 아니라 토큰 단위로도 계산할 수 있어, 색상, 위치 관계, 객체 속성처럼 이미지 정보에 강하게 의존하는 표현과 관사, 전치사 등 텍스트만으로도 예측 가능한 표현을 구분할 수 있다. 연구팀은 이 VIG를 활용해 VIG-guided selective training 방법을 제안했다. 해당 방법은 전체 멀티모달 학습 데이터를 동일하게 사용하는 대신, VIG가 높은 샘플을 우선적으로 선택하고, 선택된 샘플 안에서도 시각 정보에 실제로 의존하는 토큰에 대해서만 손실을 계산한다. 이를 통해 모델이 텍스트 중심의 쉬운 패턴이 아니라 이미지에 근거한 정보에 집중하도록 유도한다. 제안 방법은 별도의 모델 구조 변경이나 추론 단계의 추가 비용 없이 적용할 수 있으며, 기존 시각 정보 기반의 개선 기법들과도 상호보완적으로 결합될 수 있다.
실험 결과, VIG 기반 선택 학습은 LLaVA-1.5, ShareGPT4V, Open-Qwen2VL 등 다양한 LVLM에서 기존 전체 데이터 학습보다 적은 supervision만으로도 더 높은 성능을 달성했다. 또한 VIG 학습을 적용한 모델은 시각 토큰에 더 많은 attention을 할당하고, 잘못된 텍스트 단서가 주어지는 상황에서도 이미지에 기반한 답변을 더 잘 유지하는 것으로 확인되었다.
▲ 발표 논문 포스터
본 연구는 LVLM 학습 데이터 안에서 “어떤 샘플과 토큰이 실제로 시각 정보를 필요로 하는가”를 정량적으로 측정하고, 이를 학습에 직접 활용했다는 점에서 의미가 있다. 연구팀은 이번 연구가 보다 신뢰할 수 있는 멀티모달 AI 모델을 구축하고, 시각적 근거에 충실한 LVLM 학습 방법을 발전시키는 데 기여할 것으로 기대하고 있다.
논문정보
|
|||||
![]() |
이전 내용이 없습니다. |
|---|---|
![]() |
데이터사이언스학과 이의찬 박사과정, 김정현 석박통합과정, 기계학습/AI 분야 저명 학술대회 ICLR 2026 논문 발표 |