ACCV 2024 논문 발표 사진
부산대학교 시각 지능 및 인지 연구실(VIPLab)이 지난 2024년 12월 8일~12일 베트남 하노이에서 진행 된 BK21 CS분야 우수 국제학술대회인 Asian Conference on Computer Vision (ACCV) 2024에 2편의 논문을 발표하였다. 특히 “Exploiting Cross-Modal Cost Volume for Multi-Sensor Depth Estimation” 연구는 미국 Carnegie Mellon University와의 국제 공동 연구를 통해 성과를 달성하였다.
시각 지능 및 인지 연구실(VIPLab) 박사과정 김장현(제1저자), 석사과정 허석용, 지도교수 박진선 (좌측부터)
제목: Exploiting Cross-Modal Cost Volume for Multi-Sensor Depth Estimation
저자: 김장현, Ukcheol Shin(Carnegie Mellon Univ.), 허석용, 박진선
연구요약: 본 논문은 RGB-NIR-LiDAR 센서를 활용한 다양한 환경 (낮, 밤, 비)에서의 강건한 깊이 추정 모델을 제안하였다. 기존 모델들은 각 센서 정보를 효과적으로 융합하지 못했으나, 본 연구에서는 cross-attention 기법을 통해 다양한 센서에서 얻은 cost-volume을 단계적으로 통합하였다. 또한, 동일한 센서 간의 융합뿐만 아니라 서로 다른 센서 간의 정보도 활용하여, 여러 센서 구성에 따른 다양한 깊이 범위를 예측할 수 있다. 제안한 모델은 2개의 깊이 추정 벤치마크 데이터셋에서 SOTA (State-of-the-Art) 성능을 달성하였다.
시각 지능 및 인지 연구실(VIPLab) 학부연구생 권민성(제1저자, 기계공학부), 지도교수 박진선 (좌측부터)
제목: ULTRON: Unifying Local Transformer and Convolution for Large-Scale Image Retrieval
저자: 권민성, 박진선
연구요약: 본 논문에서는 대규모 랜드마크 이미지 검색을 위한 새로운 인공신경망인 ULTRON을 제안하였다. ULTRON은 채널별로 다른 수용 영역을 가진 합성곱 신경망과 넓은 영역과 근접 영역 간의 상관관계를 모델링하는 개선된 로컬 트랜스포머 인코더를 결합하여 세부 특징과 전역 정보를 효과적으로 통합하여 단일 임베딩 벡터로 표현한다. 제안된 모델은 대규모 이미지 검색에서 re-ranking 없이도 기존 연구보다 우수한 성능을 입증하였다.