제목
Non-Local Fusion 기반 멀티 모달 3차원 Bird’s Eye View 객체 탐지 네트워크 연구
요약
3차원 객체 탐지는 3차원 환경에서 객체를 식별하고 위치를 탐지하는 것을 목적으로 한다. 특히, 대규모 도로주행영상 데이터셋을 학습한 3차원 객체 탐지 모델은 자율 주행 시스템에 필수적이다. 최근 많은 연구들이 2차원 카메라 이미지와 3차원 라이다 포인트 클라우드 데이터로부터 얻은 정보를 Bird’s Eye View(BEV) representation에서 융합하는 멀티 모달 네트워크를 제안하고 있다. 이를 통해 카메라 이미지의 semantic 정보와 라이다 포인트 클라우드의 geometric 정보를 함께 학습하여 탐지 성능을 높일 수 있다. 하지만 BEV representation의 정보를 융합하는 과정에서 잃어버리는 정보들이 존재한다. 이는 추출한 정보를 충분히 활용하지 못하게 하며, 성능 하락의 요인이 될 수 있다. 따라서 본 연구에서는 지역적인 연산을 수행하는 Convolution layer에서 놓칠 수 있는 전역적인 정보를 학습하도록 Fuser 단계에 Non-local block을 사용하여 지역적인 정보와 전역적인 정보를 함께 학습하도록 하였다. nuScenes 데이터셋을 사용하여 실험을 진행하였고, mean Accuracy Precision(mAP)과 NuScenes Detection Score(NDS)를 사용하여 성능을 평가하였다. Non-local Fusion을 통해 Baseline 모델인 BEVFusion의 62.49% mAP, 67.79% NDS보다 상승한 63.05% mAP, 68.01%의 결과를 얻었다.