LiDAR 포인트 클라우드는 3차원 공간을 표현하는 점들의 집합으로, 일반적인 카메라로 얻는 2차원 이미지와 달리 깊이 정보를 포함하고 있다. 이러한 정보는 자율주행 분야에서 LiDAR 센서와 함께 상호 보완적인 데이터를 제공한다. 따라서, 멀티모달 데이터 융합을 통한 의미론적 분할에 대한 연구가 활발히 진행되고 있다. 그러나 융합 기반 방법은 학습 및 추론 단계에서 확실한 포인트-픽셀 매핑을 가진 LiDAR 포인트 클라우드와 카메라 이미지, 즉 페어된 데이터를 필요로 하기 때문에 실제 세계에서 응용하기 어렵다.
본 논문에서는 FOV(field of view) 장면 이미지의 픽셀과 매핑되도록 포인트에 대해 데이터 전처리를 수행하였다. 더불어, 보조적 모달인 2D와의 융합과 지식 증류를 활용하여 더욱 풍부한 의미론적 및 구조적 정보를 얻었으며, 이 결과를 순수 3D 네트워크로 증류하는 방식을 제안하였다.
구형 복셀을 사용한 3D 네트워크는 LiDAR 포인트 클라우드 데이터의 특성을 반영한다. 이전 연구들은 큐브형 복셀을 사용하여 3D 의미론적 분할을 수행하였으나, 이 방식은 포인트의 분포나 구조에 완전히 부합하지 않았다. 본 논문에서는 LiDAR 포인트 클라우드 데이터의 특성을 반영하기 위해 구형 복셀을 사용하는 네트워크를 제안하였으며, 2D 네트워크에서 증류된 지식을 활용하여 최종 의미론적 분할 결과를 도출하였다.