논문 제목
RAG 기반 LLM 추론 성능 향상을 위한 벡터 데이터베이스 연산 오프로딩 기법
초록 (Abstract)
최근 Retrieval-Augmented Generation(RAG)은 대규모 언어 모델(Large Language Model, LLM)의 외부 지식 활용을 위한 핵심 기법으로 활용되고 있으며, 이 과정에서 벡터 데이터베이스 기반의 유사도 검색이 중요한 역할을 수행한다. 그러나 기존 RAG 시스템은 벡터 데이터베이스를 메모리에 적재하거나, 질의 시마다 저장장치로부터 데이터를 반복적으로 불러오는 구조를 사용한다. 이로 인해 메모리 사용량 증가, 데이터 이동에 따른 지연 시간 증가, 그리고 시스템 자원 비효율 문제가 발생한다. 특히, 벡터 데이터베이스의 크기가 시스템 메모리를 초과하는 경우, 전체 데이터를 메모리에 유지하는 것이 불가능하며 성능 저하가 더욱 심화된다.
본 논문에서는 이러한 문제를 해결하기 위해 벡터 유사도 검색 연산을 저장장치 내부로 오프로딩하는 기법을 제안한다. 제안하는 방식은 NVMe 기반 Computational Storage Device(CSD)를 활용하여 벡터 검색을 스토리지 내부에서 수행하고, 검색 결과만을 호스트로 전달함으로써 불필요한 데이터 이동을 최소화한다. 이를 통해 시스템의 메모리 부담을 줄이고, 데이터 이동 트래픽을 감소시키며, 호스트가 다른 연산을 수행할 수 있는 자원 여유를 확보할 수 있다.
학위 연월
2026년 8월
이메일
hcshan0103@pusan.ac.kr
지도교수
안성용 교수
키워드 (Keywords)
Retrieval-Augmented Generation (RAG)
Large Language Model (LLM)
Vector Database
Computational Storage Device (CSD)
NVMe
In-Storage Processing
Vector Search Offloading
웹페이지