작성일
2025.10.23
수정일
2025.10.23
작성자
도건우
조회수
13

스토리지 분리화 환경에서 데이터 이동 최적화를 위한 Near-Data processing 플랫폼

대규모 언어 모델(LLM)의 등장으로 자연어 처리(NLP)는 데이터 집약적인 패러다임으로 전환되었다. 스토리지 디스어그리게이션을 활용하는 LLM 학습 환경에서는 대규모 텍스트가 원격 스토리지로부터 네트워크를 경유하여 이동하며, 이 과정에서 네트워크 I/O가 추가되어 오버헤드를 유발한다. 이러한 I/O 레이턴시는 LLM 학습 파이프라인의 잠재적 병목이 될 수 있다. 이를 해결하기 위해 본 연구에서는 BPE 토큰화를 스토리지 서버로 오프로딩하는 경량 NDP(Near-Data Processing) 프레임워크를 제안한다. 이 설계에서 원본 데이터와 토큰화된 데이터는 사용자 공간 프로세스 간 공유 메모리로 교환되며, 평가 결과 제안 방식은 NVMe-oF/TCP 네트워크 트래픽을 최대 52% 감소시키고 End-to-End 경로의 I/O 시간을 약 25% 단축했다.

학위연월
2026년 2월
지도교수
안성용
키워드
Near-Data Processing, NVMe over Fabrics, Data Movement Optimization, Byte-Pair Encoding
소개 웹페이지
https://sites.google.com/view/ndt-bpe/
첨부파일
첨부파일이(가) 없습니다.
다음글
다음글이(가) 없습니다.
이전글
Learning a Differentiable Multi-Branch Decision Tree with Adaptive Pruning
박한얼 2025-10-21 21:19:14.353
RSS 2.0 822
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
822 스토리지 분리화 환경에서 데이터 이동 최적화를 위한 Near-Data processing 새글 도건우 2025.10.23 0 13
821 Learning a Differentiable Multi-Branch Decision Tr 새글 박한얼 2025.10.21 0 30
820 분산 사이드카 아키텍처 기반 클라우드-네이티브 시스템 콜 모니터링 새글 윤건우 2025.10.19 0 35
819 RAG를 적용한 컨테이너 기반 마이크로서비스의 오류 식별 방법 조대영 2025.10.17 0 42
818 전시 환경에서의 관람객 행동 분석을 위한 Depth-Aware Zero-Shot HOI 조수현 2025.10.17 0 39
817 멀티모델 통합 선검출 기법의 환경 변화 강건성을 위한 베이지안 최적화 기반 파라미터 김정호 2025.10.17 0 44
816 레이더 기반 사람 행동 인식을 위한 경량 딥러닝 모델 설계 및 구현 곽도균 2025.10.17 0 38
815 메쉬 리깅 기반 안면 3D Gaussian Splatting의 부분 편집 기법 박현수 2025.10.17 0 37
814 가상현실에서 변형형 프록시가 감각 통합 및 일치감에 미치는 영향 연구 김민성 2025.10.17 0 36
813 이상 음향 탐지를 위한 경량 Diffusion Transformer 모델의 설계 및 구현 구동한 2025.10.17 0 58
812 VR에서 제자리걸음 동안 주변 시야의 위치와 속도가 비의도적 위치 이동에 미치는 영향 연구 은승우 2025.10.17 0 44
811 실시간 공유화면 AI 분석을 통한 온라인 코딩 시험 부정행위 탐지 시스템 정해원 2025.10.17 0 43
810 지식 그래프 기반의 LLM 수학 추론 성능 향상 기법 박재현 2025.10.17 0 39
809 Autonomous Driving Agent Identification Under Host 도현철 2025.10.17 0 39
808 드론 기반 광역 모니터링 지연 시간 최소화를 위한 효율적 데이터 전송 프로토콜 및 선택적 박동진 2025.10.17 0 37
807 시공간 정보 토큰을 활용한 3D Human Pose Estimation 전민수 2025.10.16 0 41
806 격자기반 양자내성암호 ML-KEM 하드웨어 설계 및 검증 강은세 2025.10.15 0 64
805 배리어프리 전시 서비스를 위한 대화형 수어 질의응답 거대언어모델 연구 허석용 2025.10.15 0 55
804 Long-Axis Guided Diffusion Autoencoder for Through 김준희 2025.10.15 0 46
803 데이터 증강을 활용한 전이 학습 기반 RT 용접 결함 분류 성능 개선 강명현 2025.10.15 0 67