분류
2024년 8월
작성일
2024.04.04
수정일
2024.07.18
작성자
김보금
조회수
171

사이버보안 분야의 대형 언어 모델 적용을 위한 SFT 및 RAG 기법의 성능 비교분석

본 논문은 대형 언어 모델(LLM)을 도메인 특화 태스크에 적용하기 위한 두 가지 접근 방식인 Supervised Fine-Tuning(SFT)Retrieval-Augmented Generation(RAG)을 사이버보안 분야 중 침투 테스트에 초점을 맞춰 실험하고 결과를 비교 분석하였다. 자체적으로 구축한 한국어 데이터셋과 오픈소스 모델을 활용하여 실험을 진행한 결과, Llama-3-Open-Ko-8B를 베이스 모델로 SFT를 진행한 모델이 비교 대상 모델을 포함한 세 가지 모델 중 72.3%의 정확도로 가장 높은 성능을 보였다. 본 연구에서 RAG 기법은 그 장점이 두드러지지 않았지만, 간단한 방식으로 구현되었기 때문에 인덱싱 및 청킹 세분화 등 다양한 최적화 기법을 적용한다면 성능이 개선될 가능성이 있다.

본 연구를 통해 한국어 기반 사이버보안 데이터셋의 중요성과 이를 활용한 LLM의 학습이 사이버보안 분야에서 유용하게 쓰일 수 있는 것을 확인하였다. 특히 한국어 데이터셋이 부족한 상황에서도 SFT를 적용한 도메인 특화 학습이 유의미한 성과를 거둘 수 있음을 보여주었다. 또한, 실험을 통해 사이버보안 도메인에 LLM을 적용했을 때 얻을 수 있는 결과를 구체적으로 보임으로써 국내 사이버보안 연구의 LLM 적용 가능성을 확인하였다.

학위연월
2024년 8월
지도교수
김호원
키워드
LLM, 대화형 AI
소개 웹페이지
https://sites.google.com/view/notsilverbutgold/%ED%99%88
첨부파일
첨부파일이(가) 없습니다.
다음글
RAG 기반 대규모 언어 모델 할루시네이션 억제 효과 분석 및 챗봇 시스템 구현 방안
신영재 2024-04-04 10:31:48.577
이전글
항만 터미널 운영 시스템을 위한 양자내성암호 기반 블록체인 플랫폼
정한호 2024-04-04 10:16:25.873
RSS 2.0 823
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
823 RAG를 적용한 컨테이너 기반 마이크로서비스의 오류 식별 방법 조대영 2025.12.15 0 142
822 Interpretable Cancer Risk Prediction with a Knowle 박한얼 2025.12.11 0 87
821 스토리지 분리화 환경에서 데이터 이동 최적화를 위한 Near-Data processing 도건우 2025.10.23 0 128
820 Learning a Differentiable Multi-Branch Decision Tr 박한얼 2025.10.21 0 240
819 분산 사이드카 아키텍처 기반 클라우드-네이티브 시스템 콜 모니터링 윤건우 2025.10.19 0 134
818 전시 환경에서의 관람객 행동 분석을 위한 Depth-Aware Zero-Shot HOI 조수현 2025.10.17 0 103
817 멀티모델 통합 선검출 기법의 환경 변화 강건성을 위한 베이지안 최적화 기반 파라미터 김정호 2025.10.17 0 123
816 레이더 기반 사람 행동 인식을 위한 경량 딥러닝 모델 설계 및 구현 곽도균 2025.10.17 0 119
815 메쉬 리깅 기반 안면 3D Gaussian Splatting의 부분 편집 기법 박현수 2025.10.17 0 136
814 가상현실에서 변형형 프록시가 감각 통합 및 일치감에 미치는 영향 연구 김민성 2025.10.17 0 98
813 이상 음향 탐지를 위한 경량 Diffusion Transformer 모델의 설계 및 구현 구동한 2025.10.17 0 137
812 VR 제자리걸음 중 주변부 시각 흐름의 위치와 속도가 비의도적 위치 이동에 미치는 영향 연 은승우 2025.10.17 0 133
811 실시간 공유화면 AI 분석을 통한 온라인 코딩 시험 부정행위 탐지 시스템 정해원 2025.10.17 0 177
810 지식 그래프 기반의 LLM 수학 추론 성능 향상 기법 박재현 2025.10.17 0 167
809 Autonomous Driving Agent Identification Under Host 도현철 2025.10.17 0 111
808 드론 기반 광역 모니터링 지연 시간 최소화를 위한 효율적 데이터 전송 프로토콜 및 선택적 박동진 2025.10.17 0 111
807 시공간 정보 토큰을 활용한 3D Human Pose Estimation 전민수 2025.10.16 0 108
806 격자기반 양자내성암호 ML-KEM 하드웨어 설계 및 검증 강은세 2025.10.15 0 242
805 배리어프리 전시 서비스를 위한 대화형 수어 질의응답 거대언어모델 연구 허석용 2025.10.15 0 133
804 Long-Axis Guided Diffusion Autoencoder for Through 김준희 2025.10.15 0 113