본 논문은 대형 언어 모델(LLM)을 도메인 특화 태스크에 적용하기 위한 두 가지 접근 방식인 Supervised Fine-Tuning(SFT)과 Retrieval-Augmented Generation(RAG)을 사이버보안 분야 중 침투 테스트에 초점을 맞춰 실험하고 결과를 비교 분석하였다. 자체적으로 구축한 한국어 데이터셋과 오픈소스 모델을 활용하여 실험을 진행한 결과, Llama-3-Open-Ko-8B를 베이스 모델로 SFT를 진행한 모델이 비교 대상 모델을 포함한 세 가지 모델 중 72.3%의 정확도로 가장 높은 성능을 보였다. 본 연구에서 RAG 기법은 그 장점이 두드러지지 않았지만, 간단한 방식으로 구현되었기 때문에 인덱싱 및 청킹 세분화 등 다양한 최적화 기법을 적용한다면 성능이 개선될 가능성이 있다.
본 연구를 통해 한국어 기반 사이버보안 데이터셋의 중요성과 이를 활용한 LLM의 학습이 사이버보안 분야에서 유용하게 쓰일 수 있는 것을 확인하였다. 특히 한국어 데이터셋이 부족한 상황에서도 SFT를 적용한 도메인 특화 학습이 유의미한 성과를 거둘 수 있음을 보여주었다. 또한, 실험을 통해 사이버보안 도메인에 LLM을 적용했을 때 얻을 수 있는 결과를 구체적으로 보임으로써 국내 사이버보안 연구의 LLM 적용 가능성을 확인하였다.