전통적인 맞춤법 교정 시스템은 규칙 기반이 사용되었으나, ChatGPT와 같은 대규모 언어 모델의 등장으로 이러한 시스템들의 성능이 크게 향상되었다. 본 논문에서는 한국어 맞춤법 교정을 위해 대규모 언어 모델을 사용하고, 모델의 성능 최적화를 위해 다양한 강화 학습 방법을 적용하여 성능을 평가하고 비교하였다. 주요 모델로는 Polyglot-ko와 Llama3가 사용되었으며, 이 모델들은 다른 외부 시스템과 비교하는 실험을 진행했다. 미세 조정된 모델의 beam 후보 문장 분석을 통해 다수의 정답이 포함된 후보 문장의 존재를 확인하였으며, 모델의 잠재적 성능을 최대화하기 위해 강화 학습을 적용하였다. Polyglot-ko 모델에서는 RRHF 방법을 적용했을 때 SFT 모델 대비 문장 정확도가 20% 이상 향상되어 최고 73.79%를 기록했으며, CPO 적용 시 최고 61.95%의 성능을 보였다. Llama3 모델의 경우, SFT 모델의 성능은 78.34% 였으며, CPO와 RRHF 적용 후 각각 최고 773.32%와 80.19%의 성능을 보여 약 2%의 향상을 나타냈다. 본 연구 결과는 대규모 언어 모델이 한국어 맞춤법 교정에 효과적임을 입증하며, RRHF 방법이 맞춤법 교정 작업에 특히 효과적임을 시사한다. 또한, 성능 최적화를 위해 다양한 데이터로 구성하여 학습을 진행하였다. 모델이 자체 생성한 beam 후보 문장을 이용한 학습과 외부 시스템을 사용하여 생성된 데이터로 학습한 결과를 비교하였을 때 성능 차이가 미미하였다. 이는 내부 자원을 활용하는 것이 비용 측면에서 합리적이며, 기존 모델에 이미 최적화된 자체 생성 데이터를 활용하는 것이 더 효과적일 수 있음을 보여준다. 이처럼, 모델의 성능을 최적화하기 위해 다양한 강화 학습 방법과 데이터 구성 방식으로 효율적인 학습 방법을 제시한다.