분류
2024년 8월
작성일
2024.04.04
수정일
2024.06.25
작성자
정주경
조회수
609

LLM 모델을 활용한 한국어 맞춤법 교정 성능 최적화 방안 연구

전통적인 맞춤법 교정 시스템은 규칙 기반이 사용되었으나, ChatGPT와 같은 대규모 언어 모델의 등장으로 이러한 시스템들의 성능이 크게 향상되었다. 본 논문에서는 한국어 맞춤법 교정을 위해 대규모 언어 모델을 사용하고, 모델의 성능 최적화를 위해 다양한 강화 학습 방법을 적용하여 성능을 평가하고 비교하였다. 주요 모델로는 Polyglot-koLlama3가 사용되었으며, 이 모델들은 다른 외부 시스템과 비교하는 실험을 진행했다. 미세 조정된 모델의 beam 후보 문장 분석을 통해 다수의 정답이 포함된 후보 문장의 존재를 확인하였으며, 모델의 잠재적 성능을 최대화하기 위해 강화 학습을 적용하였다. Polyglot-ko 모델에서는 RRHF 방법을 적용했을 때 SFT 모델 대비 문장 정확도가 20% 이상 향상되어 최고 73.79%를 기록했으며, CPO 적용 시 최고 61.95%의 성능을 보였다. Llama3 모델의 경우, SFT 모델의 성능은 78.34% 였으며, CPORRHF 적용 후 각각 최고 773.32%80.19%의 성능을 보여 약 2%의 향상을 나타냈다. 본 연구 결과는 대규모 언어 모델이 한국어 맞춤법 교정에 효과적임을 입증하며, RRHF 방법이 맞춤법 교정 작업에 특히 효과적임을 시사한다. 또한, 성능 최적화를 위해 다양한 데이터로 구성하여 학습을 진행하였다. 모델이 자체 생성한 beam 후보 문장을 이용한 학습과 외부 시스템을 사용하여 생성된 데이터로 학습한 결과를 비교하였을 때 성능 차이가 미미하였다. 이는 내부 자원을 활용하는 것이 비용 측면에서 합리적이며, 기존 모델에 이미 최적화된 자체 생성 데이터를 활용하는 것이 더 효과적일 수 있음을 보여준다. 이처럼, 모델의 성능을 최적화하기 위해 다양한 강화 학습 방법과 데이터 구성 방식으로 효율적인 학습 방법을 제시한다.

학위연월
2024.08
지도교수
권혁철
키워드
LLM, 맞춤법, NLP
소개 웹페이지
https://sites.google.com/pusan.ac.kr/jjk801/%ED%99%88?authuser=2
첨부파일
첨부파일이(가) 없습니다.
다음글
High-Precision Vehicle Trajectory Prediction using Situation-Aware Transformer and Link Projection
김민성 2024-04-04 15:30:34.93
이전글
블록체인 기반 항만 이벤트 관제 시스템 설계 및 구현
오경우 2024-04-04 15:19:38.687
RSS 2.0 823
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
823 RAG를 적용한 컨테이너 기반 마이크로서비스의 오류 식별 방법 조대영 2025.12.15 0 142
822 Interpretable Cancer Risk Prediction with a Knowle 박한얼 2025.12.11 0 86
821 스토리지 분리화 환경에서 데이터 이동 최적화를 위한 Near-Data processing 도건우 2025.10.23 0 128
820 Learning a Differentiable Multi-Branch Decision Tr 박한얼 2025.10.21 0 240
819 분산 사이드카 아키텍처 기반 클라우드-네이티브 시스템 콜 모니터링 윤건우 2025.10.19 0 134
818 전시 환경에서의 관람객 행동 분석을 위한 Depth-Aware Zero-Shot HOI 조수현 2025.10.17 0 103
817 멀티모델 통합 선검출 기법의 환경 변화 강건성을 위한 베이지안 최적화 기반 파라미터 김정호 2025.10.17 0 123
816 레이더 기반 사람 행동 인식을 위한 경량 딥러닝 모델 설계 및 구현 곽도균 2025.10.17 0 119
815 메쉬 리깅 기반 안면 3D Gaussian Splatting의 부분 편집 기법 박현수 2025.10.17 0 136
814 가상현실에서 변형형 프록시가 감각 통합 및 일치감에 미치는 영향 연구 김민성 2025.10.17 0 98
813 이상 음향 탐지를 위한 경량 Diffusion Transformer 모델의 설계 및 구현 구동한 2025.10.17 0 137
812 VR 제자리걸음 중 주변부 시각 흐름의 위치와 속도가 비의도적 위치 이동에 미치는 영향 연 은승우 2025.10.17 0 133
811 실시간 공유화면 AI 분석을 통한 온라인 코딩 시험 부정행위 탐지 시스템 정해원 2025.10.17 0 177
810 지식 그래프 기반의 LLM 수학 추론 성능 향상 기법 박재현 2025.10.17 0 167
809 Autonomous Driving Agent Identification Under Host 도현철 2025.10.17 0 111
808 드론 기반 광역 모니터링 지연 시간 최소화를 위한 효율적 데이터 전송 프로토콜 및 선택적 박동진 2025.10.17 0 111
807 시공간 정보 토큰을 활용한 3D Human Pose Estimation 전민수 2025.10.16 0 108
806 격자기반 양자내성암호 ML-KEM 하드웨어 설계 및 검증 강은세 2025.10.15 0 242
805 배리어프리 전시 서비스를 위한 대화형 수어 질의응답 거대언어모델 연구 허석용 2025.10.15 0 133
804 Long-Axis Guided Diffusion Autoencoder for Through 김준희 2025.10.15 0 113