[제목]
Code-mixing 환경을 위한 한국어 통합 G2P 시스템
[요약]
음성 합성(TTS)의 핵심 전처리 단계인 G2P(Grapheme-to-Phoneme) 변환은 한국어의 복잡한 음운 변동 규칙과 한글, 숫자, 영어가 혼재된 code-mixed 텍스트 처리라는 난제를 안고 있다. 기존의 Autoregressive(AR) 모델은 높은 정확도를 보이나 속도가 느리고, Non-Autoregressive(NAR) 모델은 빠르지만 연음 등 순차적 의존성 처리에 취약하여 정확도가 낮은 한계가 있었다. 본 연구는 이러한 속도와 정확도의 트레이드오프(Trade-off)를 극복하기 위해, NAR 디코더에 Positional Attention을 결합한 새로운 아키텍처를 제안한다. 제안 모델은 인접 음절 간의 위치 기반 의존성을 명시적으로 학습함으로써 순차적 디코딩 없이도 음운 변동을 효과적으로 처리한다. 이를 위해 KoCharELECTRA 인코더와 Transformer 디코더를 통합하고, 실세계 텍스트 처리를 위해 CLDNN 기반 숫자 분류와 3단계 계단식 영어 변환을 포함한 강건한 통합 전처리 파이프라인을 구축하였다. 84,937개 문장의 KT 실세계 발화 데이터 실험 결과, 제안 시스템은 순수 한글 텍스트에서 94.77%의 문장 정확도를 달성하여 기존 AR 최고 모델(92.79%)을 상회하는 성능을 기록하였다. 이는 NAR 모델이 AR 모델의 구조적 한계인 오류 전파 문제를 극복할 수 있음을 입증한 결과이다. 추론 속도 또한 11.2ms/sent로 AR 모델 대비 약 4배 향상되었다. Code-mixing 환경에서도 92.6%의 정확도를 기록하여 최신 경쟁 모델인 SMART-G2P(46.85%) 대비 2배 이상의 성능 격차를 확인하였다. 본 연구는 NAR 기반 모델이 한국어 G2P 태스크에서 속도와 정확도를 동시에 만족하는 최적의 해법임을 규명하고, 실시간 고품질 TTS 서비스를 위한 실용적 가이드라인을 제시한다.