본 연구는 다양한 비언어적 효과음을 자동으로 분류하고 자막으로 생성하는 시스템을 제안한다. 제안된 시스템은 웃음소리, 울음소리, 발소리, 총성소리, 비명소리 등 여러 효과음을 탐지하고 분류하기 위해 전이학습을 활용한 사전 학습된 오디오 뉴럴 네트워크 기반 모델을 활용한다. 수집된 오디오 데이터는 사전 학습된 모델을 기반으로 임베딩한 후, 직접 설계한 효과음 분류 모델로 학습하고, 타임스탬프를 기반으로 효과음의 발생 시점과 지속 시간을 포함한 자막을 생성한다. 실험 결과, 단순 효과음 분류를 넘어 복잡한 소음이 포함 되어있는 환경에서도 높은 정확도를 기록하였고, 동시에 발생하는 여러 효과음에 대해서도 효과음을 안정적으로 분류하고 자막화할 수 있음을 입증하였다. 또한, 동일 라벨의 연속 구간을 병합함으로써 자막의 일관성을 유지하고, 사용자들에게 직관적이고 실용적인 미디어 접근성을 제공할 수 있는 가능성을 제시한다.