분류
2025년 8월
작성일
2025.04.01
수정일
2025.07.17
작성자
정혜윤
조회수
208

전이 학습을 통한 사전 학습된 오디오 뉴럴 넷 기반 효과음 분류 및 자동 자막 생성 시스템

본 연구는 다양한 비언어적 효과음을 자동으로 분류하고 자막으로 생성하는 시스템을 제안한다. 제안된 시스템은 웃음소리, 울음소리, 발소리, 총성소리, 비명소리 등 여러 효과음을 탐지하고 분류하기 위해 전이학습을 활용한 사전 학습된 오디오 뉴럴 네트워크 기반 모델을 활용한다. 수집된 오디오 데이터는 사전 학습된 모델을 기반으로 임베딩한 후, 직접 설계한 효과음 분류 모델로 학습하고, 타임스탬프를 기반으로 효과음의 발생 시점과 지속 시간을 포함한 자막을 생성한다. 실험 결과, 단순 효과음 분류를 넘어 복잡한 소음이 포함 되어있는 환경에서도 높은 정확도를 기록하였고, 동시에 발생하는 여러 효과음에 대해서도 효과음을 안정적으로 분류하고 자막화할 수 있음을 입증하였다. 또한, 동일 라벨의 연속 구간을 병합함으로써 자막의 일관성을 유지하고, 사용자들에게 직관적이고 실용적인 미디어 접근성을 제공할 수 있는 가능성을 제시한다.

학위연월
2025년 8월
지도교수
권준호 교수님
키워드
효과음분류, 자막생성, AI, Transfer Learning
소개 웹페이지
https://sites.google.com/pusan.ac.kr/jhy?usp=sharing
첨부파일
첨부파일이(가) 없습니다.
다음글
BLSM-Tree: 블록체인 데이터의 효율적인 범위 탐색을 위한 인덱스 구조
이병영 2025-04-02 09:08:39.68
이전글
Federated Domain Generalization with On-Server Gradient Matching
응우옌쫑빈 2025-04-01 15:09:34.86
RSS 2.0 823
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
823 RAG를 적용한 컨테이너 기반 마이크로서비스의 오류 식별 방법 조대영 2025.12.15 0 139
822 Interpretable Cancer Risk Prediction with a Knowle 박한얼 2025.12.11 0 82
821 스토리지 분리화 환경에서 데이터 이동 최적화를 위한 Near-Data processing 도건우 2025.10.23 0 128
820 Learning a Differentiable Multi-Branch Decision Tr 박한얼 2025.10.21 0 235
819 분산 사이드카 아키텍처 기반 클라우드-네이티브 시스템 콜 모니터링 윤건우 2025.10.19 0 125
818 전시 환경에서의 관람객 행동 분석을 위한 Depth-Aware Zero-Shot HOI 조수현 2025.10.17 0 101
817 멀티모델 통합 선검출 기법의 환경 변화 강건성을 위한 베이지안 최적화 기반 파라미터 김정호 2025.10.17 0 115
816 레이더 기반 사람 행동 인식을 위한 경량 딥러닝 모델 설계 및 구현 곽도균 2025.10.17 0 118
815 메쉬 리깅 기반 안면 3D Gaussian Splatting의 부분 편집 기법 박현수 2025.10.17 0 132
814 가상현실에서 변형형 프록시가 감각 통합 및 일치감에 미치는 영향 연구 김민성 2025.10.17 0 95
813 이상 음향 탐지를 위한 경량 Diffusion Transformer 모델의 설계 및 구현 구동한 2025.10.17 0 134
812 VR 제자리걸음 중 주변부 시각 흐름의 위치와 속도가 비의도적 위치 이동에 미치는 영향 연 은승우 2025.10.17 0 128
811 실시간 공유화면 AI 분석을 통한 온라인 코딩 시험 부정행위 탐지 시스템 정해원 2025.10.17 0 168
810 지식 그래프 기반의 LLM 수학 추론 성능 향상 기법 박재현 2025.10.17 0 163
809 Autonomous Driving Agent Identification Under Host 도현철 2025.10.17 0 108
808 드론 기반 광역 모니터링 지연 시간 최소화를 위한 효율적 데이터 전송 프로토콜 및 선택적 박동진 2025.10.17 0 108
807 시공간 정보 토큰을 활용한 3D Human Pose Estimation 전민수 2025.10.16 0 106
806 격자기반 양자내성암호 ML-KEM 하드웨어 설계 및 검증 강은세 2025.10.15 0 239
805 배리어프리 전시 서비스를 위한 대화형 수어 질의응답 거대언어모델 연구 허석용 2025.10.15 0 132
804 Long-Axis Guided Diffusion Autoencoder for Through 김준희 2025.10.15 0 110