부산대학교

분류: 2025년 8월

작성일: 2025.04.01

수정일: 2025.04.01

작성자: 정혜윤

조회수: 20

전이학습을 통한 사전 학습된 오디오 뉴럴 넷 기반 효과음 분류 및 자동 자막 생성 시스템

본 연구는 다양한 비언어적 효과음을 자동으로 분류하고 자막으로 생성하는 시스템을 제안한다. 제안된 시스템은 웃음소리, 울음소리, 발소리, 총성소리, 비명소리 등 여러 효과음을 탐지하고 분류하기 위해 전이학습을 활용한 사전 학습된 오디오 뉴럴 네트워크 기반 모델을 활용한다. 수집된 오디오 데이터는 사전 학습된 모델을 기반으로 임베딩한 후, 직접 설계한 효과음 분류 모델로 학습하고, 타임스탬프를 기반으로 효과음의 발생 시점과 지속 시간을 포함한 자막을 생성한다. 실험 결과, 단순 효과음 분류를 넘어 복잡한 소음이 포함 되어있는 환경에서도 높은 정확도를 기록하였고, 동시에 발생하는 여러 효과음에 대해서도 효과음을 안정적으로 분류하고 자막화할 수 있음을 입증하였다. 또한, 동일 라벨의 연속 구간을 병합함으로써 자막의 일관성을 유지하고, 사용자들에게 직관적이고 실용적인 미디어 접근성을 제공할 수 있는 가능성을 제시한다.

학위연월: 2025년 8월

지도교수: 권준호 교수님

키워드: 효과음분류, 자막생성, AI, Transfer Learning

소개 웹페이지: https://sites.google.com/pusan.ac.kr/jhy?usp=sharing

첨부파일: 첨부파일이(가) 없습니다.

다음글: BLSM-Tree: 블록체인 데이터의 효율적인 범위 탐색을 위한 인덱스 구조
이병영 2025-04-02 09:08:39.68

이전글: Federated Domain Generalization with On-Server Gradient Matching
응우옌쫑빈 2025-04-01 15:09:34.86

분류

RSS 2.0 781 건

게시물 검색

게시글 리스트

석사학위논문
번호	제목	작성자	작성일	첨부파일	조회수
781	GVMambaIR: Graph Vison Mamba for Image Restoration 새글	리엔 홍키	2025.04.03	0	2
780	드론을 활용한 실시간 원격 흘수 정밀 계측 프레임워크 새글	박찬일	2025.04.02	0	2
779	Mamba-Attention Surface Analysis for Brain Develop 새글	짠시닷	2025.04.02	0	14
778	Multi-Query Retrieval Augmented Generation (RAG) f 새글	리잘디 파흐미	2025.04.02	0	14
777	BLSM-Tree: 블록체인 데이터의 효율적인 범위 탐색을 위한 인덱스 구조 새글	이병영	2025.04.02	0	5
776	전이학습을 통한 사전 학습된 오디오 뉴럴 넷 기반 효과음 분류 및 자동 자막 생성 시스템 새글	정혜윤	2025.04.01	0	20
775	Federated Domain Generalization with On-Server Gra 새글	응우옌쫑빈	2025.04.01	0	24
774	Learning to Rank for Accelerating Virtual Screenin 새글	배종현	2025.04.01	0	22
773	텍스트 종속 화자 검증을 위한 경량 딥러닝 모델의 설계 및 구현 새글	신채림	2025.03.31	0	39
772	실내 NLOS 환경에서 RTLS 정확도 향상을 위한 편향 및 편차 맵 기반 가중 그래프 탐	안현기	2024.10.18	0	116
771	비정형 환경 아크 센싱 개선을 위한 중간값 기반 데이터 클러스터링 활용 기법	김희준	2024.10.17	2	101
770	그래프 구조 기반 K-Means를 사용한 간선 방문 지향 MCPP	이해성	2024.10.15	0	91
769	트랜스포머 기반의 폐암 슬라이드 이미지 자동분할에 대한 연구	이리나	2024.10.14	0	92
768	마스크 기반 재식별 최적화와 Multi o bject Tracking에서의 ID-Switc	유수빈	2024.10.14	0	102
767	Histone Modification Peak Imputation Using Mixture	김민수	2024.10.14	0	66
766	Shor 알고리즘 최적화를 위한 양자 회로에서의 곱셈 연산	조재한	2024.10.14	0	129
765	ML-DSA를 위한 하드웨어 기반 NTT 및 다항식 연산 가속기 설계 및 개발	정병욱	2024.10.14	0	159
764	GS-Transformer : 사람 행동 인식을 위한 경량 트랜스포머 모델의 설계 및 구현	정혜선	2024.10.14	0	96
763	아동-로봇간 정서적 상호작용을 위한 대화 시스템의 설계 및 구현	김다영	2024.10.14	0	60
762	하이브리드 매핑 기법을 이용한 Zoned Namespace SSD를 위한 디바이스 매퍼 성	임경민	2024.10.14	0	89

석사학위논문

번호

제목

작성자

작성일

첨부파일

조회수

781

GVMambaIR: Graph Vison Mamba for Image Restoration 새글

리엔 홍키

2025.04.03

780