4차 산업혁명과 함께 스마트 팩토리의 확산으로 설비의 가동률 향상과 불량률 감소를 위한 예측 정비 및 실시간 모니터링 기술의 중요성이 커지고 있다. 이러한 스마트 제조 환경에서는 다양한 센서를 통해 설비 데이터를 수집하고 딥러닝 기반 이상 탐지 모델을 활용하여 이상 징후를 조기에 감지함으로써 유지보수 비용을 절감하고 생산 효율을 극대화할 수 있다. 본 논문에서는 Diffusion 모델의 생성 능력과 Transformer의 시퀀스 표현 성능을 결합한 경량 Diffusion Transformer 기반 이상 음향 탐지 모델을 제안한다. 제안 모델은 시간-주파수 도메인에서 음향 신호를 입력받아 정상 데이터 분포를 확률적 확산 과정으로 학습하고 이상 샘플에 대한 복원 오차를 통해 이상 여부를 판단한다. 또한, 모델의 경량화를 통해 엣지 디바이스 환경에서도 실시간 탐지가 가능하도록 설계하였다. 본 연구는 경량 생성 모델을 활용한 실시간 이상 음향 탐지의 새로운 접근 방향을 제시하며 자원 제약적인 산업 현장에서도 효율적이고 신뢰성 높은 이상 탐지 시스템 구현 가능성을 입증하였다.