분류
2024년 8월
작성일
2024.05.01
수정일
2024.05.01
작성자
김민욱
조회수
11

CAST: Cluster-Aware Self-Training for Tabular Data

Abstract


Self-training has gained attraction because of its simplicity and versatility, yet it is vulnerable to noisy pseudo-labels caused by erroneous confidence. Several solutions have been proposed to handle the problem, but they require significant modifications in self-training algorithms or model architecture, and most have limited applicability in tabular domains. To address this issue, we explore a novel direction of reliable confidence in self-training contexts and conclude that the confidence, which represents the value of the pseudo-label, should be aware of the cluster assumption. In this regard, we propose Cluster-Aware Self-Training (CAST) for tabular data, which enhances existing self-training algorithms at a negligible cost without significant modifications. Concretely, CAST regularizes the confidence of the classifier by leveraging local density for each class in the labeled training data, forcing the pseudo-labels in low-density regions to have lower confidence. Extensive empirical evaluations on up to 23 real-world datasets confirm not only the superior performance of CAST but also its robustness in various setups in self-training contexts.

학위연월
2024년 8월
지도교수
송길태
키워드
소개 웹페이지
https://humane-angelfish-191.notion.site/CAST-Cluster-Aware-Self-Training-for-Tabular-Data-e4b068afc22544d89087695f770c262c?pvs=4
첨부파일
첨부파일이(가) 없습니다.
다음글
다음글이(가) 없습니다.
이전글
코딩 스타일 교육을 위한 자동 채점 시스템 개선
김영훈 2024-04-11 12:01:50.323
RSS 2.0 749
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
749 CAST: Cluster-Aware Self-Training for Tabular Data 김민욱 2024.05.01 0 11
748 코딩 스타일 교육을 위한 자동 채점 시스템 개선 김영훈 2024.04.11 0 51
747 High-Precision Vehicle Trajectory Prediction using 김민성 2024.04.04 0 52
746 LLM 모델을 활용한 한국어 맞춤법 교정 성능 최적화 방안 연구 정주경 2024.04.04 0 75
745 블록체인 기반 항만 특화 통합 보안 관제 솔루션 오경우 2024.04.04 0 46
744 포인트 클라우드 Semantic 필터링 기반 3차원 객체 탐지 연구 정민규 2024.04.04 0 57
743 지식증류 기반의 경량 3차원 거리 추정 기법 연구 김장현 2024.04.04 0 47
742 Context-Aware Dynamic Detection for Ransomware us 프라티위 밀라티 2024.04.04 0 44
741 자기공명영상 기반 심장 영역 분할 및 질병 진단을 위한 자동화 프레임워크 개발 김민수 2024.04.04 0 33
740 경량화된 실시간 발화자 탐지 모델 정성헌 2024.04.04 0 54
739 Warehouse 물류 로봇을 위한 Visual SLAM 알고리즘 구현과 성능 실험 강민재 2024.04.04 0 40
738 Secure Implementation of End-to-End IoT Communicat 락스모노 아구스 마하르디카 아리 2024.04.04 0 46
737 전자건강기록 (EHR) 데이터와 심전도 (ECG) 데이터를 활용한 관상동맥 질환 환자의 사 강동길 2024.04.04 0 50
736 Comparative Analysis of Cross-Platform and Native 이브로키모브 사도르벡 2024.04.04 0 38
735 RAG 기반 대규모 언어 모델 할루시네이션 억제 효과 분석 및 챗봇 시스템 구현 방안 신영재 2024.04.04 0 64
734 도메인 특화 대화형 모델에서의 파인튜닝 및 RAG 기법에 따른 답변 품질 비교 연구 김보금 2024.04.04 0 49
733 PQC, LLM을 활용한 항만 보안 위협 대응 블록체인 서비스 설계 정한호 2024.04.04 0 45
732 발전소 점검 데이터 분석을 위한 LLM 기반 정보 추출 및 시계열 데이터 분석 프레임워크 심혜진 2024.04.04 0 66
731 확장성 및 익명성 보장을 고려한 온체인 및 디파이(Defi) 활동 데이터 기반 신용평가 모 오시몬 2024.04.04 0 46
730 증강현실에서 가상 물체와 실제 물체의 상호작용에 발생하는 latency 분석 및 개선 방안 엄지훈 2024.04.03 0 57