숙련도 추정 기반 적응형 보상 가중치 재분배 기법을 이용한 강화학습
  • 분류 2026년 8월
  • 작성일 2026.04.03
  • 작성자 이창민
  • 조회수 120

제목
숙련도 추정 기반 적응형 보상 가중치 재분배 기법을 이용한 강화학습

초록

강화학습에서 보상 함수는 여러 보상 항의 선형 결합으로 구성되며, 각 보상 항의 가중치는 학습 성능에 중요한 영향을 미친다. 그러나 기존 방법에서는 이러한 가중치를 고정된 값으로 설정하거나 수동으로 조정해야 하며, 학습 과정에서 변화하는 행동 성분의 수행 수준을 반영하지 못한다는 한계가 있다. 본 논문에서는 숙련도 추정 기반 Adaptive Reward Weighting 기법을 제안한다. 제안 방법은 각 보상 항에 대한 수행 수준을 정량화하여 숙련도 지표로 변환하고, 이를 기반으로 보상 가중치를 동적으로 조정한다. 특히, 에피소드 종료 시점의 숙련도 정보를 누적하여 일정 간격마다 가중치를 업데이트하고, 단계적 가중치 프로파일과 지수 이동 평균을 통해 안정적인 가중치 변화를 유도한다. 제안 기법을 인핸드 매니퓰레이션 환경에 적용하여 실험을 수행한 결과, 고정 가중치 방식 대비 학습 안정성과 성능이 향상됨을 확인하였다. 본 연구는 별도의 수동 튜닝 없이도 보상 구조를 자동으로 조정할 수 있는 효과적인 방법을 제시한다.

학위연월
2026년 8월

이메일
lak0192@pusan.ac.kr

지도교수
김원석 교수

키워드
Reward Shaping, Adaptive Reward Shaping, Reward Weighting

소개 웹페이지
https://sites.google.com/view/changminlee-paper

    첨부파일이(가) 없습니다.