Aug, 2023

时间差分学习中,针对错误设计的奖励的终止状态的故意低估价值函数

TL;DR本文提出了一种在终止后故意低估值以避免由于无意中的高估引起的学习失败的方法,并根据终止时的稳定度调整低估程度,从而防止由于故意低估引起的过度探索。通过模拟和真实机器人实验表明,所提出的方法能够稳定地获取各种任务和奖励设计的最优策略。