May, 2024

基于人类偏好和步骤级解释的训练偏好驱动强化学习

TL;DR人在环路强化学习中提供了一种可以让非专家用户通过各种界面进行训练的方法。我们提出了一种新的基于偏好的学习方法,为人们提供了更富表现力的界面,以便其表达对轨迹的偏好,并提供了解释以提高学习速度。