Jul, 2023

通过自适应评分学习提高交互式强化学习的反馈效率

TL;DR本文提出了一种新的方法,使用由人提供的分数代替成对偏好,在交互式强化学习中提高反馈效率,该方法在机器人运动和操作任务中得到广泛评估,结果表明,该方法可以通过自适应学习从分数中高效学习接近最优策略,而无需像成对偏好学习方法那样需要更少的反馈。