Nov, 2023

RLIF:交互仿真学习作为强化学习

TL;DR通过使用强化学习和用户干预信号本身作为奖励函数,我们提出了一种新的方法来改进交互式模仿学习,克服了潜在次优人类专家的限制,并在挑战性的控制问题中具有较好的性能。