Feb, 2024

具有动力学感知奖励的样本高效偏好强化学习

TL;DR通过从代理行为的二进制反馈中学习到的动态感知奖励函数,我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数,我们实现了更快的策略学习和更好的最终策略性能。例如,在四足行走、行走者行走和猎豹奔跑中,在 50 个偏好标签的情况下,我们实现了与现有方法 500 个偏好标签相同的性能,并恢复了 83% 和 66% 的地面真实奖励策略性能,而它们分别只有 38% 和 21%。这些性能提升证明了明确学习动态感知奖励模型的好处。