Jun, 2021

PEBBLE: 通过重标记经验和无监督预先训练实现高效互动式强化学习

TL;DR本文提出了一种基于人机交互的强化学习方法,通过主动查询教师偏好,学习奖励模型并使用其训练智能体,使智能体能够学习更加复杂的任务,包括各种运动和机器人操作技能。与标准奖励函数相比,我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。