Mar, 2022

SURF:数据增强的半监督奖励学习用于反馈高效偏好强化学习

TL;DR本文提出 SURF,一种半监督的奖励学习框架,它使用大量的无标签样本和数据增强。实验表明,该方法显著提高了各种运动和机器人操作任务的最先进基于偏好的方法的反馈效率。