AAAIFeb, 2023

利用未标记的数据进行高效反馈的基于人类偏好的强化学习

TL;DR本文提出了两个损失函数,利用未标记的轨迹集参与奖励学习过程,并结构化奖励模型的嵌入空间以反映状态空间与操作距离之间的结构,旨在提高样本效率和奖励恢复能力,该方法在基于机械臂操作的领域上比当前的最优算法 PEBBLE 表现更好。