Jun, 2023

通过最优输运进行离线强化学习的零样本偏好学习

TL;DR提出一种新颖的零样本基于偏好的强化学习算法,利用源任务的标注偏好数据来推断目标任务的标注数据,然后利用Gromov-Wasserstein距离来对齐源任务和目标任务的轨迹分布,并使用Robust Preference Transformer模型来训练奖励函数和策略模型,其结果表明该方法具有在转移学习环境下学习偏好并能从含噪偏好标签学习奖励函数的能力。