Jun, 2023

CLUE: 离线强化学习的校准潜在指导

TL;DR本文提出了一种基于专家数据提取内在奖励的方法,该方法利用了 Calibrated Latent Guidance (CLUE) 来消除离线 RL 中需要手动指定外部奖励的步骤,并在不同的离线 RL 任务中取得了良好效果。