Feb, 2024

通过功能奖励编码的无监督零样本强化学习

TL;DR我们提出了一种功能奖励编码(FRE)作为零样本强化学习问题的一种通用、可扩展的解决方案,通过使用基于变分自编码器的变压器,学习任意任务的功能表示,从而在大量无标签离线轨迹上预先训练一般性代理,以零样本方式适应任何新的下游任务。