Dec, 2023

目标导向的迁移学习的明确价值预训练

TL;DR提出了一种方法,可以通过基于价值函数估计的一系列观察结果来学习任务无关的表示,其中最后一帧对应于一个目标状态。这些表示将学习通过与目标状态的时序距离相关的不同任务之间的状态,无论外观变化和动力学如何。这种方法可以用于将学习的策略 / 技能转移到未见过的相关任务。