Mar, 2024

强化学习的离线多任务表示学习

TL;DR我们研究了强化学习中的离线多任务表示学习,理论上研究了离线多任务低秩强化学习,并提出了一种名为 MORL 的用于离线多任务表示学习的新算法。此外,我们还研究了奖励缺失、离线和在线情景下的下游强化学习,在其中引入了一个与上游离线任务共享相同表示的新任务。我们的理论结果证明了使用上游离线任务学到的表示而不是直接学习低秩模型的表示的好处。