Mar, 2024

透过敌对数据增强从离线任务表示学习中解离策略

TL;DR离线元强化学习(OMRL)通过仅依赖静态数据集,使代理程序能够有效应对新任务。然而,许多现有的 OMRL 方法中,学到的任务表示往往与行为策略产生虚假相关,而非准确反映任务的本质特征。为了解决这个问题,我们提出了一种新的算法,通过对抗性数据增强的过程来消除行为策略对任务表示学习的影响,并实现了令人满意的分布外泛化。