Jun, 2022

通过对比学习实现离线元强化学习的稳健任务表示

TL;DR在离线元强化学习的背景下,提出了一种对抗学习框架,用于学习对行为策略不敏感的任务表示,并通过对各种离线元强化学习基准测试的实验,展示了该方法相比之前的方法在行为策略的泛化能力方面的优越性。