Nov, 2023

离线元强化学习的背景变化削减

TL;DR使用离线数据集,提出了一种名为 CSRO 的新方法来解决上下文转换问题,该方法在元训练和元测试阶段都能显著减少上下文转换,并提高了泛化能力。