ICLRApr, 2022

PAnDR: 通过解耦策略和环境表示从离线经验中快速适应新环境

TL;DR本文介绍了一种离线训练和在线适应设置下的策略快速适应方案 PAnDR,其通过对比学习和策略恢复学习环境表示和策略表示,在线适应阶段通过梯度上升算法优化策略,在几个典型问题上的实验结果表明,PAnDR 算法可优于现有算法。