ICLRApr, 2022
PAnDR: 通过解耦策略和环境表示从离线经验中快速适应新环境
PAnDR: Fast Adaptation to New Environments from Offline Experiences via Decoupling Policy and Environment Representations
Tong Sang, Hongyao Tang, Yi Ma, Jianye Hao, Yan Zheng...
TL;DR本文介绍了一种离线训练和在线适应设置下的策略快速适应方案 PAnDR,其通过对比学习和策略恢复学习环境表示和策略表示,在线适应阶段通过梯度上升算法优化策略,在几个典型问题上的实验结果表明,PAnDR 算法可优于现有算法。