Jun, 2022

离线目标条件强化学习的 $f$- 优势回归方法

TL;DR提出了一种新的基于回归的离线 GCRL 算法 GoFAR,通过状态匹配方法解决了目标达成任务问题,并充分利用价值函数和策略网络的优势,在离线性能和稳定性方面表现优异。GoFAR 的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器,实现了零样本迁移。通过实验证明,GoFAR 在各种问题和任务中都表现出比之前现有技术的显著优势。