Jun, 2022
离线目标条件强化学习的$f$-优势回归方法
How Far I'll Go: Offline Goal-Conditioned Reinforcement Learning via
$f$-Advantage Regression
TL;DR提出了一种新的基于回归的离线GCRL算法GoFAR,通过状态匹配方法解决了目标达成任务问题,并充分利用价值函数和策略网络的优势,在离线性能和稳定性方面表现优异。GoFAR的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器,实现了零样本迁移。通过实验证明,GoFAR在各种问题和任务中都表现出比之前现有技术的显著优势。