May, 2024

Off-OAB:具有最佳行动相关基线的离策略策略梯度方法

TL;DR我们提出了一种基于最优行为相关基线的离策略策略梯度方法(Off-OAB),以减轻离策略策略梯度估计器的高方差问题,提高训练过程中的样本效率。在六个代表性任务上对 Off-OAB 方法进行评估,结果表明其在大多数任务上明显优于现有方法。