May, 2024
Off-OAB:具有最佳行动相关基线的离策略策略梯度方法
Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline
Wenjia Meng, Qian Zheng, Long Yang, Yilong Yin, Gang Pan
TL;DR我们提出了一种基于最优行为相关基线的离策略策略梯度方法(Off-OAB),以减轻离策略策略梯度估计器的高方差问题,提高训练过程中的样本效率。在六个代表性任务上对 Off-OAB 方法进行评估,结果表明其在大多数任务上明显优于现有方法。