Mar, 2024

通过重要性采样在自然策略梯度中重新使用历史轨迹:收敛性和收敛速率

TL;DR本文研究了一种重用历史轨迹的自然策略梯度方法变体,并证明了所提梯度估计器的偏差在渐近上是可以忽略的,算法收敛且重用过去的轨迹有助于提高收敛速度。我们进一步将所提估计器应用于流行的策略优化算法,如信任区域策略优化,并在经典基准测试上验证了我们的理论结果。