Oct, 2024
基于占用度近似的策略梯度算法样本复杂性研究
On the Sample Complexity of a Policy Gradient Algorithm with Occupancy
Approximation for General Utility Reinforcement Learning
TL;DR本研究解决在广义效用强化学习中占用度估计问题,提出了一种新的策略梯度算法PG-OMA,通过最大似然估计近似占用度。我们的主要发现是,该算法的样本复杂性分析表明,占用度估计误差仅与函数近似类的维度相关,不受状态-动作空间大小影响。