May, 2024

NPG 在可数状态空间平均成本强化学习中的性能

TL;DR本研究考虑了在强化学习环境中状态空间任意大、甚至可数无限的政策优化方法,重点是通信网络、匹配市场和其他排队系统的控制问题。我们研究了自然策略梯度 (Natural Policy Gradient, NPG) 在有限状态空间上的流行算法。在合理的假设下,我们得到了 NPG 的性能上界,该上界与状态空间的大小无关,只要策略评估误差在真实值函数的某个倍数内。我们通过建立关于 Poisson 方程解(即相对值函数)的新的与策略无关的界限,并将这些界限与先前已知的马尔可夫决策过程 (MDP) 和从专家学习的联系相结合,得到了这个结果。