Oct, 2023

约束的演员 - 评论家算法和约束的自然演员 - 评论家算法的有限时间分析

TL;DR通过应用 Lagrange 乘数法,我们对带有不等式约束的 C-MDP 中的 actor critic 和 natural actor critic 算法进行了非渐近分析,并证明这些算法在非独立同分布(Markovian)环境中能够找到性能函数的一阶稳定点,其采样复杂度分别为 ε^{-2.5}(C-AC 算法和 C-NAC 算法)。我们还在几个不同的网格环境中进行了实验,并观察到这两个算法在大网格尺寸上的良好实验结果,受限的自然 actor critic 稍微优于受限的 actor critic,而对于小网格尺寸,后者稍微优于前者。