Feb, 2024

有限时间分析下的平均奖励 MDP 函数逼近中的 Critic-Actor

TL;DR我们提出了一种具有函数逼近和长期平均回报设置的第一个评判者 - 演员算法,并对此方案进行了非渐进(有限时间)分析。我们获得了最佳学习速率,并证明了我们的算法实现了关于演员 - 评判者算法类似设置下,评判者均方误差的样本复杂度能够由一个上界为 ε 的值 ο(ε^-2.08) 来确定,优于演员 - 评判者算法。我们还展示了在三个基准环境上的数值实验结果,并观察到评判者 - 演员算法与演员 - 评判者算法的竞争表现。