Nov, 2022

泛状态和行为空间上的政策优化

TL;DR本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习(RL)问题,引入了新的方法将函数逼近与此方法相结合,从而完全不需要使用显式策略参数化。此外,还提出了一种新的政策对偶平均方法,其中可能可以应用更简单的函数逼近技术。在精确策略评估下,我们将这些方法应用于解决不同类别的 RL 问题,为这些方法的全局最优性或局部最优性建立线性收敛速度,探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知,这些算法框架的开发以及它们的收敛分析似乎是文献中新的。