Oct, 2023

自然策略梯度算法对无限时间折扣回报马尔可夫决策过程的参数化泛化的样本复杂度改进

TL;DR设计高效学习算法解决无限时间折扣奖励马尔可夫决策过程问题,提出了应用加速随机梯度下降过程获取自然策略梯度的加速自然策略梯度算法(ANPG)。ANPG在一般参数化情况下,实现了O(ε^-2)的样本复杂度和O(ε^-1)的迭代复杂度,其中ε定义了最优性误差。相比现有技术,ANPG通过一个log(1/ε)因子改进了样本复杂度。ANPG是一个一阶算法,并且不需要假设重要性采样权重的方差有上界,这与一些现有文献不同。在无Hessian和无重要性采样算法类别中,ANPG的样本复杂度超过了已知算法的O(ε^-1/2)倍,并与他们的迭代复杂度相匹配。