Oct, 2023

自然策略梯度算法对无限时间折扣回报马尔可夫决策过程的参数化泛化的样本复杂度改进

TL;DR设计高效学习算法解决无限时间折扣奖励马尔可夫决策过程问题,提出了应用加速随机梯度下降过程获取自然策略梯度的加速自然策略梯度算法(ANPG)。ANPG 在一般参数化情况下,实现了 O (ε^-2) 的样本复杂度和 O (ε^-1) 的迭代复杂度,其中 ε 定义了最优性误差。相比现有技术,ANPG 通过一个 log (1/ε) 因子改进了样本复杂度。ANPG 是一个一阶算法,并且不需要假设重要性采样权重的方差有上界,这与一些现有文献不同。在无 Hessian 和无重要性采样算法类别中,ANPG 的样本复杂度超过了已知算法的 O (ε^-1/2) 倍,并与他们的迭代复杂度相匹配。