BriefGPT.xyz
Dec, 2022
方差降低的保守策略迭代
Variance-Reduced Conservative Policy Iteration
HTML
PDF
Naman Agarwal, Brian Bullins, Karan Singh
TL;DR
本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从O(ε^-4)到O(ε^-3)的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下,该算法在采样O(ε^-2)次后享有ε-全局最优性,这改善了以前已经建立的O(ε^-3)样本要求。
Abstract
We study the sample complexity of reducing
reinforcement learning
to a sequence of
empirical risk minimization
problems over the
policy space
→