Sep, 2023

无模型 LQR 的 Oracle 复杂度减小:一种随机方差减小策略梯度方法

TL;DR通过随机方差缩减策略梯度方法,我们研究了离散时间线性二次调节器(LQR)问题的学习 ε- 近似解的问题。我们提出了一种适用于有高昂成本的成本函数评估的 Oracle - 有效方法,结合了一点和两点估计的方差缩减算法,在 β ∈ (0,1) 的情况下,仅需 O (log (1/ε)^β) 的两点成本信息即可获得近似最优解。