Feb, 2023

从逐步优化策略梯度的角度重新审视 LQR 控制

TL;DR本文探讨了离散时间线性二次调节器问题,并从后退视角政策梯度的角度重新审视它,介绍了 RHPG 用于控制应用的无模型学习框架,并提供了一种精细的样本复杂性分析方法,以学习在不知道稳定控制策略情况下的控制策略,并证明了 RHPG 在具有流线型分析的线性控制和估计中的普遍适用性。