从逐步优化策略梯度的角度重新审视 LQR 控制

Feb, 2023

从逐步优化策略梯度的角度重新审视 LQR 控制

Revisiting LQR Control from the Perspective of Receding-Horizon Policy Gradient

Xiangyuan Zhang, Tamer Başar

TL;DR本文探讨了离散时间线性二次调节器问题，并从后退视角政策梯度的角度重新审视它，介绍了 RHPG 用于控制应用的无模型学习框架，并提供了一种精细的样本复杂性分析方法，以学习在不知道稳定控制策略情况下的控制策略，并证明了 RHPG 在具有流线型分析的线性控制和估计中的普遍适用性。

Abstract

We revisit in this paper the discrete-time linear quadratic regulator (LQR) problem from the perspective of receding-horizon policy gradient (RHPG), a newly developed →

discrete-time linear quadratic regulator receding-horizon policy gradient model-free learning control policy kalman filter

发现论文，激发创造

学习估计器设计中基于消失视野策略搜索的全局收敛

提出了回溯视角策略梯度（RHPG）算法，是第一个在学习最优线性估计器设计（即 Kalman 滤波器）方面具有可证明的全局收敛性的 PG 算法。这项工作旨在通过在算法设计和理论分析中利用经典控制理论，开发具有性能保证的强化学习算法，同时验证了该算法的有效性。

Sep, 2023

有限时间内的带噪声线性二次调节器的策略梯度方法

本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法，并在两个例子中说明了该方法的性能。

Nov, 2020

无模型 LQR 的 Oracle 复杂度减小：一种随机方差减小策略梯度方法

通过随机方差缩减策略梯度方法，我们研究了离散时间线性二次调节器（LQR）问题的学习 ε- 近似解的问题。我们提出了一种适用于有高昂成本的成本函数评估的 Oracle - 有效方法，结合了一点和两点估计的方差缩减算法，在 β ∈ (0,1) 的情况下，仅需 O (log (1/ε)^β) 的两点成本信息即可获得近似最优解。

Sep, 2023

线性二次调节器的加速优化环境

本文介绍了一种处理线性二次调节器问题的一阶加速优化框架，并对 SLQR 和 OLQR 问题给出了其收敛性分析。

Jul, 2023

强化学习之旅：从连续控制视角出发

综述了强化学习的优化和控制方法，重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器（LQR）的案例研究，描述了从学习理论和控制理论的融合可以提供 LQR 性能的非渐进特征，并表明这些特征趋向于匹配实验行为。同时，探讨了设计与不确定环境安全可靠交互的学习系统所面临的挑战以及强化学习和控制领域所提供的工具可能如何应对这些挑战。

Jun, 2018

非随机控制赌博机的最优率

探究了具有半对抗干扰和随时间变化的对抗性贝叶斯损失函数的线性四次型调节器和线性四次型高斯控制问题。提出了一种新的带有记忆的贪婪凸优化方案，其算法达到了最优遗憾度

May, 2023

LQR 控制中线性控制器的威力

本研究在考虑受环境噪音干扰的线性动态系统调节问题中，计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述，并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛，即使在噪声被选择的情况下。

Feb, 2020

精细样本复杂度下的 Kalman 滤波器学习

提出了一种新的 RHPG-KF 框架，可应用于任何线性动态系统，并且不需要先验知识或系统开环稳定，能够实现稳定滤波器的学习，同时具有省时，高效的特性。

Jan, 2023

基于专家预测的无模型线性二次控制

本文介绍了一种新的无模型算法，用于控制线性二次系统，利用 reduce 方法，将马尔科夫决策过程的控制问题转化为专家预测问题，该算法实现简单通用，拥有多项理论保证和良好的性能。

Apr, 2018

输出反馈系统线性二次高斯控制的样本复杂度

该研究在部分观察的线性二次高斯问题中，通过鲁棒综合程序建立了学习稳定开环植物的鲁棒 LQG 控制器的样本复杂度界限。

Nov, 2020