面向速率限制通道的无模型LQR控制方法

Jan, 2024

面向速率限制通道的无模型LQR控制方法

Towards Model-Free LQR Control over Rate-Limited Channels

Aritra Mitra, Lintao Ye, Vijay Gupta

TL;DR利用有限比特率的无噪声通道上的自适应量化梯度下降算法(AQGD)在模型自由控制设计和网络控制系统的交叉领域证明，在一定的比特率阈值以上，AQGD保证指数级的收敛速度，不降低指数相对未量化情况的速度，同时揭示了自适应量化在保持快速线性收敛率方面的优势，对压缩优化领域具有独立的研究价值。

Abstract

Given the success of model-free methods for control design in many problem settings, it is natural to ask how things will change if realistic communication channels are utilized for the transmission of gradients or policies. While the resulting problem has analogies with the formulations studied under the rubric of →

发现论文，激发创造

强化学习之旅：从连续控制视角出发

综述了强化学习的优化和控制方法，重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器（LQR）的案例研究，描述了从学习理论和控制理论的融合可以提供LQR性能的非渐进特征，并表明这些特征趋向于匹配实验行为。同时，探讨了设计与不确定环境安全可靠交互的学习系统所面临的挑战以及强化学习和控制领域所提供的工具可能如何应对这些挑战。

Jun, 2018

线性二次调节器中基于模型和免模型方法之间的差异：一种渐近观点

研究在连续控制任务上，基于模型的方法与无模型方法的样本复杂度差异，发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低，且最佳控制常常需要较少的样本量，这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。

Dec, 2018

无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度

研究了无模型强化学习中的线性二次调节器问题，建立了梯度流动力学和随机搜索法的指数稳定性，同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。

Dec, 2019

LQR控制中线性控制器的威力

本研究在考虑受环境噪音干扰的线性动态系统调节问题中，计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述，并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛，即使在噪声被选择的情况下。

Feb, 2020

有限时间内的带噪声线性二次调节器的策略梯度方法

本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法，并在两个例子中说明了该方法的性能。

Nov, 2020

从逐步优化策略梯度的角度重新审视LQR控制

本文探讨了离散时间线性二次调节器问题，并从后退视角政策梯度的角度重新审视它，介绍了RHPG用于控制应用的无模型学习框架，并提供了一种精细的样本复杂性分析方法，以学习在不知道稳定控制策略情况下的控制策略，并证明了RHPG在具有流线型分析的线性控制和估计中的普遍适用性。

Feb, 2023

无模型LQR的Oracle复杂度减小：一种随机方差减小策略梯度方法

通过随机方差缩减策略梯度方法，我们研究了离散时间线性二次调节器（LQR）问题的学习 ε-近似解的问题。我们提出了一种适用于有高昂成本的成本函数评估的Oracle-有效方法，结合了一点和两点估计的方差缩减算法，在 β ∈ (0,1) 的情况下，仅需 O(log(1/ε)^β) 的两点成本信息即可获得近似最优解。

Sep, 2023

元学习线性二次调节器：一种基于策略梯度的模型无关LQR的MAML方法

在多任务、异构和无模型的情况下，我们研究了学习线性二次调节器（LQR）的问题。我们表征了基于策略梯度的无模型元学习方法（MAML）（Finn et al.，2017）在不同任务异质性设置下的稳定性和个性化保证。我们展示了MAML-LQR方法在模型为基础和无模型设置下产生了一个接近每个任务特定最优控制器的稳定控制器，直到任务异质性偏差为止。此外，在模型为基础的设置中，我们展示了这个控制器以线性收敛速度实现，这在现有的MAML-LQR工作中改进了次线性速度。与现有的MAML-LQR结果相比，我们的理论保证证明了学到的控制器可以高效地适应未见的LQR任务。

Jan, 2024

有限通信范围下的线性二次网络控制的分布式策略梯度

本文提出了一种可扩展的分布式策略梯度方法，并证明其在多智能体线性二次网络系统中收敛于近似最优解。代理在指定网络内根据局部通信约束进行交互，即每个代理只能与有限数量的相邻代理交换信息。在网络的基础图上，每个代理在线性二次控制环境中根据附近邻居的状态实施其控制输入。我们表明只使用局部信息可以近似计算出精确的梯度。与集中式最优控制器相比，随着通信和控制范围的增加，性能差异指数级下降至零。我们还展示了如何增加通信范围来增强梯度下降过程中的系统稳定性，从而阐明了一个关键的权衡。仿真结果验证了我们的理论发现。

Mar, 2024

线性二次调节器的样本复杂度: 强化学习视角

我们提供了一个新的算法，可以在没有依赖于两点梯度估计的情况下，在大约 1/ε 个函数评估内确保 ε-最优性，适用于具有未知参数的折扣离散时间LQR问题。

Apr, 2024