面向速率限制通道的无模型LQR控制方法
综述了强化学习的优化和控制方法,重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器(LQR)的案例研究,描述了从学习理论和控制理论的融合可以提供LQR性能的非渐进特征,并表明这些特征趋向于匹配实验行为。同时,探讨了设计与不确定环境安全可靠交互的学习系统所面临的挑战以及强化学习和控制领域所提供的工具可能如何应对这些挑战。
Jun, 2018
研究在连续控制任务上,基于模型的方法与无模型方法的样本复杂度差异,发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低,且最佳控制常常需要较少的样本量,这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。
Dec, 2018
研究了无模型强化学习中的线性二次调节器问题,建立了梯度流动力学和随机搜索法的指数稳定性,同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。
Dec, 2019
本研究在考虑受环境噪音干扰的线性动态系统调节问题中,计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述,并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛,即使在噪声被选择的情况下。
Feb, 2020
本文探讨了离散时间线性二次调节器问题,并从后退视角政策梯度的角度重新审视它,介绍了RHPG用于控制应用的无模型学习框架,并提供了一种精细的样本复杂性分析方法,以学习在不知道稳定控制策略情况下的控制策略,并证明了RHPG在具有流线型分析的线性控制和估计中的普遍适用性。
Feb, 2023
通过随机方差缩减策略梯度方法,我们研究了离散时间线性二次调节器(LQR)问题的学习 ε-近似解的问题。我们提出了一种适用于有高昂成本的成本函数评估的Oracle-有效方法,结合了一点和两点估计的方差缩减算法,在 β ∈ (0,1) 的情况下,仅需 O(log(1/ε)^β) 的两点成本信息即可获得近似最优解。
Sep, 2023
在多任务、异构和无模型的情况下,我们研究了学习线性二次调节器(LQR)的问题。我们表征了基于策略梯度的无模型元学习方法(MAML)(Finn et al.,2017)在不同任务异质性设置下的稳定性和个性化保证。我们展示了MAML-LQR方法在模型为基础和无模型设置下产生了一个接近每个任务特定最优控制器的稳定控制器,直到任务异质性偏差为止。此外,在模型为基础的设置中,我们展示了这个控制器以线性收敛速度实现,这在现有的MAML-LQR工作中改进了次线性速度。与现有的MAML-LQR结果相比,我们的理论保证证明了学到的控制器可以高效地适应未见的LQR任务。
Jan, 2024
本文提出了一种可扩展的分布式策略梯度方法,并证明其在多智能体线性二次网络系统中收敛于近似最优解。代理在指定网络内根据局部通信约束进行交互,即每个代理只能与有限数量的相邻代理交换信息。在网络的基础图上,每个代理在线性二次控制环境中根据附近邻居的状态实施其控制输入。我们表明只使用局部信息可以近似计算出精确的梯度。与集中式最优控制器相比,随着通信和控制范围的增加,性能差异指数级下降至零。我们还展示了如何增加通信范围来增强梯度下降过程中的系统稳定性,从而阐明了一个关键的权衡。仿真结果验证了我们的理论发现。
Mar, 2024
我们提供了一个新的算法,可以在没有依赖于两点梯度估计的情况下,在大约 1/ε 个函数评估内确保 ε-最优性,适用于具有未知参数的折扣离散时间LQR问题。
Apr, 2024