线性二次调节器的加速优化环境
该论文探讨了在反馈增益范围内最大化一个实值矩阵函数的线性二次调节器问题,提出了几种算法,包括基于梯度的方法和牛顿迭代算法。研究表明,这些算法均具有一定的收敛性和稳定性。
Jul, 2019
本研究在考虑受环境噪音干扰的线性动态系统调节问题中,计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述,并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛,即使在噪声被选择的情况下。
Feb, 2020
探究了具有半对抗干扰和随时间变化的对抗性贝叶斯损失函数的线性四次型调节器和线性四次型高斯控制问题。提出了一种新的带有记忆的贪婪凸优化方案,其算法达到了最优遗憾度
May, 2023
本文探讨了离散时间线性二次调节器问题,并从后退视角政策梯度的角度重新审视它,介绍了 RHPG 用于控制应用的无模型学习框架,并提供了一种精细的样本复杂性分析方法,以学习在不知道稳定控制策略情况下的控制策略,并证明了 RHPG 在具有流线型分析的线性控制和估计中的普遍适用性。
Feb, 2023
本篇论文提出一种基于系统内在低秩结构进行高效学习的算法,使样本复杂度只依赖于秩而非环境维度,同时获得了关于 K 的次线性复杂度,在 LQR 问题的应用中取得了较好效果。
Nov, 2020
本文对于一种学习控制策略进行了系统分析,该策略主要包括估计系统动态模型和应用轨迹优化算法来降低目标成本,我们提出了一种基于本地线性模型的算法,在重要的问题参数上获得了多项式的样本复杂度,并通过合成本地稳定增益,克服了问题时间影响的指数依赖性,我们的实验结果也验证了该算法的有效性并与自然深度学习基线进行了比较。
May, 2023
本文提出了一种自适应控制的方法,可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题,算法的时间复杂度为多项式级别,且在控制中有很好的保障。
May, 2018
本研究引入了一种新的连续控制问题设置,称为 RichLQR,使用低维连续潜在状态和高维非线性观测来实现样本高效的学习,并建立了一种新算法 RichID,该算法无需了解编码器的具体信息,仅使用最小二乘回归预测即可实现近似最优控制。
Oct, 2020
我们提供了一个新的算法,可以在没有依赖于两点梯度估计的情况下,在大约 1/ε 个函数评估内确保 ε- 最优性,适用于具有未知参数的折扣离散时间 LQR 问题。
Apr, 2024