- 无线网络控制系统尾部控制的资源优化
在有限的通信和计算资源下,本研究论文探讨了可扩展无线网络控制系统(WNCS)的控制稳定性的关键设计挑战之一,通过引入一种称为基于尾部控制的替代控制概念,扩展了多动态控制系统在共享无线网络上的经典线性二次调节器(LQR)成本函数。我们将多个控 - LQR 元策略估计的 Moreau 包络方法
基于不确定动态系统的有限实现集,我们提出了一种基于 Moreau 包络的代理 LQR 成本方法,以定义一种能够高效适应新实现的元策略,并设计了一种算法来寻找元 LQR 成本函数的近似一阶稳定点。数值结果表明,所提出的方法在新的线性系统实现上 - 线性约束在线 LQG 问题的策略优化的遗憾分析
在线优化方法可用于研究在线线性二次型调节器问题,本研究通过在线乐观牛顿法提供了一个基于函数序列的在线控制器,并利用后悔度量定义了算法的性能界限。
- 无模型 LQR 的 Oracle 复杂度减小:一种随机方差减小策略梯度方法
通过随机方差缩减策略梯度方法,我们研究了离散时间线性二次调节器(LQR)问题的学习 ε- 近似解的问题。我们提出了一种适用于有高昂成本的成本函数评估的 Oracle - 有效方法,结合了一点和两点估计的方差缩减算法,在 β ∈ (0,1) - 非随机控制赌博机的最优率
探究了具有半对抗干扰和随时间变化的对抗性贝叶斯损失函数的线性四次型调节器和线性四次型高斯控制问题。提出了一种新的带有记忆的贪婪凸优化方案,其算法达到了最优遗憾度
- 具有部分参数化模型知识的强化学习
本文提出了一种基于部分模型信息和数据驱动适应的强化学习方法,应用于连续控制问题,并在使用线性二次型调节器进行的数值实验中验证了该方法的有效性和优势。
- 关于基于预测的在线 LQR 控制算法的后悔分析
本文研究在线线性二次调节器(LQR)控制与时变成本函数和干扰的动态后悔。研究了具有有限前瞻窗口的成本函数和干扰情况。本文研究的在线控制算法属于具有特定选择终端成本的模型预测控制(MPC),以保证 MPC 的指数稳定性。证明了这种在线算法的后 - 有限时间内的带噪声线性二次调节器的策略梯度方法
本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法,并在两个例子中说明了该方法的性能。
- LQR 控制中线性控制器的威力
本研究在考虑受环境噪音干扰的线性动态系统调节问题中,计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述,并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛,即使在噪声被选择的情况下。
- 在线 LQR 的朴素探索是最优的
在处理未知真实系统参数的在线自适应控制问题中,使用新的上下界结论证明误差的最优性跟时间步数,输入空间和系统状态空间的维度呈现为~(T*d_u^2*d_x)^1/2, 并引入自绑定 ODE 方法控制 Riccati 方程扰动,从而实现任意可控 - 无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度
研究了无模型强化学习中的线性二次调节器问题,建立了梯度流动力学和随机搜索法的指数稳定性,同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。
- 学习凸优化控制策略
本文介绍了一种利用凸优化控制策略的近似梯度来自动调节优化问题参数的方法,并在多个案例中进行了演示。
- 线性二次调节器中基于模型和免模型方法之间的差异:一种渐近观点
研究在连续控制任务上,基于模型的方法与无模型方法的样本复杂度差异,发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低,且最佳控制常常需要较少的样本量,这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。
- 强化学习之旅:从连续控制视角出发
综述了强化学习的优化和控制方法,重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器(LQR)的案例研究,描述了从学习理论和控制理论的融合可以提供 LQR 性能的非渐进特征,并表明这些特征趋向于匹配实验行为。同时,探讨了设 - 线性二次型调节器的鲁棒自适应控制遗憾界
本文提出了一种自适应控制的方法,可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题,算法的时间复杂度为多项式级别,且在控制中有很好的保障。
- 线性二次调节器的样本复杂度
本文提出了一种名为 Coarse-ID 控制的多阶段程序,利用随机矩阵理论对 Linear Quadratic Regulator 问题中的未知动态进行建模和控制,同时使用 System Level Synthesis 方法进行控制综合设计 - ICML轨迹中心增强学习的模型基与模型无更新相结合
本文研究如何在模型无关和模型有关的强化学习方法中结合时间变化的线性高斯策略,通过基于线性二次调节器的模型有关算法与基于路径积分策略改进的模型无关框架相结合,并与指导策略搜索相结合,训练深度神经网络等任意参数策略,以提高实时机器人应用的模型效