研究连续时间线性二次调节强化学习问题,提出基于连续时间观测和控制的最小二乘算法和基于离散时间观测和分段常数控制的最小二乘算法,并分析了它们的误差界限和实现可能性。
Jun, 2020
本文提出了一种自适应控制的方法,可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题,算法的时间复杂度为多项式级别,且在控制中有很好的保障。
May, 2018
在处理未知真实系统参数的在线自适应控制问题中,使用新的上下界结论证明误差的最优性跟时间步数,输入空间和系统状态空间的维度呈现为~(T*d_u^2*d_x)^1/2, 并引入自绑定 ODE 方法控制 Riccati 方程扰动,从而实现任意可控系统实例的回归上界。同时,提出对估计的系统动力学进行合成的确定性等效控制器。
Jan, 2020
提出了一种解决具有未知系统模型的线性二次(LQ)控制问题的算法,其遗憾为 O (√T),并在此基础上提出了首个完全自适应的算法,同时控制策略更新次数和自适应地优化遗憾上限,避免了计算复杂性问题。
Jun, 2024
本研究中,我们研究了在线控制下的线性动态系统在拥有转移动态知识的拥有敌意的变化强凸成本函数下的最优遗憾界限,并提出了在线梯度下降和在线自然梯度两种不同且高效的迭代方法来实现遗憾边界小而有效。
Sep, 2019
本篇论文提出一种基于系统内在低秩结构进行高效学习的算法,使样本复杂度只依赖于秩而非环境维度,同时获得了关于 K 的次线性复杂度,在 LQR 问题的应用中取得了较好效果。
Nov, 2020
本文针对已知系统且受到敌对扰动的情况下,介绍了新的在线线性二次控制算法,通过将在线控制问题转化为具有近似优越函数的(延迟的)在线学习,无需控制迭代的运动成本,从而提高了算法的效果。
Feb, 2020
本文介绍了 Linear Quadratic Control 系统的学习问题和非常高效的算法,算法的遗憾只随着决策步数的对数级别增加,并且当某些特定条件成立时可以得到更好的结果,但当条件不成立时,无法避免遗憾增长的平方根级别。
我们提出了第一个计算效率高的算法,其在具有未知动态的线性二次控制系统中进行学习时仅有 $\widetilde O (\sqrt {T})$ 遗憾度。
Feb, 2019
本文研究在线线性二次调节器(LQR)控制与时变成本函数和干扰的动态后悔。研究了具有有限前瞻窗口的成本函数和干扰情况。本文研究的在线控制算法属于具有特定选择终端成本的模型预测控制(MPC),以保证 MPC 的指数稳定性。证明了这种在线算法的后悔随预测长度的指数级下降。本文还研究了对扰动的不准确预测的影响。
Feb, 2021