仅需 $\sqrt{T}$ 遗憾值即可高效学习线性-二次调节器
本文提出了一种自适应控制的方法,可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题,算法的时间复杂度为多项式级别,且在控制中有很好的保障。
May, 2018
我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题,并提出了第一种在这种情况下保证O(sqrt(T))遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型SDP松弛。与以前提出的松弛相反,我们的SDP的可行解都对应于“强稳定”策略,这些策略混合到稳定状态的速度呈指数增长。
Jun, 2018
在处理未知真实系统参数的在线自适应控制问题中,使用新的上下界结论证明误差的最优性跟时间步数,输入空间和系统状态空间的维度呈现为~(T*d_u^2*d_x)^1/2, 并引入自绑定ODE方法控制Riccati方程扰动,从而实现任意可控系统实例的回归上界。同时,提出对估计的系统动力学进行合成的确定性等效控制器。
Jan, 2020
本文提出一种名为ExpCommit的算法,用于在未知模型动态的情况下最小化部分可观测线性二次控制系统中的后悔,并提供一种新颖的方式来分解后悔,并为部分可观测线性二次控制系统提供端到端的次线性后悔上界,并对ExpCommit提供稳定性保证及后悔上界。
Jan, 2020
本文介绍了Linear Quadratic Control系统的学习问题和非常高效的算法,算法的遗憾只随着决策步数的对数级别增加,并且当某些特定条件成立时可以得到更好的结果,但当条件不成立时,无法避免遗憾增长的平方根级别。
Feb, 2020
研究模型基于的强化学习在未知可稳定线性动态系统中的应用,提出一种通过改进探索策略证明基本稳定性的算法,所提出的算法在避免系统崩溃的同时,实现了对环境的快速探索,在多个自适应控制任务中表现优异。
Jul, 2020
本篇论文提出一种基于系统内在低秩结构进行高效学习的算法,使样本复杂度只依赖于秩而非环境维度,同时获得了关于K的次线性复杂度,在LQR问题的应用中取得了较好效果。
Nov, 2020
我们提出了一种近似的Thompson采样算法,用于学习具有改进贝叶斯后悔界限为O(√T)的线性二次调节器(LQR)。我们的方法利用了经过细致设计的Langevin动力学和简单的激励机制。我们展示了激励信号随时间增长引起预条件器的最小特征值增长,从而加速近似后验采样过程。此外,我们识别出由我们的算法生成的近似后验的非平凡的浓度特性。这些特性使我们能够在不依赖于文献中常用的对参数集的不切实际的限制假设的情况下,束缚系统状态的矩,并获得O(√T)的后悔界限。
May, 2024
提出了一种解决具有未知系统模型的线性二次(LQ)控制问题的算法,其遗憾为O(√T),并在此基础上提出了首个完全自适应的算法,同时控制策略更新次数和自适应地优化遗憾上限,避免了计算复杂性问题。
Jun, 2024