在线非线性控制的信息论遗憾界
本文介绍了一种新的无模型算法,用于控制线性二次系统,利用reduce方法,将马尔科夫决策过程的控制问题转化为专家预测问题,该算法实现简单通用,拥有多项理论保证和良好的性能。
Apr, 2018
本研究中,我们研究了在线控制下的线性动态系统在拥有转移动态知识的拥有敌意的变化强凸成本函数下的最优遗憾界限,并提出了在线梯度下降和在线自然梯度两种不同且高效的迭代方法来实现遗憾边界小而有效。
Sep, 2019
在处理未知真实系统参数的在线自适应控制问题中,使用新的上下界结论证明误差的最优性跟时间步数,输入空间和系统状态空间的维度呈现为~(T*d_u^2*d_x)^1/2, 并引入自绑定ODE方法控制Riccati方程扰动,从而实现任意可控系统实例的回归上界。同时,提出对估计的系统动力学进行合成的确定性等效控制器。
Jan, 2020
本文提出一种名为ExpCommit的算法,用于在未知模型动态的情况下最小化部分可观测线性二次控制系统中的后悔,并提供一种新颖的方式来分解后悔,并为部分可观测线性二次控制系统提供端到端的次线性后悔上界,并对ExpCommit提供稳定性保证及后悔上界。
Jan, 2020
研究如何在部分可观测线性动态系统中进行系统识别和自适应控制,提出了一种基于模型评估的自适应控制在线学习算法,可通过与环境的交互来估计模型动态,通过在线梯度下降更新控制器并改善控制器效能,该算法达到了未知系统的自适应控制的Polylog(T)的遗憾上限。
Mar, 2020
研究使用单个黑盒交互控制未知的线性时不变动态系统的问题,探讨在线非随机控制的情况下如何获得次线性后悔量,该方法可处理对抗性干扰及凸损失函数的变化。我们提供了一种新的系统识别方法,并在一些条件下给出了后悔上界以及结果的匹配性下界。
Jul, 2020
考虑线性时变动态系统中的控制问题,使用后悔最小化的方法设计在线控制器,通过一个新的降阶到H∞控制的方法导出了后悔最优控制器的状态空间结构,并给出了能量干扰下的紧密数据相关的后悔上界。
Oct, 2020
研究在线控制未知动态的时变线性系统,在非随机控制模型下,通过研究与通用策略的悔恨界证明了该设置比未知时不变或已知时变动态的设置更具有困难性并给出了算法上界,其中SLS、Youla和线性反馈策略类被认为是常见的策略类之一。同时,我们给出了针对干扰响应策略类的高效算法,且证明该算法享有具有时间变化的系统所需要的苛刻更强的适应性悔恨界。
Feb, 2022
我们通过设计新的正则化技术,并将其与未经验证的未来成本预测相结合,实现了自适应于环境的Non-stochastic Control算法,这些算法通过考虑系统的内存具有新的数据自适应策略回归界限,并能在准确预测时收缩,即使全部失败时仍保持次线性。
Oct, 2023
对于具有未知成本函数和可能无界和退化噪声的线性系统控制问题,本文研究了在线控制问题。通过研究发现,对于凸代价函数,即使存在无界噪声,也可以达到约等于O(根号T)的后悔界,其中T是时间跨度。此外,当成本函数是强凸时,在文献中需要的噪声协方差非退化假设下,我们得到了约等于O(多项式(log T))的后悔界。去除对噪声秩的假设的关键是与噪声协方差相关的系统变换,这同时实现了在线控制算法的参数减少。
Feb, 2024