本文研究非随机控制问题,提出了一种基于降噪观测值的控制器参数化方法,通过在线梯度下降方法得到一个新的控制器,其对一类闭环策略实现了次线性遗憾,为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。
Jan, 2020
本文研究了控制具有对抗扰动的线性动态系统的问题,其中控制器仅有可用的标量损失反馈,且损失函数本身未知。针对这个问题,无论系统是否知道,我们都提出了一个有效的次线性后悔算法,并提出了一种用于带有记忆的损失函数的通用带贝叶斯优化算法,这可能是独立学科领域的一个难点。
Aug, 2020
研究使用单个黑盒交互控制未知的线性时不变动态系统的问题,探讨在线非随机控制的情况下如何获得次线性后悔量,该方法可处理对抗性干扰及凸损失函数的变化。我们提供了一种新的系统识别方法,并在一些条件下给出了后悔上界以及结果的匹配性下界。
Jul, 2020
本文研究带有敌对干扰的线性动态系统的控制,在几乎不知道扰动信息的情况下,实现近乎最优的在线控制过程,主要贡献是提出一种算法来提供几乎紧密的遗憾界,这一研究在技术层面上对以前的工作进行了推广和扩展。
Feb, 2019
本文介绍了一种新兴的控制理论,引入了在线非随机控制的概念,将凸优化和松弛优化技术应用于最优和鲁棒控制的传统场景,实现了可证明保障的新方法,使得控制的目标不再是静态指定的,而是在一定策略下取得低的遗憾值。
Nov, 2022
我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题,并提出了第一种在这种情况下保证 O(sqrt(T))遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型 SDP 松弛。与以前提出的松弛相反,我们的 SDP 的可行解都对应于 “强稳定” 策略,这些策略混合到稳定状态的速度呈指数增长。
Jun, 2018
我们通过设计新的正则化技术,并将其与未经验证的未来成本预测相结合,实现了自适应于环境的 Non-stochastic Control 算法,这些算法通过考虑系统的内存具有新的数据自适应策略回归界限,并能在准确预测时收缩,即使全部失败时仍保持次线性。
Oct, 2023
研究在线控制未知动态的时变线性系统,在非随机控制模型下,通过研究与通用策略的悔恨界证明了该设置比未知时不变或已知时变动态的设置更具有困难性并给出了算法上界,其中 SLS、Youla 和线性反馈策略类被认为是常见的策略类之一。同时,我们给出了针对干扰响应策略类的高效算法,且证明该算法享有具有时间变化的系统所需要的苛刻更强的适应性悔恨界。
Feb, 2022
适应性代理、在线控制、后悔最小化、对抗性干扰、表现性预测是该研究论文的主要关键词,该论文提出了一个统一的算法框架,用于在预测和优化可能的代理响应空间中实现可计算的后悔最小化,同时说明了在各种情况下的的紧界限制以及应用实例。
Jun, 2024
本文针对已知系统且受到敌对扰动的情况下,介绍了新的在线线性二次控制算法,通过将在线控制问题转化为具有近似优越函数的(延迟的)在线学习,无需控制迭代的运动成本,从而提高了算法的效果。
Feb, 2020