我们提出了第一个计算效率高的算法,其在具有未知动态的线性二次控制系统中进行学习时仅有 $\widetilde O(\sqrt{T})$ 遗憾度。
Feb, 2019
本研究中,我们研究了在线控制下的线性动态系统在拥有转移动态知识的拥有敌意的变化强凸成本函数下的最优遗憾界限,并提出了在线梯度下降和在线自然梯度两种不同且高效的迭代方法来实现遗憾边界小而有效。
Sep, 2019
本文研究非随机控制问题,提出了一种基于降噪观测值的控制器参数化方法,通过在线梯度下降方法得到一个新的控制器,其对一类闭环策略实现了次线性遗憾,为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。
Jan, 2020
在处理未知真实系统参数的在线自适应控制问题中,使用新的上下界结论证明误差的最优性跟时间步数,输入空间和系统状态空间的维度呈现为~(T*d_u^2*d_x)^1/2, 并引入自绑定ODE方法控制Riccati方程扰动,从而实现任意可控系统实例的回归上界。同时,提出对估计的系统动力学进行合成的确定性等效控制器。
本文提出了针对线性动态系统中对抗性干扰和损失函数的对抗状态序列跟踪问题的求解方法,包括比较器自适应算法、在线学习算法和对抗跟踪控制器,具有较强的性能保证。
Feb, 2021
研究在线控制未知动态的时变线性系统,在非随机控制模型下,通过研究与通用策略的悔恨界证明了该设置比未知时不变或已知时变动态的设置更具有困难性并给出了算法上界,其中SLS、Youla和线性反馈策略类被认为是常见的策略类之一。同时,我们给出了针对干扰响应策略类的高效算法,且证明该算法享有具有时间变化的系统所需要的苛刻更强的适应性悔恨界。
Feb, 2022
该论文研究在线控制问题,通过使用单一无噪声轨迹计算干扰累积并通过在线梯度下降更新参数,提出了一种数据驱动的策略来减小控制器的后悔。
Aug, 2023
在线优化方法可用于研究在线线性二次型调节器问题,本研究通过在线乐观牛顿法提供了一个基于函数序列的在线控制器,并利用后悔度量定义了算法的性能界限。
Mar, 2024
在线自适应控制有限时域周期性设置下风险敏感线性二次调节器的回避范围研究及拟合泛化条件的简化最小二乘贪婪算法
Jun, 2024
提出了一种解决具有未知系统模型的线性二次(LQ)控制问题的算法,其遗憾为O(√T),并在此基础上提出了首个完全自适应的算法,同时控制策略更新次数和自适应地优化遗憾上限,避免了计算复杂性问题。