研究高维线性二次(LQ)系统的自适应控制问题,提出一种实现遗憾界为O(p√T)的自适应控制方案,并指出该方法在计算广告领域具有突出的应用价值。
Mar, 2013
本文提出了一种自适应控制的方法,可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题,算法的时间复杂度为多项式级别,且在控制中有很好的保障。
May, 2018
我们提出了第一个计算效率高的算法,其在具有未知动态的线性二次控制系统中进行学习时仅有 $\widetilde O(\sqrt{T})$ 遗憾度。
Feb, 2019
本研究中,我们研究了在线控制下的线性动态系统在拥有转移动态知识的拥有敌意的变化强凸成本函数下的最优遗憾界限,并提出了在线梯度下降和在线自然梯度两种不同且高效的迭代方法来实现遗憾边界小而有效。
Sep, 2019
该研究针对未知的非线性动态系统问题,提出了一种基于再生核希尔伯特空间的顺序控制算法,并通过信息理论量来获得近乎最优的遗憾上界,实验结果表明其在多个非线性控制任务中均获得了较好的表现。
Jun, 2020
研究模型基于的强化学习在未知可稳定线性动态系统中的应用,提出一种通过改进探索策略证明基本稳定性的算法,所提出的算法在避免系统崩溃的同时,实现了对环境的快速探索,在多个自适应控制任务中表现优异。
Jul, 2020
研究在线控制未知动态的时变线性系统,在非随机控制模型下,通过研究与通用策略的悔恨界证明了该设置比未知时不变或已知时变动态的设置更具有困难性并给出了算法上界,其中SLS、Youla和线性反馈策略类被认为是常见的策略类之一。同时,我们给出了针对干扰响应策略类的高效算法,且证明该算法享有具有时间变化的系统所需要的苛刻更强的适应性悔恨界。
Feb, 2022
在线优化方法可用于研究在线线性二次型调节器问题,本研究通过在线乐观牛顿法提供了一个基于函数序列的在线控制器,并利用后悔度量定义了算法的性能界限。
Mar, 2024
在线自适应控制有限时域周期性设置下风险敏感线性二次调节器的回避范围研究及拟合泛化条件的简化最小二乘贪婪算法
Jun, 2024
提出了一种解决具有未知系统模型的线性二次(LQ)控制问题的算法,其遗憾为O(√T),并在此基础上提出了首个完全自适应的算法,同时控制策略更新次数和自适应地优化遗憾上限,避免了计算复杂性问题。