本文介绍了一种新的无模型算法,用于控制线性二次系统,利用reduce方法,将马尔科夫决策过程的控制问题转化为专家预测问题,该算法实现简单通用,拥有多项理论保证和良好的性能。
Apr, 2018
本文提出了一种自适应控制的方法,可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题,算法的时间复杂度为多项式级别,且在控制中有很好的保障。
May, 2018
我们提出了第一个计算效率高的算法,其在具有未知动态的线性二次控制系统中进行学习时仅有 $\widetilde O(\sqrt{T})$ 遗憾度。
Feb, 2019
在处理未知真实系统参数的在线自适应控制问题中,使用新的上下界结论证明误差的最优性跟时间步数,输入空间和系统状态空间的维度呈现为~(T*d_u^2*d_x)^1/2, 并引入自绑定ODE方法控制Riccati方程扰动,从而实现任意可控系统实例的回归上界。同时,提出对估计的系统动力学进行合成的确定性等效控制器。
Jan, 2020
本文提出一种名为ExpCommit的算法,用于在未知模型动态的情况下最小化部分可观测线性二次控制系统中的后悔,并提供一种新颖的方式来分解后悔,并为部分可观测线性二次控制系统提供端到端的次线性后悔上界,并对ExpCommit提供稳定性保证及后悔上界。
本文介绍了Linear Quadratic Control系统的学习问题和非常高效的算法,算法的遗憾只随着决策步数的对数级别增加,并且当某些特定条件成立时可以得到更好的结果,但当条件不成立时,无法避免遗憾增长的平方根级别。
Feb, 2020
研究模型基于的强化学习在未知可稳定线性动态系统中的应用,提出一种通过改进探索策略证明基本稳定性的算法,所提出的算法在避免系统崩溃的同时,实现了对环境的快速探索,在多个自适应控制任务中表现优异。
Jul, 2020
通过数值模拟,我们分析了一种称为LQG-NAIVE的方法在控制未知部分可观察系统时产生的后悔效应,提出了扩展到“闭环”设置的LQG-IF2E方法,并验证了其与LQG-NAIVE的竞争性能。
Nov, 2023
对于自适应控制中的预先训练策略,我们研究了一个自适应线性二次控制问题,在这个设置中学习者具有动力学的一组基矩阵的先验知识。我们提出了一种使用这个先验知识的算法,并对通过与系统进行T次交互后的预期遗憾给出了上界。
Dec, 2023
在线自适应控制有限时域周期性设置下风险敏感线性二次调节器的回避范围研究及拟合泛化条件的简化最小二乘贪婪算法
Jun, 2024