非随机控制赌博机的最优率
本文提出了一种自适应控制的方法,可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题,算法的时间复杂度为多项式级别,且在控制中有很好的保障。
May, 2018
提出了一种解决具有未知系统模型的线性二次(LQ)控制问题的算法,其遗憾为 O (√T),并在此基础上提出了首个完全自适应的算法,同时控制策略更新次数和自适应地优化遗憾上限,避免了计算复杂性问题。
Jun, 2024
本文研究了控制具有对抗扰动的线性动态系统的问题,其中控制器仅有可用的标量损失反馈,且损失函数本身未知。针对这个问题,无论系统是否知道,我们都提出了一个有效的次线性后悔算法,并提出了一种用于带有记忆的损失函数的通用带贝叶斯优化算法,这可能是独立学科领域的一个难点。
Aug, 2020
本文针对已知系统且受到敌对扰动的情况下,介绍了新的在线线性二次控制算法,通过将在线控制问题转化为具有近似优越函数的(延迟的)在线学习,无需控制迭代的运动成本,从而提高了算法的效果。
Feb, 2020
本研究在考虑受环境噪音干扰的线性动态系统调节问题中,计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述,并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛,即使在噪声被选择的情况下。
Feb, 2020
本文介绍了 Linear Quadratic Control 系统的学习问题和非常高效的算法,算法的遗憾只随着决策步数的对数级别增加,并且当某些特定条件成立时可以得到更好的结果,但当条件不成立时,无法避免遗憾增长的平方根级别。
Feb, 2020
本篇论文提出一种基于系统内在低秩结构进行高效学习的算法,使样本复杂度只依赖于秩而非环境维度,同时获得了关于 K 的次线性复杂度,在 LQR 问题的应用中取得了较好效果。
Nov, 2020
我们提出了第一个计算效率高的算法,其在具有未知动态的线性二次控制系统中进行学习时仅有 $\widetilde O (\sqrt {T})$ 遗憾度。
Feb, 2019