非随机控制赌博机的最优率

May, 2023

Optimal Rates for Bandit Nonstochastic Control

Y. Jennifer Sun, Stephen Newman, Elad Hazan

TL;DR探究了具有半对抗干扰和随时间变化的对抗性贝叶斯损失函数的线性四次型调节器和线性四次型高斯控制问题。提出了一种新的带有记忆的贪婪凸优化方案，其算法达到了最优遗憾度

Abstract

linear quadratic regulator (LQR) and linear quadratic gaussian (LQG) control are foundational and extensively researched problems in optimal control. We investigate LQR and LQG problems with →

发现论文，激发创造

线性二次型调节器的鲁棒自适应控制遗憾界

本文提出了一种自适应控制的方法，可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题，算法的时间复杂度为多项式级别，且在控制中有很好的保障。

May, 2018

在随机和对抗半臂匪中的最优解决方案

开发出新的半强化学习算法，不需要先验信息，可同时在随机环境和对抗环境下获得对数级和平方级的遗憾，并通过在合成数据上的实验证明了其性能的一致性和优越性。

Jan, 2019

线性参数赌博机的近似极小极大后悔

研究了有限动作集的线性上下文强化学习问题，介绍了一种名为VCL SupLinUCB的算法，并表明其与最佳下界相匹配，相较于之前的算法分析，节省了两个对数因子。

Mar, 2019

非随机控制的失当学习

本文研究非随机控制问题，提出了一种基于降噪观测值的控制器参数化方法，通过在线梯度下降方法得到一个新的控制器，其对一类闭环策略实现了次线性遗憾，为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。

Jan, 2020

在线LQR的朴素探索是最优的

在处理未知真实系统参数的在线自适应控制问题中，使用新的上下界结论证明误差的最优性跟时间步数，输入空间和系统状态空间的维度呈现为~(T*d_u^2*d_x)^1/2, 并引入自绑定ODE方法控制Riccati方程扰动，从而实现任意可控系统实例的回归上界。同时，提出对估计的系统动力学进行合成的确定性等效控制器。

Jan, 2020

LQR控制中线性控制器的威力

本研究在考虑受环境噪音干扰的线性动态系统调节问题中，计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述，并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛，即使在噪声被选择的情况下。

Feb, 2020

线性动态系统中带快速稳定的强化学习

研究模型基于的强化学习在未知可稳定线性动态系统中的应用，提出一种通过改进探索策略证明基本稳定性的算法，所提出的算法在避免系统崩溃的同时，实现了对环境的快速探索，在多个自适应控制任务中表现优异。

Jul, 2020

带有赌博反馈的非随机控制

本文研究了控制具有对抗扰动的线性动态系统的问题，其中控制器仅有可用的标量损失反馈，且损失函数本身未知。针对这个问题，无论系统是否知道，我们都提出了一个有效的次线性后悔算法，并提出了一种用于带有记忆的损失函数的通用带贝叶斯优化算法，这可能是独立学科领域的一个难点。

Aug, 2020

二阶方法在赌局优化和控制中的应用

本文介绍了一种简单且实用的在线牛顿步骤算法，该算法在一类称为κ-凸的凸函数中具有最优（以时间长度衡量）的遗憾界，并且在包括线性、二次和广义线性模型在内的广泛实际损失函数中为最高效的已知方法。此外，我们研究了我们的二阶赌博算法在具有一定仿射结构的损失函数中适应在线凸优化，我们证明了延伸算法达到最优遗憾界，从而解决了在gradu2020non和sun2023optimal中提出的一个开放问题，即完全敌对噪声模型下的赌博LQR/LQG问题。最后，我们证明了BCO与（非仿射）内存的更一般问题更难，在光滑且二次损失的假设下，导出了一个T^{2/3}遗憾界的下界。

Feb, 2024

超越二次函数的强盗控制紧速率

本研究解决了在面对对抗性扰动情况下，如何为复杂控制问题实现最佳后悔值的未解问题。论文提出了一种新算法，实现了在这种情况下的$\tilde{O}(\sqrt{T})$最优后悔值，相较于之前的$\tilde{O}(T^{2/3})$的界限有了显著提升。此算法有效克服了内存结构带来的挑战，并引入了对强凸成本的处理方法，具有广泛的应用潜力。

Oct, 2024