非随机控制的失当学习

Jan, 2020

Improper Learning for Non-Stochastic Control

Max Simchowitz, Karan Singh, Elad Hazan

TL;DR本文研究非随机控制问题，提出了一种基于降噪观测值的控制器参数化方法，通过在线梯度下降方法得到一个新的控制器，其对一类闭环策略实现了次线性遗憾，为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。

Abstract

We consider the problem of controlling a possibly unknown linear dynamical system with adversarial perturbations, adversarially chosen convex loss functions, and partially observed states, known as →

发现论文，激发创造

在线线性二次控制

我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题，并提出了第一种在这种情况下保证O（sqrt（T））遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型SDP松弛。与以前提出的松弛相反，我们的SDP的可行解都对应于“强稳定”策略，这些策略混合到稳定状态的速度呈指数增长。

Jun, 2018

带敌对扰动的在线控制

本文研究带有敌对干扰的线性动态系统的控制，在几乎不知道扰动信息的情况下，实现近乎最优的在线控制过程，主要贡献是提出一种算法来提供几乎紧密的遗憾界，这一研究在技术层面上对以前的工作进行了推广和扩展。

Feb, 2019

在线控制的对数后悔

本研究中，我们研究了在线控制下的线性动态系统在拥有转移动态知识的拥有敌意的变化强凸成本函数下的最优遗憾界限，并提出了在线梯度下降和在线自然梯度两种不同且高效的迭代方法来实现遗憾边界小而有效。

Sep, 2019

非随机控制问题

该研究提出了一种针对未知线性动态系统进行控制的方法，能够对抗敌意干扰和对抗凸损失功能，通过衡量后效性的最佳线性策略，实现更高效的算法，并在此设定下保证次线性的遗憾边界 T^{2/3}。

Nov, 2019

对抗性在线控制的对数遗憾

本文针对已知系统且受到敌对扰动的情况下，介绍了新的在线线性二次控制算法，通过将在线控制问题转化为具有近似优越函数的（延迟的）在线学习，无需控制迭代的运动成本，从而提高了算法的效果。

Feb, 2020

带有赌博反馈的非随机控制

本文研究了控制具有对抗扰动的线性动态系统的问题，其中控制器仅有可用的标量损失反馈，且损失函数本身未知。针对这个问题，无论系统是否知道，我们都提出了一个有效的次线性后悔算法，并提出了一种用于带有记忆的损失函数的通用带贝叶斯优化算法，这可能是独立学科领域的一个难点。

Aug, 2020

未知时变动态系统的在线控制

研究在线控制未知动态的时变线性系统，在非随机控制模型下，通过研究与通用策略的悔恨界证明了该设置比未知时不变或已知时变动态的设置更具有困难性并给出了算法上界，其中SLS、Youla和线性反馈策略类被认为是常见的策略类之一。同时，我们给出了针对干扰响应策略类的高效算法，且证明该算法享有具有时间变化的系统所需要的苛刻更强的适应性悔恨界。

Feb, 2022

非随机控制赌博机的最优率

探究了具有半对抗干扰和随时间变化的对抗性贝叶斯损失函数的线性四次型调节器和线性四次型高斯控制问题。提出了一种新的带有记忆的贪婪凸优化方案，其算法达到了最优遗憾度

May, 2023

线性动力学的在线控制：基于数据驱动的方法

该论文研究在线控制问题，通过使用单一无噪声轨迹计算干扰累积并通过在线梯度下降更新参数，提出了一种数据驱动的策略来减小控制器的后悔。

Aug, 2023

超越二次函数的强盗控制紧速率

本研究解决了在面对对抗性扰动情况下，如何为复杂控制问题实现最佳后悔值的未解问题。论文提出了一种新算法，实现了在这种情况下的$\tilde{O}(\sqrt{T})$最优后悔值，相较于之前的$\tilde{O}(T^{2/3})$的界限有了显著提升。此算法有效克服了内存结构带来的挑战，并引入了对强凸成本的处理方法，具有广泛的应用潜力。

Oct, 2024