基于 FTRL 的乐观在线非随机控制

Apr, 2024

Optimistic Online Non-stochastic Control via FTRL

Naram Mhaisen, George Iosifidis

TL;DR该研究论文将 “乐观主义” 概念引入在线非随机控制（NSC）的新颖框架中，研究了如何利用负责预测未来成本的未知质量的预测预报器使 NSC 受益。首先将问题简化为具有延迟反馈的乐观学习问题，并通过乐观正则化领导者（OFTRL）算法家族来解决。这种简化使得设计 OptFTRL-C 成为第一个拥有乐观策略遗憾界限的干扰行为控制器（DAC）。这些新界限与预测预报器的准确性成正比，从完美预测的 Ο(1) 到当所有预测失败时的算法最优 Ο(T^0.5)。通过解决将不可信预测纳入控制系统的挑战，该研究工作在 NSC 框架的推进以及实现有效和稳健的学习控制器方面做出了贡献。

Abstract

This paper brings the concept of "optimism" to the new and promising framework of online non-stochastic control (NSC). Namely, we study how can NSC benefit from a →

online non-stochastic control optimism prediction oracle optimistic learning disturbance action controller

发现论文，激发创造

自适应在线非随机控制

我们通过设计新的正则化技术，并将其与未经验证的未来成本预测相结合，实现了自适应于环境的 Non-stochastic Control 算法，这些算法通过考虑系统的内存具有新的数据自适应策略回归界限，并能在准确预测时收缩，即使全部失败时仍保持次线性。

Oct, 2023

在线非随机控制入门

本文介绍了一种新兴的控制理论，引入了在线非随机控制的概念，将凸优化和松弛优化技术应用于最优和鲁棒控制的传统场景，实现了可证明保障的新方法，使得控制的目标不再是静态指定的，而是在一定策略下取得低的遗憾值。

Nov, 2022

在线非线性控制的信息论遗憾界

该研究针对未知的非线性动态系统问题，提出了一种基于再生核希尔伯特空间的顺序控制算法，并通过信息理论量来获得近乎最优的遗憾上界，实验结果表明其在多个非线性控制任务中均获得了较好的表现。

Jun, 2020

非随机控制的失当学习

本文研究非随机控制问题，提出了一种基于降噪观测值的控制器参数化方法，通过在线梯度下降方法得到一个新的控制器，其对一类闭环策略实现了次线性遗憾，为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。

Jan, 2020

在线堆叠伯格优化与非线性控制

适应性代理、在线控制、后悔最小化、对抗性干扰、表现性预测是该研究论文的主要关键词，该论文提出了一个统一的算法框架，用于在预测和优化可能的代理响应空间中实现可计算的后悔最小化，同时说明了在各种情况下的的紧界限制以及应用实例。

Jun, 2024

线性动力学的在线控制：基于数据驱动的方法

该论文研究在线控制问题，通过使用单一无噪声轨迹计算干扰累积并通过在线梯度下降更新参数，提出了一种数据驱动的策略来减小控制器的后悔。

Aug, 2023

组合半匪谷、线性匪谷和 MDP 的非随机延迟反馈的统一分析

本文提出了 Follow The Regularized Leader (FTRL) 算法并应用于在线学习中，通过分离延迟反馈成本和赌博反馈成本，得出了在三种不同的情况下的新结果，包括组合半赌博、带延迟的对抗 Markov 决策过程以及带权值的线性赌博。我们的新型遗憾分解显示 FTRL 在正则化程序的 Hessian 矩阵上的温和假设下，可在多轮中保持稳定，并为线性赌徒提供了一种有效算法和接近最优的遗憾限制。

May, 2023

广义隐式 Follow-The-Regularized-Leader

该研究提出了一种新的在线学习算法，即广义隐式 FTRL，该算法扩展了 FTRL 框架的范围，可恢复已知算法，设计新的更新规则，直接改善遗憾的最坏情况的上界。

May, 2023

在线线性二次控制

我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题，并提出了第一种在这种情况下保证 O（sqrt（T））遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型 SDP 松弛。与以前提出的松弛相反，我们的 SDP 的可行解都对应于 “强稳定” 策略，这些策略混合到稳定状态的速度呈指数增长。

Jun, 2018

未知时变动态系统的在线控制

研究在线控制未知动态的时变线性系统，在非随机控制模型下，通过研究与通用策略的悔恨界证明了该设置比未知时不变或已知时变动态的设置更具有困难性并给出了算法上界，其中 SLS、Youla 和线性反馈策略类被认为是常见的策略类之一。同时，我们给出了针对干扰响应策略类的高效算法，且证明该算法享有具有时间变化的系统所需要的苛刻更强的适应性悔恨界。

Feb, 2022