Apr, 2024

基于 FTRL 的乐观在线非随机控制

TL;DR该研究论文将 “乐观主义” 概念引入在线非随机控制(NSC)的新颖框架中,研究了如何利用负责预测未来成本的未知质量的预测预报器使 NSC 受益。首先将问题简化为具有延迟反馈的乐观学习问题,并通过乐观正则化领导者(OFTRL)算法家族来解决。这种简化使得设计 OptFTRL-C 成为第一个拥有乐观策略遗憾界限的干扰行为控制器(DAC)。这些新界限与预测预报器的准确性成正比,从完美预测的 Ο(1) 到当所有预测失败时的算法最优 Ο(T^0.5)。通过解决将不可信预测纳入控制系统的挑战,该研究工作在 NSC 框架的推进以及实现有效和稳健的学习控制器方面做出了贡献。