在线控制的对数后悔

Sep, 2019

Logarithmic Regret for Online Control

Naman Agarwal, Elad Hazan, Karan Singh

TL;DR本研究中，我们研究了在线控制下的线性动态系统在拥有转移动态知识的拥有敌意的变化强凸成本函数下的最优遗憾界限，并提出了在线梯度下降和在线自然梯度两种不同且高效的迭代方法来实现遗憾边界小而有效。

Abstract

We study optimal regret bounds for control in linear dynamical systems under adversarially changing strongly convex cost functions, given