Mar, 2020

部分可观察线性动力系统的对数遗憾界

TL;DR研究如何在部分可观测线性动态系统中进行系统识别和自适应控制,提出了一种基于模型评估的自适应控制在线学习算法,可通过与环境的交互来估计模型动态,通过在线梯度下降更新控制器并改善控制器效能,该算法达到了未知系统的自适应控制的 Polylog (T) 的遗憾上限。