BriefGPT.xyz
Jan, 2020
在线LQR的朴素探索是最优的
Naive Exploration is Optimal for Online LQR
HTML
PDF
Max Simchowitz, Dylan J. Foster
TL;DR
在处理未知真实系统参数的在线自适应控制问题中,使用新的上下界结论证明误差的最优性跟时间步数,输入空间和系统状态空间的维度呈现为~(T*d_u^2*d_x)^1/2, 并引入自绑定ODE方法控制Riccati方程扰动,从而实现任意可控系统实例的回归上界。同时,提出对估计的系统动力学进行合成的确定性等效控制器。
Abstract
We consider the problem of
online adaptive control
of the
linear quadratic regulator
, where the true system parameters are unknown. We prove new upper and lower bounds demonstrating that the optimal regret scales
→