Jun, 2020

在线非线性控制的信息论遗憾界

TL;DR该研究针对未知的非线性动态系统问题,提出了一种基于再生核希尔伯特空间的顺序控制算法,并通过信息理论量来获得近乎最优的遗憾上界,实验结果表明其在多个非线性控制任务中均获得了较好的表现。