Nov, 2018

适应性控制和学习的输入扰动

TL;DR本文研究了多输入多输出线性动态系统的同时调节和估计的自适应算法,提出了基于输入信号扰动的实用、易于实现的控制策略,这些策略表现出随着时间的平方根成比例恶劣后果,并且在时间上均匀保持。进一步讨论了特定的设置,其中这些贪婪策略达到了对数后悔的信息理论下界。为了证明这些结果,运用了最近关于自标准化鞅和策略分解的新方法。