Sep, 2017

基于 Thompson Sampling 的未知线性系统学习控制

TL;DR引入 Thompson 采样算法应对 LQ 控制问题的未知系统参数,该算法被称为具有动态阶段的 Thompson 采样(TSDE),其中包括两种停止准则来确定动态阶段的长度并呈现出具有 O (sqrt (T)) 的期望后悔值的性质,加入重启计划也展示了对于模型参数的时间变化具有稳健性。