TL;DR本文发展了一种数据稀疏(稀疏线性斯托剖斯)的新型算法,该算法使较小的环境维度下研究致命后果的风险得以降低,实现了一种有区别的、具有人造和样本方差适应性的总体安全算法。同时,该研究还探讨了如何在一种<黑盒>化的方式下将任何方差算法转化为sparce linear bandits算法。
Abstract
It is well-known that the worst-case minimax regret for sparse linear bandits is $\widetilde{\Theta}\left(\sqrt{dT}\right)$ where $d$ is the ambient dimension and $T$ is the number of time steps (ignoring the dep