May, 2023

高维和低秩张量赌博机

TL;DRTOFU 算法研究了一个基于张量表示的线性赌博模型,其中系统参数和行动由张量表示,特别关注未知系统张量为低秩张量的情况。它首先利用灵活的张量回归技术估计与系统张量相关联的低维子空间,然后利用这些估计将原始问题转化为具有系统参数范数约束的新问题,最后采用 TOFU 算法,它利用这些约束来避免探索整个高维参数空间,理论分析表明,TOFU 在比先前的最佳后悔上界改善的倍数增加了一个随着系统阶数呈指数增长的系数,同时 TOFU 还建立了一个新的性能下限,进一步证明了 TOFU 的效率。