Mar, 2020

非平稳广义线性赌博机算法

TL;DR本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法,以解决在非静态环境下的上下文在线学习和塞德利反馈问题,这些结果表明这些算法在一般的情境序列下,并且存在突然变化时具有高概率的上限置信度边界,证明结果的形式为时间 T 内的 d^2/3 G^1/3 T^2/3 阶动态后悔。