Feb, 2024

非平稳潜在自回归赌博算法

TL;DR我们考虑具有非平稳收益的随机多臂赌博问题,提出了一个称为潜在 AR 赌博的新环境,在这个环境中,臂的平均收益随时间变化是由未知的、潜在的、自回归(AR)阶数为 k 的状态引起的。针对已知的 AR 阶数 k,我们提出了一个算法,在这种情况下实现了 O (k√T) 的遗憾。在多个非平稳环境中,我们的算法在实证上优于标准 UCB,即使 k 被错误估计。