Mar, 2024

序列多臂赌博机中的奖励样本传输

TL;DR在该研究中,我们考虑了一个顺序随机多臂赌博问题,在多个回合中,代理与赌博机进行交互。臂的奖励分布在一个回合中保持不变,但在不同回合中可能发生变化。我们提出了一种基于 UCB 算法的方法,用于传输来自先前回合的奖励样本,并改善所有回合中的累积遗憾表现。我们对该算法进行了遗憾分析和实证结果,结果显示与无传输的标准 UCB 算法相比有明显的改进。