Jul, 2023

BOF-UCB:一种非平稳上下文多臂赌博机问题的贝叶斯优化频率法算法

TL;DR我们提出了一种新颖的贝叶斯 - 乐观频率上置信界(BOF-UCB)算法,用于非平稳环境中的随机上下文线性臂问题。该算法通过使用顺序贝叶斯更新来推断未知回归参数的后验分布,并随后采用频率学方法通过最大化后验分布上的预期奖励来计算上置信界(UCB),从而提高了适应性和性能。我们对 BOF-UCB 的性能提供了理论保证,并证明了它在合成数据集和经典控制任务中在强化学习环境中平衡探索和利用方面的有效性。我们的结果表明,BOF-UCB 优于现有方法,成为非平稳环境中顺序决策的有希望解决方案。