Oct, 2024
分段静态线性赌博机中几乎最小最大最优最佳臂识别
Almost Minimax Optimal Best Arm Identification in Piecewise Stationary
Linear Bandits
TL;DR本研究解决了在分段静态线性赌博机模型中识别最佳臂的问题,环境在每个变化点随机从未知概率分布中采样上下文,且臂的质量通过所有上下文的回报平均值来衡量。提出的PSεBAI+算法通过并行执行子程序,有效检测变化点并对齐上下文,从而以较低的样本量达到识别最佳臂的目标,证明其样本复杂度近乎最优。