Dec, 2023

批处理多臂赌博机问题中的最佳臂识别

TL;DR最近在许多实际场景中出现了多臂赌博问题,其中由于代理人等待反馈的时间有限,必须对臂进行批量抽样。这些应用包括生物实验和在线营销。当臂的数量很大而批次的数量很小时,问题进一步复杂化。我们考虑了批量多臂赌博问题中的纯探索。我们引入了一个通用的线性规划框架,可以将不同理论设置中的目标纳入其中,以便在最佳臂识别中使用。线性规划导致了一个两阶段算法,可以实现良好的理论性能。通过数值研究,我们证明了该算法与某些UCB型或Thompson抽样方法相比也具有良好的性能。