单峰赌博机中的最佳臂识别

Nov, 2024

Best-Arm Identification in Unimodal Bandits

Riccardo Poiani, Marc Jourdan, Emilie Kaufmann, Rémy Degenne

TL;DR本文研究了单峰赌博机中固定置信度的最佳臂识别问题，揭示了算法的停止时间存在的两个下限。研究提出的Track-and-Stop和Top Two算法利用了单峰结构，其中Track-and-Stop在单参数指数族中是渐近最优的，而Top Two在高斯分布中表现接近最优，具有非渐近保证，显示出良好的实际应用性能。

Abstract

We study the fixed-confidence Best-arm identification problem in Unimodal bandits, in which the means of the arms increase with the index of the arm up to their maximum, then decrease. We derive two lower bounds

发现论文，激发创造

多臂赌博机模型中最佳臂识别的复杂度

本文介绍了多臂老虎机模型的性能表现，并提供了特定情况下的下限和匹配算法。此外，还提供了改进的序贯停止规则以及两个独立的技术结果。

Jul, 2014

固定置信度下的最优臂识别

本研究完整表征了单参数赌博机问题中最优臂识别的复杂度，并提出了一种被称作“Track-and-Stop”的策略，该策略通过的新采样规则和所提出的 Chernoff 停止规则被证明是渐近最优的，并在样本复杂度上取得了一个新的紧致下界。

Feb, 2016

固定预算最佳臂识别赌博机问题的严格（下界）界限

考虑在 $[0,1]$ 区间上的 $K$ 个臂构成的随机赌博机下，使用有限的轮次 $T$ 定位最佳赌博机的问题，证明了在该问题中误判率的最低下界。同时，该结论证明了基于臂的连续拒绝（Successive Rejection）的算法是最优的，填补了固定预算下最佳臂定位问题的上下限差距。

May, 2016

固定信心下无限臂赌博模型中的纯探索算法

考虑在无限臂赌博机问题的固定置信度设置下，当不知道臂储备分布时，近似最优臂识别的问题。我们引入了类 PAC 的框架来推导和表述结果; 推导了近似最优臂识别的样本复杂度下界; 提出了一个算法，以高概率识别出一个接近最优的臂，并推导出其样本复杂度的上界，该上界比我们的下界小一个对数因子；并讨论了我们的 log^2(1/delta) 依赖是否不可避免地适用于无限设置的“两阶段” （先选择臂，后识别最佳）算法。这项工作允许将赌徒模型应用于更广泛的问题类别，其中较少的假设成立。

Mar, 2018

线性赌博机中的最优臂识别

本文研究了随机线性武装的固定置信度下的最佳武器识别问题，目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法，其采样复杂度与已知的特定实例下界匹配，在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则，而且可以很少更新而不影响其理论保证。此外，与现有的最佳武器识别策略不同，我们的算法使用的停止规则不依赖于武器数量。实验结果表明，我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

Jun, 2020

有限精度采样赌博机中的最佳臂识别

研究了多臂赌博机问题中学习者在选择臂时精度受限的变体，并且给出了期望停留时间的渐近下限并提出了一种修改后的算法用于处理非唯一最优配置，并且针对在简单的情况下访问不重叠臂的情况给出了非渐近下限和上限。

May, 2023

具有固定置信度的不安定赌博机中的最佳臂标识

在具有有限个臂的不安定多臂赌博问题中，通过分析某个马尔可夫决策过程及其状态-行动访问比例，确定最佳臂的策略和相应的期望停止时间，从而在有限的样本数、有限错误概率的条件下达到最佳臂的识别。

Oct, 2023

未知方差的双臂高斯赌博机中局部最优固定预算最佳臂识别

我们提出了一种在自适应实验中估计方差的策略，并展示了在变量未知情况下该策略在渐近情况下是最优的。

Dec, 2023

贝叶斯框架下的固定置信度最佳臂识别

在贝叶斯设置下，我们研究了固定置信度最佳臂识别问题。我们证明了传统的FC-BAI算法在贝叶斯设置下会导致任意次优的性能，并且介绍了一种连续淘汰的变体，其性能与下界匹配，仅有一个对数因子的差距。模拟实验验证了理论结果。

Feb, 2024

最小遗憾的最佳臂识别

本研究针对需要负责任实验的实际应用，提出了一种具有最小遗憾的最佳臂识别问题。这一创新变体有效地结合了遗憾最小化和最佳臂识别两个目标。研究表明，双重KL-UCB算法在置信水平趋近零时实现了渐近最优，揭示了遗憾最小化与最佳臂识别之间的内在联系。

Sep, 2024