未知方差的双臂高斯赌博机中局部最优固定预算最佳臂识别

Dec, 2023

未知方差的双臂高斯赌博机中局部最优固定预算最佳臂识别

Locally Optimal Fixed-Budget Best Arm Identification in Two-Armed Gaussian Bandits with Unknown Variances

Masahiro Kato

TL;DR我们提出了一种在自适应实验中估计方差的策略，并展示了在变量未知情况下该策略在渐近情况下是最优的。

Abstract

We address the problem of best arm identification (BAI) with a fixed budget for two-armed gaussian bandits. In BAI, given multiple arms, we aim to find the best arm, an arm with the highest expected reward, throu

发现论文，激发创造

线性赌博机中的最优臂识别

本文研究线性贝叶斯最优化模型中的最优臂选择问题，提出样本分配策略来识别具有固定置信度的最优臂，并在最小化样本预算的同时改进了全局线性结构估计附近最优臂的奖励值，并将其与最优实验设计中使用的G-最优准则进行比较。

Sep, 2014

线性赌博机中的最优臂识别

本文研究了随机线性武装的固定置信度下的最佳武器识别问题，目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法，其采样复杂度与已知的特定实例下界匹配，在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则，而且可以很少更新而不影响其理论保证。此外，与现有的最佳武器识别策略不同，我们的算法使用的停止规则不依赖于武器数量。实验结果表明，我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

Jun, 2020

有限精度采样赌博机中的最佳臂识别

研究了多臂赌博机问题中学习者在选择臂时精度受限的变体，并且给出了期望停留时间的渐近下限并提出了一种修改后的算法用于处理非唯一最优配置，并且针对在简单的情况下访问不重叠臂的情况给出了非渐近下限和上限。

May, 2023

一种用于固定置信度和更高效率的ε-最优臂识别算法

提出了EB-TC𝜀，一种新颖的采样规则，可用于随机强盗中的𝜀-最佳臂识别，可在固定置信度或固定预算识别（不需要事先了解预算）。该规则的样本复杂度的期望上界在固定置信度设置下得到了证明，并说明了在其勘探参数进行自适应调节的情况下其渐近最优。我们通过数值模拟表明，EB-TC𝜀在不同情况下表现良好，优于现有算法。

May, 2023

具有异质奖励方差的固定预算的最佳臂识别

研究在异质奖励方差的固定预算设置下的最佳臂识别问题，提出两种方差自适应的算法：SHVar和SHAdaVar，分别用于已知奖励方差和未知奖励方差情况下，通过不均匀预算分配实现对高方差臂的偏好，本文还给出了误判最佳臂的概率界限。

Jun, 2023

关于固定预算下二臂赌博机最优臂识别的统一最优算法

固定预算下的随机双臂赌博机最佳臂识别问题中，不存在优于均匀采样算法的算法，该问题的解决方案是引入一类称为“一致稳定算法”的自然算法，并证明该类算法与均匀采样算法的性能相同。

Aug, 2023

最佳挑战规则下的贝叶斯臂选择中的汤姆森探索

该论文研究了在集中置信度下的最佳臂识别问题，提出了一种结合汤普森采样和最佳挑战者规则的策略，在样本复杂度较低的情况下取得了近乎最优的性能。

Oct, 2023

固定预算下的最优臂识别：大偏差视角

通过大偏差原理，我们在适应性算法中建立了样本抽取比例与样本奖励之间的联系，从而改进了现有算法并设计了新算法，我们证明了新算法的性能优于现有算法，包括对众多抽样的广泛实验证实了这一观察结果。

Dec, 2023

基于先验的分配策略在结构化赌博机中进行贝叶斯固定预算最佳臂识别

我们研究了基于贝叶斯的固定预算最佳臂识别（BAI）在结构化赌博问题中的应用，提出了一种算法，该算法基于先前的信息和环境的结构使用固定分配，我们对该算法在各种模型上的性能给出了理论上的界限，包括首次基于先验信息的线性和分层BAI的上界。我们的主要贡献是引入了新的证明方法，相比现有方法，该方法对多臂BAI的界限更紧。我们广泛比较了我们的方法与其他固定预算BAI方法，在各种场景下展示了其一致且稳健的性能，我们的工作提升了我们对结构化赌博中基于贝叶斯的固定预算BAI的理解，并突显了我们方法在实际场景中的有效性。

Feb, 2024

单峰赌博机中的最佳臂识别

本文研究了单峰赌博机中固定置信度的最佳臂识别问题，揭示了算法的停止时间存在的两个下限。研究提出的Track-and-Stop和Top Two算法利用了单峰结构，其中Track-and-Stop在单参数指数族中是渐近最优的，而Top Two在高斯分布中表现接近最优，具有非渐近保证，显示出良好的实际应用性能。

Nov, 2024