在全球环境变化下识别最佳臂

Aug, 2024

Identifying the Best Arm in the Presence of Global Environment Shifts

Phurinut Srisawad, Juergen Branke, Long Tran-Thanh

TL;DR本文针对非平稳随机赌博机中的最佳臂识别问题，提出了一种新的解决方案。研究展示了现有方法未能充分利用环境变化的特性，因此效果不佳；为此，开发了一种一致且稳健的选择策略，以及一种利用环境间全球变化信息的分配策略LinLUCB，实验证明了其显著优越性。

Abstract

This paper formulates a new Best-Arm Identification problem in the Non-stationary Stochastic Bandits setting, where the means of all arms are shifted in the same way due to a global influence of the environment.

发现论文，激发创造

线性赌博机中的最优臂识别

本文研究线性贝叶斯最优化模型中的最优臂选择问题，提出样本分配策略来识别具有固定置信度的最优臂，并在最小化样本预算的同时改进了全局线性结构估计附近最优臂的奖励值，并将其与最优实验设计中使用的G-最优准则进行比较。

Sep, 2014

污染老虎机的最佳臂识别

本文在稳健统计学的背景下研究主动学习。具体而言，我们为受到污染的赌臂问题提出了一个变体，其中每个臂的拉动具有生成任意污染分布样本的概率 ε，而不是真正的基础分布。我们开发了紧凑的、非渐进的样本复杂度界限来高概率地估算受到污染的样本的前两个鲁棒矩（中位数和中位数绝对偏差）。利用这些结果，我们将几个经典的最佳臂识别算法适应于受到污染的赌臂环境，并为我们的问题导出样本复杂度上限。最后，我们提供了关于样本复杂度（最多小的对数因子）的匹配信息论下界。

Feb, 2018

多臂老虎机中带延迟反馈的最佳臂识别

本文研究了在多臂赌博机的延迟反馈场景下，如何利用局部反馈来提高标准算法的样本复杂度。采用模型化的方法探讨了局部反馈和延迟反馈之间的关系，并提出了一种用于处理偏差或无偏差情况下局部反馈的有效算法。另外，还针对并行多臂赌博机提出了一种新的算法扩展。在实际场景中，针对电池快速充电和野生动物走廊建设的计算可持续性领域中的策略搜索和超参数优化等问题的实验表明，利用局部反馈的结构可以显著提高标准算法的性能。

Mar, 2018

线性赌博机中的最优臂识别

本文研究了随机线性武装的固定置信度下的最佳武器识别问题，目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法，其采样复杂度与已知的特定实例下界匹配，在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则，而且可以很少更新而不影响其理论保证。此外，与现有的最佳武器识别策略不同，我们的算法使用的停止规则不依赖于武器数量。实验结果表明，我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

Jun, 2020

有限精度采样赌博机中的最佳臂识别

研究了多臂赌博机问题中学习者在选择臂时精度受限的变体，并且给出了期望停留时间的渐近下限并提出了一种修改后的算法用于处理非唯一最优配置，并且针对在简单的情况下访问不重叠臂的情况给出了非渐近下限和上限。

May, 2023

关于固定预算下二臂赌博机最优臂识别的统一最优算法

固定预算下的随机双臂赌博机最佳臂识别问题中，不存在优于均匀采样算法的算法，该问题的解决方案是引入一类称为“一致稳定算法”的自然算法，并证明该类算法与均匀采样算法的性能相同。

Aug, 2023

具有固定置信度的不安定赌博机中的最佳臂标识

在具有有限个臂的不安定多臂赌博问题中，通过分析某个马尔可夫决策过程及其状态-行动访问比例，确定最佳臂的策略和相应的期望停止时间，从而在有限的样本数、有限错误概率的条件下达到最佳臂的识别。

Oct, 2023

固定预算下的最优臂识别：大偏差视角

通过大偏差原理，我们在适应性算法中建立了样本抽取比例与样本奖励之间的联系，从而改进了现有算法并设计了新算法，我们证明了新算法的性能优于现有算法，包括对众多抽样的广泛实验证实了这一观察结果。

Dec, 2023

未知方差的双臂高斯赌博机中局部最优固定预算最佳臂识别

我们提出了一种在自适应实验中估计方差的策略，并展示了在变量未知情况下该策略在渐近情况下是最优的。

Dec, 2023

基于先验的分配策略在结构化赌博机中进行贝叶斯固定预算最佳臂识别

我们研究了基于贝叶斯的固定预算最佳臂识别（BAI）在结构化赌博问题中的应用，提出了一种算法，该算法基于先前的信息和环境的结构使用固定分配，我们对该算法在各种模型上的性能给出了理论上的界限，包括首次基于先验信息的线性和分层BAI的上界。我们的主要贡献是引入了新的证明方法，相比现有方法，该方法对多臂BAI的界限更紧。我们广泛比较了我们的方法与其他固定预算BAI方法，在各种场景下展示了其一致且稳健的性能，我们的工作提升了我们对结构化赌博中基于贝叶斯的固定预算BAI的理解，并突显了我们方法在实际场景中的有效性。

Feb, 2024