具有固定置信度的不安定赌博机中的最佳臂标识

Oct, 2023

具有固定置信度的不安定赌博机中的最佳臂标识

Optimal Best Arm Identification with Fixed Confidence in Restless Bandits

P. N. Karthik, Vincent Y. F. Tan, Arpan Mukherjee, Ali Tajer

TL;DR在具有有限个臂的不安定多臂赌博问题中，通过分析某个马尔可夫决策过程及其状态-行动访问比例，确定最佳臂的策略和相应的期望停止时间，从而在有限的样本数、有限错误概率的条件下达到最佳臂的识别。

Abstract

We study best arm identification in a restless multi-armed bandit setting with finitely many arms. The discrete-time data generated by each arm forms a homogeneous Markov chain taking values in a common, finite s

发现论文，激发创造

多臂赌博机模型中最佳臂识别的复杂度

本文介绍了多臂老虎机模型的性能表现，并提供了特定情况下的下限和匹配算法。此外，还提供了改进的序贯停止规则以及两个独立的技术结果。

Jul, 2014

固定置信度下的最优臂识别

本研究完整表征了单参数赌博机问题中最优臂识别的复杂度，并提出了一种被称作“Track-and-Stop”的策略，该策略通过的新采样规则和所提出的 Chernoff 停止规则被证明是渐近最优的，并在样本复杂度上取得了一个新的紧致下界。

Feb, 2016

固定信心下无限臂赌博模型中的纯探索算法

考虑在无限臂赌博机问题的固定置信度设置下，当不知道臂储备分布时，近似最优臂识别的问题。我们引入了类 PAC 的框架来推导和表述结果; 推导了近似最优臂识别的样本复杂度下界; 提出了一个算法，以高概率识别出一个接近最优的臂，并推导出其样本复杂度的上界，该上界比我们的下界小一个对数因子；并讨论了我们的 log^2(1/delta) 依赖是否不可避免地适用于无限设置的“两阶段” （先选择臂，后识别最佳）算法。这项工作允许将赌徒模型应用于更广泛的问题类别，其中较少的假设成立。

Mar, 2018

多臂老虎机中带延迟反馈的最佳臂识别

本文研究了在多臂赌博机的延迟反馈场景下，如何利用局部反馈来提高标准算法的样本复杂度。采用模型化的方法探讨了局部反馈和延迟反馈之间的关系，并提出了一种用于处理偏差或无偏差情况下局部反馈的有效算法。另外，还针对并行多臂赌博机提出了一种新的算法扩展。在实际场景中，针对电池快速充电和野生动物走廊建设的计算可持续性领域中的策略搜索和超参数优化等问题的实验表明，利用局部反馈的结构可以显著提高标准算法的性能。

Mar, 2018

线性赌博机中的最优臂识别

本文研究了随机线性武装的固定置信度下的最佳武器识别问题，目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法，其采样复杂度与已知的特定实例下界匹配，在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则，而且可以很少更新而不影响其理论保证。此外，与现有的最佳武器识别策略不同，我们的算法使用的停止规则不依赖于武器数量。实验结果表明，我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

Jun, 2020

有限精度采样赌博机中的最佳臂识别

研究了多臂赌博机问题中学习者在选择臂时精度受限的变体，并且给出了期望停留时间的渐近下限并提出了一种修改后的算法用于处理非唯一最优配置，并且针对在简单的情况下访问不重叠臂的情况给出了非渐近下限和上限。

May, 2023

一种用于固定置信度和更高效率的ε-最优臂识别算法

提出了EB-TC𝜀，一种新颖的采样规则，可用于随机强盗中的𝜀-最佳臂识别，可在固定置信度或固定预算识别（不需要事先了解预算）。该规则的样本复杂度的期望上界在固定置信度设置下得到了证明，并说明了在其勘探参数进行自适应调节的情况下其渐近最优。我们通过数值模拟表明，EB-TC𝜀在不同情况下表现良好，优于现有算法。

May, 2023

固定预算下的约束最佳混合臂识别的纯探索

本文介绍了携带固定预算的约束性最佳混合臂识别问题，提出了一个基于分数函数的连续拒绝算法，结合线性规划理论，以识别最佳支持并且证明了其误识别概率在给定学习预算N和问题实例难度常数下的指数衰减。

May, 2024

分段静态线性赌博机中几乎最小最大最优最佳臂识别

本研究解决了在分段静态线性赌博机模型中识别最佳臂的问题，环境在每个变化点随机从未知概率分布中采样上下文，且臂的质量通过所有上下文的回报平均值来衡量。提出的PSεBAI+算法通过并行执行子程序，有效检测变化点并对齐上下文，从而以较低的样本量达到识别最佳臂的目标，证明其样本复杂度近乎最优。

Oct, 2024

单峰赌博机中的最佳臂识别

本文研究了单峰赌博机中固定置信度的最佳臂识别问题，揭示了算法的停止时间存在的两个下限。研究提出的Track-and-Stop和Top Two算法利用了单峰结构，其中Track-and-Stop在单参数指数族中是渐近最优的，而Top Two在高斯分布中表现接近最优，具有非渐近保证，显示出良好的实际应用性能。

Nov, 2024