多保真度多臂赌博机再访

Jun, 2023

Multi-Fidelity Multi-Armed Bandits Revisited

Xuchuang Wang, Qingyun Wu, Wei Chen, John C. S. Lui

TL;DR研究了多精度多臂赌博机（MF-MAB）及其最优臂识别和后悔最小化目标，为BAI提出了成本复杂度下限，推荐两种替代忠诚度选择程序的算法框架，并确定了两种程序的成本复杂度上限，并提出了新的后悔定义，以及解决了该问题的消除算法。

Abstract

We study the multi-fidelity multi-armed bandit (MF-MAB), an extension of the canonical multi-armed bandit (MAB) problem. MF-MAB allows each arm to be pulled with different costs (fidelities) and observation accuracy. We study both the best arm identification with fixed confidence (BAI)

发现论文，激发创造

多臂赌博机模型中最佳臂识别的复杂度

本文介绍了多臂老虎机模型的性能表现，并提供了特定情况下的下限和匹配算法。此外，还提供了改进的序贯停止规则以及两个独立的技术结果。

Jul, 2014

多保真度多臂赌博机

本文研究了一种多保真度赌博机的变体，提出了一种名为 MF-UCB 的新型上置信区间过程，并证明了它在序列逐渐的逼近中适应性更好，并且达到了比忽略近似的策略更好的遗憾最小化效果。

Oct, 2016

固定信心下无限臂赌博模型中的纯探索算法

考虑在无限臂赌博机问题的固定置信度设置下，当不知道臂储备分布时，近似最优臂识别的问题。我们引入了类 PAC 的框架来推导和表述结果; 推导了近似最优臂识别的样本复杂度下界; 提出了一个算法，以高概率识别出一个接近最优的臂，并推导出其样本复杂度的上界，该上界比我们的下界小一个对数因子；并讨论了我们的 log^2(1/delta) 依赖是否不可避免地适用于无限设置的“两阶段” （先选择臂，后识别最佳）算法。这项工作允许将赌徒模型应用于更广泛的问题类别，其中较少的假设成立。

Mar, 2018

基于固定置信度的级联赌博机的最佳臂识别

该研究设计并分析了CascadeBAI算法，该算法适用于级联赌博框架中找到最佳集合的K个项目，提出了一种新的随机变量类型作为左侧子高斯随机变量，使用一个紧密的Bernstein类型浓度不等式，推导出CascadeBAI的时间复杂度的上界，并且通过推导出时间复杂度下界显示CascadeBAI在某些实用范围内的性能是最优的，并通过广泛的数值模拟证实了CascadeBAI的有效性以及时间复杂度上限的紧密性。

Jan, 2020

线性赌博机中的最优臂识别

本文研究了随机线性武装的固定置信度下的最佳武器识别问题，目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法，其采样复杂度与已知的特定实例下界匹配，在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则，而且可以很少更新而不影响其理论保证。此外，与现有的最佳武器识别策略不同，我们的算法使用的停止规则不依赖于武器数量。实验结果表明，我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

Jun, 2020

多臂赌博机的宽容遗憾

本文提出了一种忽略一定程度下最优性差距的Bandit算法，并以其为基础，设计优化算法Thompson Sampling(ε-TS)。研究结果表明，该算法能够在一定程度上避免过度探索问题，并在保证性能的前提下，提高计算效率。

Aug, 2020

关于插值专家和多臂赌博机的研究

研究一种插值两种不同信息观察方式的在线决策问题，称为$\mathbf{m}$-MAB。施加$\mathbf{m}$-MAB的紧凑极小后悔界，并为其纯探索版本$\mathbf{m}$-BAI设计了最佳PAC算法。本文还将$\mathbf{m}$-MAB的上限和下限扩展到了更一般的带有图反馈的情景下，并得出了在几个反馈图族中获得紧凑极小后悔界的结果。

Jul, 2023

快速和遗憾最优的最佳臂识别：基本限制和低复杂度算法

通过介绍一种新算法 ROBAI 和其变种，该研究识别并解决了在带有双重目标的多臂赌博机问题中达到最优臂的同时最大化奖励的难题；并对算法的停止时间、样本复杂性以及与经典 UCB 算法相比的性能进行了理论分析和数值实验，揭示出了经典 UCB 算法中的“过度探索”现象。

Sep, 2023

多层次最优臂识别

在本文中，我们研究多信度最佳臂识别问题，通过提出一种以梯度为基础的方法，我们找到了具有渐近最优成本复杂度的解决方案，并针对每个臂还提出了最优保真度的概念。

Jun, 2024

最小遗憾的最佳臂识别

本研究针对需要负责任实验的实际应用，提出了一种具有最小遗憾的最佳臂识别问题。这一创新变体有效地结合了遗憾最小化和最佳臂识别两个目标。研究表明，双重KL-UCB算法在置信水平趋近零时实现了渐近最优，揭示了遗憾最小化与最佳臂识别之间的内在联系。

Sep, 2024