自适应多臂识别

ICMLJun, 2017

Adaptive Multiple-Arm Identification

Jiecao Chen, Xi Chen, Qin Zhang, Yuan Zhou

TL;DR研究了如何在随机赌博机游戏中选择期望回报最高的 K 个赌臂问题，提出了一种基于概率近似正确算法，并引入了难度参数来量化问题难度。通过研究两种算法的采样复杂度，得出了更优的上界，并证明了该上界在某些情况下是紧的。同时得出了引入难度参数的实例相关算法需要额外的对数因子作为代价的下界。

Abstract

We study the problem of selecting $K$ arms with the highest expected rewards in a stochastic $n$-armed bandit game. This problem has a wide range of applications, e.g., A/B testing, crowdsourcing, simulation optimization. Our goal is to develop a pac algorithm, which, with probability

stochastic bandit game pac algorithm sample complexity aggregate regret instance-dependent algorithm

发现论文，激发创造

多种最佳臂的遗憾问题

本篇论文旨在应对多臂赌博机问题中存在多个最优 / 近似最优机械臂的后悔最小化问题，通过提出自适应算法来自动适应问题的难度，并在理论和实验方面展现了该算法的优越性。

Jun, 2020

随机多臂赌博机中多个好臂的 PAC 识别

在研究中，我们将 n 个武器的随机多臂强盗问题与 PAC 设定结合起来，提出了一种有效的方法来解决从最佳 m 个武器中准确识别 k 个武器的问题，其中 1≤k≤m，同时给出了一些相关算法和下界。

Jan, 2019

上下文赌博机的最优 PAC 算法

本文研究了 $(\epsilon,\delta)-\textit {PAC}$ 场景下的随机赌博机问题，给出了上下界，并提供了一个新的基于 argmax Oracle 的实例最优和计算效率高的算法。

Jul, 2022

关于最佳臂识别的最优样本复杂度

研究最优臂辨识问题，发现新算法和上下限优化，并提出一个新的关于最优样本复杂度的猜想。

Nov, 2015

鉴别好臂之真实样本复杂性

提出多臂老虎机算法中两个问题：如何识别平均值与最大平均值相差小于给定阈值的武器和如何识别平均值大于给定阈值的 k 支武器。在此基础上，给出了形式化的定义，匹配了样本复杂度的下界，并提供了几乎匹配上界的具体实用算法。

Jun, 2019

无限臂老虎机渐进最优纯探索

本文研究了纯探索问题中具有无限多臂的赌博机问题，针对固定置信和固定预算两种情形，提出了两种算法，分别以最小的期望和固定样本复杂度为目标，最终准确选择一个高质量臂，使其平均奖励与前 $η$ 的部分的奖励最大值的差别小于 $ε$，并给出了理论证明。

Jun, 2023

快速和遗憾最优的最佳臂识别：基本限制和低复杂度算法

通过介绍一种新算法 ROBAI 和其变种，该研究识别并解决了在带有双重目标的多臂赌博机问题中达到最优臂的同时最大化奖励的难题；并对算法的停止时间、样本复杂性以及与经典 UCB 算法相比的性能进行了理论分析和数值实验，揭示出了经典 UCB 算法中的 “过度探索” 现象。

Sep, 2023

多层次最优臂识别

在本文中，我们研究多信度最佳臂识别问题，通过提出一种以梯度为基础的方法，我们找到了具有渐近最优成本复杂度的解决方案，并针对每个臂还提出了最优保真度的概念。

Jun, 2024

固定信心下无限臂赌博模型中的纯探索算法

考虑在无限臂赌博机问题的固定置信度设置下，当不知道臂储备分布时，近似最优臂识别的问题。我们引入了类 PAC 的框架来推导和表述结果；推导了近似最优臂识别的样本复杂度下界；提出了一个算法，以高概率识别出一个接近最优的臂，并推导出其样本复杂度的上界，该上界比我们的下界小一个对数因子；并讨论了我们的 log^2 (1/delta) 依赖是否不可避免地适用于无限设置的 “两阶段” （先选择臂，后识别最佳）算法。这项工作允许将赌徒模型应用于更广泛的问题类别，其中较少的假设成立。

Mar, 2018

差分隐私多臂赌博机算法

本研究提出的隐私保护算法在解决随机多臂赌博机问题时，相比之前的成果取得了较大的进展。算法可以保证最优遗憾率 O (Ɛ−1+logT), 通过实验证实了理论界和实践界之间的一致性。

Nov, 2015