最佳挑战规则下的贝叶斯臂选择中的汤姆森探索

Oct, 2023

最佳挑战规则下的贝叶斯臂选择中的汤姆森探索

Thompson Exploration with Best Challenger Rule in Best Arm Identification

Jongyeong Lee, Junya Honda, Masashi Sugiyama

TL;DR该论文研究了在集中置信度下的最佳臂识别问题，提出了一种结合汤普森采样和最佳挑战者规则的策略，在样本复杂度较低的情况下取得了近乎最优的性能。

Abstract

This paper studies the fixed-confidence best arm identification (BAI) problem in the bandit framework in the canonical single-parameter exponential models. For this problem, many policies have been proposed, but

发现论文，激发创造

线性赌博机中的最优臂识别

本文研究线性贝叶斯最优化模型中的最优臂选择问题，提出样本分配策略来识别具有固定置信度的最优臂，并在最小化样本预算的同时改进了全局线性结构估计附近最优臂的奖励值，并将其与最优实验设计中使用的G-最优准则进行比较。

Sep, 2014

固定置信度下的最优臂识别

本研究完整表征了单参数赌博机问题中最优臂识别的复杂度，并提出了一种被称作“Track-and-Stop”的策略，该策略通过的新采样规则和所提出的 Chernoff 停止规则被证明是渐近最优的，并在样本复杂度上取得了一个新的紧致下界。

Feb, 2016

固定信心下无限臂赌博模型中的纯探索算法

考虑在无限臂赌博机问题的固定置信度设置下，当不知道臂储备分布时，近似最优臂识别的问题。我们引入了类 PAC 的框架来推导和表述结果; 推导了近似最优臂识别的样本复杂度下界; 提出了一个算法，以高概率识别出一个接近最优的臂，并推导出其样本复杂度的上界，该上界比我们的下界小一个对数因子；并讨论了我们的 log^2(1/delta) 依赖是否不可避免地适用于无限设置的“两阶段” （先选择臂，后识别最佳）算法。这项工作允许将赌徒模型应用于更广泛的问题类别，其中较少的假设成立。

Mar, 2018

贝叶斯最佳臂识别的固定置信度保证

研究Thompson Sampling在bandit问题中的应用，提出一种新的取样规则Top-Two Transportation Cost (T3C)，结合贝叶斯停止规则进行采样复杂度分析，并给出bandit问题中Gaussian和Bernoulli rewards和共轭先验的后验收敛性结果。

Oct, 2019

线性赌博机中的最优臂识别

本文研究了随机线性武装的固定置信度下的最佳武器识别问题，目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法，其采样复杂度与已知的特定实例下界匹配，在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则，而且可以很少更新而不影响其理论保证。此外，与现有的最佳武器识别策略不同，我们的算法使用的停止规则不依赖于武器数量。实验结果表明，我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

Jun, 2020

线性赌博机探索的游戏化

研究了线性随机机器人中的最佳臂标识，在标准多胳臂机器人中存在渐近最优算法，但是对于线性机器人中的最佳臂识别还没有出现这样的算法，本文提出了一种渐近最优算法。

Jul, 2020

有限精度采样赌博机中的最佳臂识别

研究了多臂赌博机问题中学习者在选择臂时精度受限的变体，并且给出了期望停留时间的渐近下限并提出了一种修改后的算法用于处理非唯一最优配置，并且针对在简单的情况下访问不重叠臂的情况给出了非渐近下限和上限。

May, 2023

一种用于固定置信度和更高效率的ε-最优臂识别算法

提出了EB-TC𝜀，一种新颖的采样规则，可用于随机强盗中的𝜀-最佳臂识别，可在固定置信度或固定预算识别（不需要事先了解预算）。该规则的样本复杂度的期望上界在固定置信度设置下得到了证明，并说明了在其勘探参数进行自适应调节的情况下其渐近最优。我们通过数值模拟表明，EB-TC𝜀在不同情况下表现良好，优于现有算法。

May, 2023

未知方差的双臂高斯赌博机中局部最优固定预算最佳臂识别

我们提出了一种在自适应实验中估计方差的策略，并展示了在变量未知情况下该策略在渐近情况下是最优的。

Dec, 2023

最小遗憾的最佳臂识别

本研究针对需要负责任实验的实际应用，提出了一种具有最小遗憾的最佳臂识别问题。这一创新变体有效地结合了遗憾最小化和最佳臂识别两个目标。研究表明，双重KL-UCB算法在置信水平趋近零时实现了渐近最优，揭示了遗憾最小化与最佳臂识别之间的内在联系。

Sep, 2024