最小遗憾的最佳臂识别
本文研究线性贝叶斯最优化模型中的最优臂选择问题,提出样本分配策略来识别具有固定置信度的最优臂,并在最小化样本预算的同时改进了全局线性结构估计附近最优臂的奖励值,并将其与最优实验设计中使用的G-最优准则进行比较。
Sep, 2014
本文介绍了非随机最佳臂识别问题,利用迭代机器学习算法并将其应用于超参数优化,以及资源分配改进算法等关键词,结果表明我们的算法可实现与基准方法相当测试准确率,但速度快一个数量级。
Feb, 2015
本研究完整表征了单参数赌博机问题中最优臂识别的复杂度,并提出了一种被称作“Track-and-Stop”的策略,该策略通过的新采样规则和所提出的 Chernoff 停止规则被证明是渐近最优的,并在样本复杂度上取得了一个新的紧致下界。
Feb, 2016
考虑在无限臂赌博机问题的固定置信度设置下,当不知道臂储备分布时,近似最优臂识别的问题。我们引入了类 PAC 的框架来推导和表述结果; 推导了近似最优臂识别的样本复杂度下界; 提出了一个算法,以高概率识别出一个接近最优的臂,并推导出其样本复杂度的上界,该上界比我们的下界小一个对数因子;并讨论了我们的 log^2(1/delta) 依赖是否不可避免地适用于无限设置的“两阶段” (先选择臂,后识别最佳)算法。这项工作允许将赌徒模型应用于更广泛的问题类别,其中较少的假设成立。
Mar, 2018
本文研究了随机线性武装的固定置信度下的最佳武器识别问题,目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法,其采样复杂度与已知的特定实例下界匹配,在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则,而且可以很少更新而不影响其理论保证。此外,与现有的最佳武器识别策略不同,我们的算法使用的停止规则不依赖于武器数量。实验结果表明,我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。
Jun, 2020
提出了EB-TC𝜀,一种新颖的采样规则,可用于随机强盗中的𝜀-最佳臂识别,可在固定置信度或固定预算识别(不需要事先了解预算)。该规则的样本复杂度的期望上界在固定置信度设置下得到了证明,并说明了在其勘探参数进行自适应调节的情况下其渐近最优。我们通过数值模拟表明,EB-TC𝜀在不同情况下表现良好,优于现有算法。
May, 2023
研究了多精度多臂赌博机(MF-MAB)及其最优臂识别和后悔最小化目标,为BAI提出了成本复杂度下限,推荐两种替代忠诚度选择程序的算法框架,并确定了两种程序的成本复杂度上限,并提出了新的后悔定义,以及解决了该问题的消除算法。
Jun, 2023
通过介绍一种新算法 ROBAI 和其变种,该研究识别并解决了在带有双重目标的多臂赌博机问题中达到最优臂的同时最大化奖励的难题;并对算法的停止时间、样本复杂性以及与经典 UCB 算法相比的性能进行了理论分析和数值实验,揭示出了经典 UCB 算法中的“过度探索”现象。
Sep, 2023
本研究解决了固定预算情况下最佳臂识别中的理论不足。提出了一种基于UCB的探索算法,通过学习先验信息,显著提升了算法的表现。实验结果表明,该方法在固定预算贝叶斯最佳臂识别问题上优于现有的最先进算法。
Aug, 2024
本文研究了单峰赌博机中固定置信度的最佳臂识别问题,揭示了算法的停止时间存在的两个下限。研究提出的Track-and-Stop和Top Two算法利用了单峰结构,其中Track-and-Stop在单参数指数族中是渐近最优的,而Top Two在高斯分布中表现接近最优,具有非渐近保证,显示出良好的实际应用性能。
Nov, 2024