本文研究了随机线性武装的固定置信度下的最佳武器识别问题,目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法,其采样复杂度与已知的特定实例下界匹配,在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则,而且可以很少更新而不影响其理论保证。此外,与现有的最佳武器识别策略不同,我们的算法使用的停止规则不依赖于武器数量。实验结果表明,我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。
Jun, 2020
研究最优臂辨识问题,发现新算法和上下限优化,并提出一个新的关于最优样本复杂度的猜想。
Nov, 2015
本文研究线性贝叶斯最优化模型中的最优臂选择问题,提出样本分配策略来识别具有固定置信度的最优臂,并在最小化样本预算的同时改进了全局线性结构估计附近最优臂的奖励值,并将其与最优实验设计中使用的 G - 最优准则进行比较。
Sep, 2014
本研究完整表征了单参数赌博机问题中最优臂识别的复杂度,并提出了一种被称作 “Track-and-Stop” 的策略,该策略通过的新采样规则和所提出的 Chernoff 停止规则被证明是渐近最优的,并在样本复杂度上取得了一个新的紧致下界。
Feb, 2016
本文介绍了多臂老虎机模型的性能表现,并提供了特定情况下的下限和匹配算法。此外,还提供了改进的序贯停止规则以及两个独立的技术结果。
Jul, 2014
研究了多臂赌博机问题中学习者在选择臂时精度受限的变体,并且给出了期望停留时间的渐近下限并提出了一种修改后的算法用于处理非唯一最优配置,并且针对在简单的情况下访问不重叠臂的情况给出了非渐近下限和上限。
May, 2023
研究了多臂赌博机中的最佳臂辨识问题,提出了一个基于顺序淘汰算法的通用框架,并基于采样机制和每轮淘汰臂数量提出了性能评估指标,设计了一种按剩余臂数的非线性函数划分预算的算法,能够在纯探索场景下获得改进的理论保证和实验性能。
Sep, 2016
研究了多精度多臂赌博机(MF-MAB)及其最优臂识别和后悔最小化目标,为 BAI 提出了成本复杂度下限,推荐两种替代忠诚度选择程序的算法框架,并确定了两种程序的成本复杂度上限,并提出了新的后悔定义,以及解决了该问题的消除算法。
Jun, 2023
针对广义线性赌博机的最佳臂识别问题,提出了第一个算法,并在模拟中评估其性能和采样效率。该算法旨在最小化确定足够接近最佳臂所需的臂拉取次数。
May, 2019
该研究介绍了一种更加灵活的多臂老虎机模型,旨在通过估算臂间协方差来更高效地识别最佳臂,并利用新算法提供了实现此目标的理论保证和数值模拟。