多保真度多臂赌博机再访
本文研究了一种多保真度赌博机的变体,提出了一种名为 MF-UCB 的新型上置信区间过程,并证明了它在序列逐渐的逼近中适应性更好,并且达到了比忽略近似的策略更好的遗憾最小化效果。
Oct, 2016
考虑在无限臂赌博机问题的固定置信度设置下,当不知道臂储备分布时,近似最优臂识别的问题。我们引入了类 PAC 的框架来推导和表述结果; 推导了近似最优臂识别的样本复杂度下界; 提出了一个算法,以高概率识别出一个接近最优的臂,并推导出其样本复杂度的上界,该上界比我们的下界小一个对数因子;并讨论了我们的 log^2(1/delta) 依赖是否不可避免地适用于无限设置的“两阶段” (先选择臂,后识别最佳)算法。这项工作允许将赌徒模型应用于更广泛的问题类别,其中较少的假设成立。
Mar, 2018
该研究设计并分析了CascadeBAI算法,该算法适用于级联赌博框架中找到最佳集合的K个项目,提出了一种新的随机变量类型作为左侧子高斯随机变量,使用一个紧密的Bernstein类型浓度不等式,推导出CascadeBAI的时间复杂度的上界,并且通过推导出时间复杂度下界显示CascadeBAI在某些实用范围内的性能是最优的,并通过广泛的数值模拟证实了CascadeBAI的有效性以及时间复杂度上限的紧密性。
Jan, 2020
本文研究了随机线性武装的固定置信度下的最佳武器识别问题,目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法,其采样复杂度与已知的特定实例下界匹配,在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则,而且可以很少更新而不影响其理论保证。此外,与现有的最佳武器识别策略不同,我们的算法使用的停止规则不依赖于武器数量。实验结果表明,我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。
Jun, 2020
本文提出了一种忽略一定程度下最优性差距的Bandit算法,并以其为基础,设计优化算法Thompson Sampling(ε-TS)。研究结果表明,该算法能够在一定程度上避免过度探索问题,并在保证性能的前提下,提高计算效率。
Aug, 2020
研究一种插值两种不同信息观察方式的在线决策问题,称为$\mathbf{m}$-MAB。施加$\mathbf{m}$-MAB的紧凑极小后悔界,并为其纯探索版本$\mathbf{m}$-BAI设计了最佳PAC算法。本文还将$\mathbf{m}$-MAB的上限和下限扩展到了更一般的带有图反馈的情景下,并得出了在几个反馈图族中获得紧凑极小后悔界的结果。
Jul, 2023
通过介绍一种新算法 ROBAI 和其变种,该研究识别并解决了在带有双重目标的多臂赌博机问题中达到最优臂的同时最大化奖励的难题;并对算法的停止时间、样本复杂性以及与经典 UCB 算法相比的性能进行了理论分析和数值实验,揭示出了经典 UCB 算法中的“过度探索”现象。
Sep, 2023
本研究针对需要负责任实验的实际应用,提出了一种具有最小遗憾的最佳臂识别问题。这一创新变体有效地结合了遗憾最小化和最佳臂识别两个目标。研究表明,双重KL-UCB算法在置信水平趋近零时实现了渐近最优,揭示了遗憾最小化与最佳臂识别之间的内在联系。
Sep, 2024