本文研究基于多维随机向量臂收益的赌博机问题,证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险,并提出了针对通用问题的近似最优解。
Dec, 2008
本文介绍了一种新的解决K-armed dueling bandit问题的方法,其扩展了Upper Confidence Bound算法并证明了有限时间的遗憾度为O(log t)。 经实验结果证实,与现有技术相比,该方法在信息检索中取得了显着的优势。
Dec, 2013
在多臂老虎机游戏中,利用少量样本通过固定置信度水平下的置信区间,提出了一种最初的置信上界算法,该算法使用的样本数量与基于迭代对数定理的下限相比仅相差常数因子,同时使用了一种新的停止时间来避免在其他上置界型算法中观察到的臂联合的界限,从而进一步优化了算法,并通过模拟证明了算法的性能。
本文介绍了多臂老虎机模型的性能表现,并提供了特定情况下的下限和匹配算法。此外,还提供了改进的序贯停止规则以及两个独立的技术结果。
Jul, 2014
研究了一种新型的K武装强盗问题,介绍了一种针对这一问题的新算法,并展示了在特定条件下可以实现有限的预期累计遗憾,同时提供了依赖于问题的累计遗憾下限,显示出至少在某些特殊情况下,新算法是近乎最优的。
Nov, 2014
本文提出了基于 Implicit eXploration 的损失估计策略,可以在不需要不必要的探索成分的情况下,实现高概率遗憾界,取得了多臂赌博问题方面的改进结果。
Jun, 2015
本文研究了随机组合多臂赌博机框架,提出了一种名为SDCB的新算法,该算法估计底层随机变量的分布和它们的随机显著性置信区间,并证明了SDCB可以实现 O(logT) 的分布相关遗憾和 $ ilde{O}(√T)$ 的分布无关遗憾,并将所得结果应用于$K$-MAX问题。
Oct, 2016
本文研究了经典多臂老虎机问题的稀疏情况,并提出了一种算法,其遗憾值与臂数的正比例关系被缩小至仅与正收益臂数相同,同时证明了其最优性。
Jun, 2017
研究了贝叶斯多臂赌博问题的多臂区间,证明了对于設計最优策略子采样至关重要,提出了一种新型的无偿探索方法,即对奖励分布的尾事件进行无偿探索,使用模拟数据和真实数据测试后发现贪婪算法表现更佳。
Feb, 2020
本文提出了一种利用高效对偶锥优化器,直接最小化贝叶斯遗憾的上界以及与VaR和机遇约束优化之间的关系建立的边界的新方法来优化不确定环境下离线数据的决策问题,并与现有算法进行了比较。
Jun, 2023