本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博,提出了一种正式的处理方法,并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。
May, 2014
本文研究多臂老虎机问题的遗憾下界,并利用 Kullback-Leibler 分歧的已知特性证明了非相对论、分布依赖的限制。这些限制特别表明,在初始阶段遗憾几乎线性增长,并且在最后阶段仅出现知名的对数增长。证明技术突出了信息理论论证的本质,并去除了所有不必要的复杂性。
Feb, 2016
研究随机多臂老虎机问题的性质和限制,探讨具有在线探索特性的预测器的表现,其中简单后悔被评估,讨论简单后悔与累计后悔的关系,在有限臂数的情况下展示了一种性能下限和预测器的上限后悔,并针对连续老虎臂问题进行了研究。
Feb, 2008
介绍了基于风险规避原则的随机多臂赌博机的新场景,使用方差作为风险度量,提出了两种新算法,并调研了它们的理论保证和初步实证结果.
Jan, 2013
研究回收匪徒问题,使用高斯过程解决估计和规划问题,包括悔恨界限和计算效率的讨论。
Oct, 2019
本文提出了基于 Implicit eXploration 的损失估计策略,可以在不需要不必要的探索成分的情况下,实现高概率遗憾界,取得了多臂赌博问题方面的改进结果。
Jun, 2015
研究了一种新型的 K 武装强盗问题,介绍了一种针对这一问题的新算法,并展示了在特定条件下可以实现有限的预期累计遗憾,同时提供了依赖于问题的累计遗憾下限,显示出至少在某些特殊情况下,新算法是近乎最优的。
Nov, 2014
本篇论文旨在应对多臂赌博机问题中存在多个最优 / 近似最优机械臂的后悔最小化问题,通过提出自适应算法来自动适应问题的难度,并在理论和实验方面展现了该算法的优越性。
Jun, 2020
本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题,通过定义基于更精细的估计器的采样策略,如截断经验均值、Catoni 的 M - 估计和均值中位数估计器,证明了二阶矩(有限方差)足以获得与次高斯奖励分布同阶的悔恨界。
Sep, 2012
介绍了一种称为带背包的赌徒问题的通用模型,结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题,它们的报酬接近于信息论上的最优解,但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。
May, 2013