研究了随机多臂赌博问题中期望奖励是武器的 Lipschitz 函数的情况,提出了两种算法 OSLB 和 CKL-UCB,并衍生出上限,针对连续武器集合的情况建议首先离散化行动空间再应用算法,同时也考虑到了具有类似性质的背景下文本字形赌博。
May, 2014
提出了一种基于 UCB 并具有适当的置信参数平衡风险和过度乐观代价的随机有限臂老虎机算法,同时具有最优问题依赖性遗憾和最坏情况遗憾。
Jul, 2015
研究解决在已知最优的选择和最小间隔值时如何制定随机化策略,以解决随机多臂赌博问题中可能发生的后悔问题,并探讨了其下界和最优解等问题。
Feb, 2013
研究了一种新型的 K 武装强盗问题,介绍了一种针对这一问题的新算法,并展示了在特定条件下可以实现有限的预期累计遗憾,同时提供了依赖于问题的累计遗憾下限,显示出至少在某些特殊情况下,新算法是近乎最优的。
Nov, 2014
介绍了一类广泛的随机赌博问题,其中将臂与相应的奖励映射的函数具有一些已知的结构特性。推导了这些问题的渐近特定情况下的遗憾下界,并且开发了 OSSB 算法,其遗憾匹配了这个基本极限。通过数值实验展示了 OSSB 的效率,并且证明 OSSB 优于包括汤普森取样在内的现有算法。
Nov, 2017
本文提出了一种分布无关、数据驱动的上置信界(UCB)算法,结合最近发展的重新抽样中位数法(RMM)方法,对称奖励分布的研究中生成近乎最优的后悔边界,即使是重尾分布。
Jun, 2024
通过对经典多臂赌博机(Stochastic Multi-Armed Bandit)的研究,探讨了两种不同的准则下存在的遗憾下界。同时,研究了 UCB 等算法的变体,证明了这种情况下不可能设计一种自适应的策略来选择最优算法。
Dec, 2011
本文考虑了分布保持不变,但在未知时间发生改变的非稳态赌徒问题,研究了两种算法:折扣上限置信区间和滑动窗口上限置信区间,并通过 Hoeffding 不等式得到了后者的上界,对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界,证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。
May, 2008
本文研究了 K-armed dueling bandit 问题,提出了一种受 Deterministic Minimum Empirical Divergence 算法启发的算法,并得到了匹配下界的后悔上界,实验结果表明该算法明显优于现有算法。
Jun, 2015
本文研究了多臂赌博机问题在网络上的去中心化协作,采用加速一致性过程来计算所有智能体对每个臂的平均奖励,该算法采用上置信区间来决策,能够达到更好的回归界,同时不需要过多的底层网络信息。
Oct, 2018