本文对一类赌博机问题进行了研究,提出了一种新算法,结合非参数统计和传统赌博机算法方法,在最大化累积预期收益的目标下,取得了与理论下界相同的性能,同时具有良好的适应性。
Mar, 2010
本研究提出了一种新的策略 abse 用于动态多臂赌博问题中,其可以将全局问题自适应地拆分为静态多臂赌博问题,同时其在静态多臂赌博问题中的后继消除策略的遗憾界更为严格,且在动态问题中其拥有最小极小遗憾界。
Oct, 2011
本文针对无穷臂随机赌博机问题,提出一种算法用以最小化简单损失,并扩展到多种情况下,如未知时间跨度等。
May, 2015
本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题,通过定义基于更精细的估计器的采样策略,如截断经验均值、Catoni 的 M - 估计和均值中位数估计器,证明了二阶矩(有限方差)足以获得与次高斯奖励分布同阶的悔恨界。
Sep, 2012
研究回收匪徒问题,使用高斯过程解决估计和规划问题,包括悔恨界限和计算效率的讨论。
Oct, 2019
探讨传统的两臂赌博问题的扩展,其中决策者在选择拉动哪个手臂之前可以访问一些信息,在不同的设置中找到能够达到可接受水平的规则和构造渐近最优自适应方案以实现这些规则。
Jan, 2005
介绍了一种多臂赌博机问题,称为最大最小分组赌博机问题,其中将赌臂分组,并旨在找到最差赌臂平均回报最高的组;提出两种基于连续淘汰和鲁棒优化的算法,并导出保证找到最优或接近最优组的样本数的上界,以及一个独立于算法的下界。探讨了各种相关情况下上下限的紧度以及导出统一紧限的困难。
Nov, 2021
研究一种新颖的多臂赌博问题,旨在解决公司在探索最大化收益新策略的同时,保持其收益在固定时间内持续增长的挑战。 通过提出自然而又新颖的策略来维护限制,我们在随机和对抗设置下分析了限制维护的代价。
Feb, 2016
本文提出了一种适用于多臂赌博机问题的解决方案,只需要以线性时间复杂度存储未知参数,可以处理一般的掌握参数相关性的问题,并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。
Nov, 2010
研究了一种新型的 K 武装强盗问题,介绍了一种针对这一问题的新算法,并展示了在特定条件下可以实现有限的预期累计遗憾,同时提供了依赖于问题的累计遗憾下限,显示出至少在某些特殊情况下,新算法是近乎最优的。
Nov, 2014