本研究提出了一种新的策略 abse 用于动态多臂赌博问题中,其可以将全局问题自适应地拆分为静态多臂赌博问题,同时其在静态多臂赌博问题中的后继消除策略的遗憾界更为严格,且在动态问题中其拥有最小极小遗憾界。
Oct, 2011
研究了采样分布依赖于一个参数和一个协变量的两个总体的顺序采样问题,并在极小极大的背景下发展了速率最优策略,哪里遗憾以及从较劣的总体进行采样的速率可以是有限的或随着时间变化而以不同的速率增长,这取决于协变量分布的 “本地” 特性。
Sep, 2009
研究带有协变量的多臂赌博问题,在可能存在奖励延迟的情况下,通过对延迟的概率分布进行一些温和假设,并使用适当的随机选择武器策略,证明了该策略的强一致性。
Feb, 2019
本文提出了一种适用于多臂赌博机问题的解决方案,只需要以线性时间复杂度存储未知参数,可以处理一般的掌握参数相关性的问题,并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。
Nov, 2010
介绍了一个基于线性回归的优化算法,用于解决组合随机半汉带问题中的依赖关系,分析证明其是最优的,并且推出了一个与被拉动手臂数的对数因子成比例的新的下界。
Dec, 2016
本文研究基于多维随机向量臂收益的赌博机问题,证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险,并提出了针对通用问题的近似最优解。
Dec, 2008
本研究探讨了组合多臂赌博的后悔下界,并证明了在所有光滑奖励函数下,这种下界都是合理的,并且根据 Merlis 和 Mannor(2019)提出的 Gini 加权平滑度参数确定单调奖励函数的下界。
Feb, 2020
本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题,通过定义基于更精细的估计器的采样策略,如截断经验均值、Catoni 的 M - 估计和均值中位数估计器,证明了二阶矩(有限方差)足以获得与次高斯奖励分布同阶的悔恨界。
Sep, 2012
本文研究一个选择 arm 的问题,它通过平衡固定预算下预期奖励和相关 CVaR 之间的线性组合来优化,同时提出了一类可证明上限的算法,并比较其在非 oblivious 算法中的误差边界与实际表现(数字化实验)的竞争性。
Jun, 2019
我们研究了在由基础因果图模拟的随机环境中学习 ' 好的 ' 干预的问题,其中 ' 好的 ' 干预是指最大化奖励的干预,在预定的预算限制下考虑非均匀成本的干预,我们提出了一种算法以在一般因果图中最小化累积遗憾,并开发了一种算法以在预算设置下最小化简单遗憾。我们的理论保证包括上界和下界,而实证评估结果表明,我们的算法优于现有技术。
Jan, 2024