度量空间中的赌徒和专家
在多臂赌博问题中,通过一系列试验从一组策略中选择算法,以最大化所选择策略的总回报,本文研究了策略集合为度量空间,回报函数满足Lipschitz条件的多臂赌博问题,提出了相应的算法和问题的下界。
Sep, 2008
在这篇论文中,我们提出了一种广义的勘探-开发权衡模型,该模型允许在时间序列上对任意凹奖励和凸度约束进行决策,并对时间范围进行规定。我们证明了一种用于MAB的UCB系列算法自然而简单的扩展,提供了一个具有近乎最优的后悔保证的多项式时间算法,满足Badanidiyuru等人给出的BwK特殊情况下的边界,这一点非常惊人。此外,我们还通过建立此问题与其他研究领域中好的算法之间的有趣联系,提供了更高效的算法。
Feb, 2014
研究了随机多臂赌博问题中期望奖励是武器的Lipschitz函数的情况,提出了两种算法OSLB和CKL-UCB,并衍生出上限,针对连续武器集合的情况建议首先离散化行动空间再应用算法,同时也考虑到了具有类似性质的背景下文本字形赌博。
May, 2014
提供了第一个通用的、效率高的算法,用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题,该算法基于(i)监督学习和(ii)行动空间的优化的计算预言,并显示其比标准基线方法表现更好。
Jul, 2022
提出了一种平滑遗憾函数的背景自适应算法,可用于大量或连续动作空间下的通用背景自适应问题,并能适应各种光滑度级别的问题,取得了先前优化遗憾函数的最优性保证。
Jul, 2022
本文给出了随机搜索的理论解释,通过介绍散射维度的概念来描述底层函数的景观,证明了输出随机搜索以$\widetilde{\mathcal{O}}(\left( \frac{1}{T} \right)^{\frac{1}{d_s}})$的概率收敛于最佳值,提出了BLiN-MOS算法,用于在具有Borel度量的倍增度量空间中进行Lipschitz bandits,表明在度量测量空间中,与度量空间的经典理论相比,Lipschitz bandits的上界可以得到改善。
May, 2023
研究一种插值两种不同信息观察方式的在线决策问题,称为$\mathbf{m}$-MAB。施加$\mathbf{m}$-MAB的紧凑极小后悔界,并为其纯探索版本$\mathbf{m}$-BAI设计了最佳PAC算法。本文还将$\mathbf{m}$-MAB的上限和下限扩展到了更一般的带有图反馈的情景下,并得出了在几个反馈图族中获得紧凑极小后悔界的结果。
Jul, 2023
设计一种不使用奖励分布信息的多臂赌博机算法,通过交替应用贪婪规则与强制探索来实现显著的后悔上界,并提供不同强制探索策略下的问题依赖性后悔上界分析方法,适用于不同奖励分布的固定和分段固定设置。
Dec, 2023