度量空间中的赌徒和专家

Dec, 2013

Bandits and Experts in Metric Spaces

Robert Kleinberg, Aleksandrs Slivkins, Eli Upfal

TL;DR本文研究一种广泛适用于多臂赌博机问题的设置，其中策略构成度量空间，支付函数对度量满足Lipschitz条件，并提出了一种算法使之达到最优。

Abstract

In a multi-armed bandit problem, an online algorithm chooses from a set of strategies in a sequence of trials so as to maximize the total payoff of the chosen strategies. While the performance of bandit algorithm

发现论文，激发创造

度量空间中的多臂老虎机

在多臂赌博问题中，通过一系列试验从一组策略中选择算法，以最大化所选择策略的总回报，本文研究了策略集合为度量空间，回报函数满足Lipschitz条件的多臂赌博问题，提出了相应的算法和问题的下界。

Sep, 2008

具有相似性信息的情境赌博机

本文考虑相似度信息在上下文赌博中的应用，设计了基于自适应分区调整的更有效算法，用于在广告投放等领域中解决相应问题。

Jul, 2009

度量空间中悔恨最小化的尖锐分界

该研究证明了Lipschitz多臂赌博机算法的最小损失不可能同时比有限度的度量空间更低和比某些无限度的度量空间更低，并与在线学习的经典拓扑规则相联系。

Nov, 2009

具有凹奖励和凸背包的赌博机

在这篇论文中，我们提出了一种广义的勘探-开发权衡模型，该模型允许在时间序列上对任意凹奖励和凸度约束进行决策，并对时间范围进行规定。我们证明了一种用于MAB的UCB系列算法自然而简单的扩展，提供了一个具有近乎最优的后悔保证的多项式时间算法，满足Badanidiyuru等人给出的BwK特殊情况下的边界，这一点非常惊人。此外，我们还通过建立此问题与其他研究领域中好的算法之间的有趣联系，提供了更高效的算法。

Feb, 2014

Lipschitz Bandits: 遗憾下限和最优算法

研究了随机多臂赌博问题中期望奖励是武器的Lipschitz函数的情况，提出了两种算法OSLB和CKL-UCB，并衍生出上限，针对连续武器集合的情况建议首先离散化行动空间再应用算法，同时也考虑到了具有类似性质的背景下文本字形赌博。

May, 2014

具有大动作空间的上下文臂匠算法的实用化

提供了第一个通用的、效率高的算法，用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题，该算法基于（i）监督学习和（ii）行动空间的优化的计算预言，并显示其比标准基线方法表现更好。

Jul, 2022

具有平滑遗憾的情境臂控算法：连续行动空间高效学习

提出了一种平滑遗憾函数的背景自适应算法，可用于大量或连续动作空间下的通用背景自适应问题，并能适应各种光滑度级别的问题，取得了先前优化遗憾函数的最优性保证。

Jul, 2022

从随机搜索到度量空间中的强盗学习

本文给出了随机搜索的理论解释，通过介绍散射维度的概念来描述底层函数的景观，证明了输出随机搜索以$\widetilde{\mathcal{O}}(\left( \frac{1}{T} \right)^{\frac{1}{d_s}})$的概率收敛于最佳值，提出了BLiN-MOS算法，用于在具有Borel度量的倍增度量空间中进行Lipschitz bandits，表明在度量测量空间中，与度量空间的经典理论相比，Lipschitz bandits的上界可以得到改善。

May, 2023

关于插值专家和多臂赌博机的研究

研究一种插值两种不同信息观察方式的在线决策问题，称为$\mathbf{m}$-MAB。施加$\mathbf{m}$-MAB的紧凑极小后悔界，并为其纯探索版本$\mathbf{m}$-BAI设计了最佳PAC算法。本文还将$\mathbf{m}$-MAB的上限和下限扩展到了更一般的带有图反馈的情景下，并得出了在几个反馈图族中获得紧凑极小后悔界的结果。

Jul, 2023

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023