无限臂老虎机的简单遗憾

ICMLMay, 2015

Simple regret for infinitely many armed bandits

Alexandra Carpentier, Michal Valko

TL;DR本文针对无穷臂随机赌博机问题，提出一种算法用以最小化简单损失，并扩展到多种情况下，如未知时间跨度等。

Abstract

We consider a stochastic bandit problem with infinitely many arms. In this setting, the learner has no chance of trying all the arms even once and has to dedicate its limited number of samples only to a certain number of arms. All previous algorithms for this setting were designed for

stochastic bandit problem simple regret arm selection minimax optimal unknown time horizon

发现论文，激发创造

多种最佳臂的遗憾问题

本篇论文旨在应对多臂赌博机问题中存在多个最优 / 近似最优机械臂的后悔最小化问题，通过提出自适应算法来自动适应问题的难度，并在理论和实验方面展现了该算法的优越性。

Jun, 2020

有限臂结构赌博机的有界遗憾

研究了一种新型的 K 武装强盗问题，介绍了一种针对这一问题的新算法，并展示了在特定条件下可以实现有限的预期累计遗憾，同时提供了依赖于问题的累计遗憾下限，显示出至少在某些特殊情况下，新算法是近乎最优的。

Nov, 2014

多臂赌博问题的纯探索

研究随机多臂老虎机问题的性质和限制，探讨具有在线探索特性的预测器的表现，其中简单后悔被评估，讨论简单后悔与累计后悔的关系，在有限臂数的情况下展示了一种性能下限和预测器的上限后悔，并针对连续老虎臂问题进行了研究。

Feb, 2008

随机多臂赌博机的有限遗憾

研究解决在已知最优的选择和最小间隔值时如何制定随机化策略，以解决随机多臂赌博问题中可能发生的后悔问题，并探讨了其下界和最优解等问题。

Feb, 2013

随机多臂赌博机中的广义风险厌恶

探讨了在多臂赌博机中最小化遗憾的问题，其中臂的好坏度量不是平均回报率，而是平均值和方差的某个通用函数，特征化了学习可能的条件，并展示了对于某些情况自然算法无法实现亚线性遗憾的例子。

May, 2014

批处理赌博机的遗憾界

本文提出了一种简单有效的算法来解决批处理随机多臂赌博机和线性随机多臂赌博机问题，这些算法能够通过只使用对数数量的批次实现最优期望遗憾界，此外，文章还首次研究了批处理对抗性多臂赌博机问题，并发现了任何算法的最佳遗憾界（对数因子除外）的预定批处理大小。

Oct, 2019

线性参数化赌博机

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008

多臂赌博机的宽容遗憾

本文提出了一种忽略一定程度下最优性差距的 Bandit 算法，并以其为基础，设计优化算法 Thompson Sampling (ε-TS)。研究结果表明，该算法能够在一定程度上避免过度探索问题，并在保证性能的前提下，提高计算效率。

Aug, 2020

稀疏随机赌博机

本文研究了经典多臂老虎机问题的稀疏情况，并提出了一种算法，其遗憾值与臂数的正比例关系被缩小至仅与正收益臂数相同，同时证明了其最优性。

Jun, 2017

比例响应：用于简单和累积遗憾最小化的情境赌博机算法

提出了一种新的基于上下文 Bandit 算法的族群，利用 “保序手臂集” 提供每个上下文的一组手臂，覆盖了上下文特定的最优手臂，在简单遗憾最小化和累积遗憾最小化方面都有优异表现。

Jul, 2023