Bandits 问题的 Pareto 遗憾前沿

NIPSOct, 2015

The Pareto Regret Frontier for Bandits

Tor Lattimore

TL;DR针对多臂赌博机问题，该研究研究了如何通过实现更小的针对某些特殊操作的最差后果来达到更好的结果，最终给出解决方案并进行了上下界的讨论。

Abstract

Given a multi-armed bandit problem it may be desirable to achieve a smaller-than-usual worst-case regret for some special actions. I show that the price for such unbalanced →

multi-armed bandit problem worst-case regret algorithm horizon pareto regret frontier

发现论文，激发创造

有限臂结构赌博机的有界遗憾

研究了一种新型的 K 武装强盗问题，介绍了一种针对这一问题的新算法，并展示了在特定条件下可以实现有限的预期累计遗憾，同时提供了依赖于问题的累计遗憾下限，显示出至少在某些特殊情况下，新算法是近乎最优的。

Nov, 2014

多种最佳臂的遗憾问题

本篇论文旨在应对多臂赌博机问题中存在多个最优 / 近似最优机械臂的后悔最小化问题，通过提出自适应算法来自动适应问题的难度，并在理论和实验方面展现了该算法的优越性。

Jun, 2020

随机赌博机中的遗憾分布：期望和尾部风险之间的最优权衡

研究了随机多臂赌博问题中期望值和尾部风险之间的权衡，提出了一种新的策略以实现任何遗憾阈值的最优遗憾尾部概率，该策略在最坏情况下和实例相关情况下分别实现了 $\alpha$- 最优和 $\beta$- 一致，探究了最差情况和实例相关情况下的遗憾期望和遗憾尾部风险之间的权衡，同时表明在知道规划时间范围时，尾部风险可以降低。

Apr, 2023

对抗性赌博机的改进下界

该研究提供了敌对强盗算法必须遭受的遗憾的新的下界，并证明了对于最佳臂的总损失或损失的二次变化的上界是接近紧的。此外，研究还证明了两个不可能的结果，即单臂最优和遗憾不能随损失范围的提高而扩展。相比之下，在完全信息设置中这两个结果是可能的。

May, 2016

无限臂老虎机的简单遗憾

本文针对无穷臂随机赌博机问题，提出一种算法用以最小化简单损失，并扩展到多种情况下，如未知时间跨度等。

May, 2015

随机多臂赌博机的有限遗憾

研究解决在已知最优的选择和最小间隔值时如何制定随机化策略，以解决随机多臂赌博问题中可能发生的后悔问题，并探讨了其下界和最优解等问题。

Feb, 2013

合作非随机多臂老虎机中的个体遗憾

研究通过交换信息在底层网络上通信的代理，以优化共同的非随机多臂赌博问题中各自的遗憾。我们推导出遗憾最小化算法，其中保证每个代理 v 的期望遗憾都是（1+K/|N (v)|)^T 的平方根量级。

Jul, 2019

线性赌臂机器人的纳什后悔保证

在随机线性赌博机的框架中，我们获得了强化的后悔概念的紧密上界。这个强化的后悔概念被称为 Nash 后悔，它被定义为线性赌博机算法累积的预期奖励的几何平均值与（事先未知的）最优解之间的差异。我们开发了一种算法，在有限的臂集和无限的臂集两种情况下，实现了 Nash 后悔的上界。

Oct, 2023

探索先行，利用随后：强盗问题中后悔的真实形状

本文研究多臂老虎机问题的遗憾下界，并利用 Kullback-Leibler 分歧的已知特性证明了非相对论、分布依赖的限制。这些限制特别表明，在初始阶段遗憾几乎线性增长，并且在最后阶段仅出现知名的对数增长。证明技术突出了信息理论论证的本质，并去除了所有不必要的复杂性。

Feb, 2016

Dueling Bandit 问题的遗憾下限和最优算法

本文研究了 K-armed dueling bandit 问题，提出了一种受 Deterministic Minimum Empirical Divergence 算法启发的算法，并得到了匹配下界的后悔上界，实验结果表明该算法明显优于现有算法。

Jun, 2015