带专家建议的强盗问题的改进遗憾界限

Jun, 2024

带专家建议的强盗问题的改进遗憾界限

Improved Regret Bounds for Bandits with Expert Advice

Nicolò Cesa-Bianchi, Khaled Eldowa, Emmanuel Esposito, Julia Olkhovskaya

TL;DR通过受限反馈模型，本研究提供了关于 “专家建议问题” 的最坏情况后悔度的新的下界和上界，其中下界为 O (sqrt (KT ln (N/K)))，上界与之相匹配，并改进了现有最佳下界 sqrt (KT (ln N) / (ln K))。同时，对于标准反馈模型，本研究提供了一种新的基于实例的上界，该上界取决于专家之间的一致性，并相比之前的结果提供了对数级的改进。

Abstract

In this research note, we revisit the bandits with expert advice problem. Under a restricted feedback model, we prove a lower bound of order $\sqrt{K T \ln(N/K)}$ for the →

bandits with expert advice problem restricted feedback model worst-case regret number of actions time horizon

发现论文，激发创造

睡眠赌徒的近最佳每个动作的遗憾界

我们使用广义版本的 EXP3、EXP3-IX 和 FTRL 与 Tsallis 熵直接最小化每次行动的遗憾，从而获得了接近最优的 $ O (√{TAln⁡K})$ 和 $ O (√{T√{AK}})$ 的界限，并将我们的结果推广到了从睡眠专家那里寻求建议的强盗情境，从而得到了一些现有自适应和跟踪遗憾上限的新证明，并通过推广我们的结果到专家报告信心的强盗版本，得到了主要依赖于专家信心之和的置信遗憾上限。

Mar, 2024

关于具备反馈图的在线学习的最小化后悔算法

本文针对具有强可观测无向反馈图的在线学习问题，在回报上下界方面进行了改进，并使用 FTRL 与 q-Tsallis 熵对结果进行了证明；同时扩展了该技术应用于时间变化图的情形，并提供了适用于所有 alpha>1 的改良下界。

May, 2023

多智能体多臂赌博机中的遗憾下界

在多臂赌博机领域，多智能体多臂赌博机方法已经受到了广泛关注，但对应的遗憾下界的研究相对较少。本文在不同情景下首次全面研究了遗憾下界，并证明了它们的紧密性。当图表现出良好的连通性和奖励是随机分布时，我们证明了实例相关上界的 O（log T）下界和平均差值独立上界的 sqrt（T）下界。在对抗奖励的假设下，我们建立了连接图的 O（T^（2/3））下界，从而弥合了以前工作中下界与上界之间的差距。当图表现为不连通时，我们还展示了线性的遗憾下界。与以前的研究相比，本文全面研究了这些情景下的紧密下界。

Aug, 2023

基于 oracle 的对抗性情境赌博算法的改进遗憾界

提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题，该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的，其中 K 是操作的数量，T 是迭代次数，N 是基线策略的数量。

Jun, 2016

流式赌博问题的紧凑内存遗憾下界

这篇论文研究了流式赌博机问题，建立了时间上界、臂数、游戏轮数的算法紧确的最劣后悔下限，并证明了与分析算法复杂度上限的样本复杂性分析问题的关系。

Jun, 2023

对数贝叶斯遗憾界

研究提出了贝叶斯奖励机制的有限时间对数遗憾度的边界及其应用，并发现了这些权重实际上可以加强已知的上界。

Jun, 2023

具有无限制延迟的非随机多臂赌博机

本文研究带有延迟反馈的多臂老虎机问题，证明了先前的算法在延迟是变量但有上界的情况下具有较好的表现，提出了一种新算法通过一个跳过具有过度大延迟的步骤的 wrapper 来降低了对上界的要求，同时构造了一种新的加倍方案，从而放宽了对时间和延迟知识的要求。提出的算法解决了丰富的应用场景问题并达到了合理的预期表现。

Jun, 2019

对抗性赌博机的改进下界

该研究提供了敌对强盗算法必须遭受的遗憾的新的下界，并证明了对于最佳臂的总损失或损失的二次变化的上界是接近紧的。此外，研究还证明了两个不可能的结果，即单臂最优和遗憾不能随损失范围的提高而扩展。相比之下，在完全信息设置中这两个结果是可能的。

May, 2016

关于不安分马尔科夫赌博机的遗憾界限

本文介绍了一种算法来解决不安分的马尔科夫赌臂问题，并证明了基于指数的策略在这个问题中一定是次优的。该算法可以在不需要假设马尔可夫链除了不可约的任何情况下，经过 T 步后实现相对于知道所有赌臂分布的最佳策略的 O (√T) 的悔恨。

Sep, 2012

多类别分类中的强盗信息真实价格

经作者研究，本论文主要探讨基于强化学习反馈的多类别分类问题，特别关注类别数量 K 对于 T 步的后悔度上界是否能够超过现有算法的√(KT) 依赖性，作者提出了一种新的分类算法以获得对于适度大小的假设类别集合维度的后悔度结果 O (|H|+√(T))，并证明了理论上限范围内（除去对数项）上界的紧密性。

May, 2024