对抗性多臂老虎机中的延迟和数据的适应

Oct, 2020

对抗性多臂老虎机中的延迟和数据的适应

Adapting to Delays and Data in Adversarial Multi-Armed Bandits

András György, Pooria Joulani

TL;DR本文考虑在延迟反馈下的敌对多臂老虎机问题，并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体，从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后，我们介绍了 AdaGrad 风格的版本的算法，该算法通过观察到的 (延迟的) 损失进行适应，而不仅仅是适应于累积延迟 (该算法要求先验上限）。

Abstract

We consider the adversarial multi-armed bandit problem under delayed feedback. We analyze variants of the exp3 algorithm that tune their step-size using only information (about the losses and delays) available at

adversarial multi-armed bandit delayed feedback exp3 algorithm regret guarantees cumulative delay

发现论文，激发创造

具有无限制延迟的非随机多臂赌博机

本文研究带有延迟反馈的多臂老虎机问题，证明了先前的算法在延迟是变量但有上界的情况下具有较好的表现，提出了一种新算法通过一个跳过具有过度大延迟的步骤的 wrapper 来降低了对上界的要求，同时构造了一种新的加倍方案，从而放宽了对时间和延迟知识的要求。提出的算法解决了丰富的应用场景问题并达到了合理的预期表现。

Jun, 2019

带有延迟、汇聚匿名反馈的赌博机

研究了一种带有延迟的聚合匿名反馈的赌博机问题，表明在期望延迟已知的情况下，可以通过提供的算法，在硬的、延迟聚合匿名反馈设置中维持类似于非匿名问题的后悔成本，但在延迟不确定情况下，增加了对数因子或加性方差项的后悔成本。

Sep, 2017

任意延迟下对抗性赌博机的最优算法

提出一个新的算法，针对有无限延迟的对抗多臂老虎机问题，该算法是基于一种新型的混合规则制定的，采用 Follow the Regularized Leader (FTRL) 框架，可实现 $O (\sqrt {kn}+\sqrt {D\log (k)})$ 的遗憾保证，并且不需要预先了解 $n$ 或 $D$, 还提出了一种新的调优算法，遗憾保证可达到 $O (\sqrt {kn}+\min_{S}|S|+\sqrt {D_{\bar S}\log (k)})$，用于解决了 Thune 等人 (2019) 提出的未解决问题。

Oct, 2019

多用户延迟反馈中的改进 EXP3 及其自适应变体在对抗性赌博中的应用

对于带有延迟反馈的对抗性多臂赌博问题，我们设计了一种改进的 EXP3 算法 MUD-EXP3 来处理多用户延迟反馈，同时提出了一种自适应算法 AMUD-EXP3，这两种算法在实验中被证明是正确且有效的，并给出了关于遗憾的理论分析。

Oct, 2023

更多适应性算法用于对抗式赌博机

提出了一种新颖的算法，采用乐观性和适应性技术，结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题，并在提高先前工作的同时，取得了多种新的数据依赖性遗憾界。

Jan, 2018

具有复合匿名延迟反馈的有界内存对抗性赌博机

本研究探讨了具有复合匿名延迟反馈的对抗性赌徒问题，证明了非遗忘环境下会发生伪遗憾现象。但我们提出了一个包装器算法，在某些对抗赌徒问题上获得了 o (T) 策略遗憾。尤其对于 K-armed bandit 和 bandit 凸优化问题，我们的算法的策略遗憾边界为 Ο(T^(2/3))。此外，我们还证明了 K-armed bandit 的匹配下界，即使在损失序列是遗忘的但延迟非遗忘的情况下也能实现。

Apr, 2022

广义线性赌博机中的延迟反馈：重访

本文以延迟反馈形式的一般化线性赌博机作为研究对象，通过设计乐观的算法，使得其失效惩罚与决策次数无关，从而大幅提高了现有研究中最优遗憾界的表现。

Jul, 2022

具有不受限制的延迟分布的随机多臂赌博机

该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Jun, 2021

带有复合匿名反馈的非随机赌博机

研究非随机赌博环境下的遗憾界，提出了基于 FTRL with Tsallis entropy 的算法转化方法。

Dec, 2021

具未知延迟的强盗在线学习

该论文研究了多臂赌博问题和赌博凸优化问题中存在的未知延迟反馈问题，并开发了应对这种情况下的延迟探索、利用和指数迭代（DEXP3）和延迟赌博梯度下降（DBGD）算法。通过统一的分析框架，证明了 DEXP3 和 DBGD 算法的性能优越。

Jul, 2018