具有不受限制的延迟分布的随机多臂赌博机

ICMLJun, 2021

具有不受限制的延迟分布的随机多臂赌博机

Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions

Tal Lancewicki, Shahar Segal, Tomer Koren, Yishay Mansour

TL;DR该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Abstract

We study the stochastic Multi-Armed Bandit (MAB) problem with random delays in the feedback received by the algorithm. We consider two settings: the reward-dependent delay setting, where realized delays may depend on the stochastic rewards, and the →

stochastic multi-armed bandit problem reward-dependent delay setting reward-independent delay setting near-optimal regret quantiles of delay distribution

发现论文，激发创造

具有臂依赖性延迟的随机赌博机

本文研究随机延迟赌博机问题，提出了一种基于 UCB 算法的简单但高效的算法 ——PatientBandits，通过针对延迟赋予限制的方法，得出不同类型问题的效果下限和上限。

Jun, 2020

延迟复合匿名反馈的随机赌博机

探索一种新的多臂赌博问题（MAB）的设置，其中给出了随机延迟复合匿名反馈（SDCAF）的难点，使用基于 UCB 算法的相位扩展提出了两种算法，并通过遗憾分析显示出两种算法的亚线性理论保证。

Oct, 2019

复合和匿名反馈多臂赌博机的自适应算法

本文研究使用复合和匿名反馈的多臂老虎机问题，提出适应性算法，解决了没有先验关于奖励间隔大小的信息的问题，并且进行了基于真实数据集的模拟实验，结果表明我们的算法胜过现有的基准算法。

Dec, 2020

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

非固定奖励分布和延迟反馈过程的多臂赌博策略

本文研究了多臂赌博策略在非静态随机回报函数和延迟反馈的情况下的性能，并针对非静态回报函数和延迟反馈的情况提出了一种自适应技术（AG1），在在线电子商务平台上进行了多臂赌博模拟。结果表明，相对于传统的多臂赌博策略，在后悔最小化的情况下，自适应技术表现更优秀。

Feb, 2019

多臂老虎机中带延迟反馈的最佳臂识别

本文研究了在多臂赌博机的延迟反馈场景下，如何利用局部反馈来提高标准算法的样本复杂度。采用模型化的方法探讨了局部反馈和延迟反馈之间的关系，并提出了一种用于处理偏差或无偏差情况下局部反馈的有效算法。另外，还针对并行多臂赌博机提出了一种新的算法扩展。在实际场景中，针对电池快速充电和野生动物走廊建设的计算可持续性领域中的策略搜索和超参数优化等问题的实验表明，利用局部反馈的结构可以显著提高标准算法的性能。

Mar, 2018

具有无限制延迟的非随机多臂赌博机

本文研究带有延迟反馈的多臂老虎机问题，证明了先前的算法在延迟是变量但有上界的情况下具有较好的表现，提出了一种新算法通过一个跳过具有过度大延迟的步骤的 wrapper 来降低了对上界的要求，同时构造了一种新的加倍方案，从而放宽了对时间和延迟知识的要求。提出的算法解决了丰富的应用场景问题并达到了合理的预期表现。

Jun, 2019

带有延迟、汇聚匿名反馈的赌博机

研究了一种带有延迟的聚合匿名反馈的赌博机问题，表明在期望延迟已知的情况下，可以通过提供的算法，在硬的、延迟聚合匿名反馈设置中维持类似于非匿名问题的后悔成本，但在延迟不确定情况下，增加了对数因子或加性方差项的后悔成本。

Sep, 2017

具有延迟奖励的上下文多臂赌博机的随机分配与非参数估计

研究带有协变量的多臂赌博问题，在可能存在奖励延迟的情况下，通过对延迟的概率分布进行一些温和假设，并使用适当的随机选择武器策略，证明了该策略的强一致性。

Feb, 2019

多人多臂赌博机的分布式学习

本文研究了一种分散式多臂搏击器的问题，提出了一种达到最优秩序并确保公平性的分散式政策，并证明了其总遗憾增长速率的下限，这个问题在认知无线电网络，多通道通信系统，多智能体系统，网络搜索和广告以及社交网络等领域有潜在的应用。

Oct, 2009