具有延迟组合匿名赌徒反馈的随机次模赌徒算法

Mar, 2023

具有延迟组合匿名赌徒反馈的随机次模赌徒算法

Stochastic Submodular Bandits with Delayed Composite Anonymous Bandit Feedback

Mohammad Pedramfar, Vaneet Aggarwal

TL;DR本文研究了具有随机次模（期望上）奖励和完全 bandit 延迟反馈的组合多臂老虎机问题，其中假定延迟反馈是组合匿名的，同时研究了有界择逊、随机独立和随机条件独立三种延迟反馈模型，给出了每种延迟模型的后悔界限，忽略问题相关参数，证明所有延迟模型的后悔界限为 $ ilde {O}(T^{2/3} + T^{1/3} u)$，其中 $T$ 为时间跨度，$ u$ 根据三种情况有不同的定义，因此在所有三种延迟模型中表明了延迟对后悔的添加项，该算法被证明优于具有延迟复合匿名反馈的其他全 bandit 方法。

Abstract

This paper investigates the problem of combinatorial multiarmed bandits with stochastic submodular (in expectation) rewards and full-bandit delayed feedback, where the delayed feedback is assumed to be composite

combinatorial multiarmed bandits stochastic submodular rewards delayed feedback regret bounds algorithm

发现论文，激发创造

具有复合匿名延迟反馈的有界内存对抗性赌博机

本研究探讨了具有复合匿名延迟反馈的对抗性赌徒问题，证明了非遗忘环境下会发生伪遗憾现象。但我们提出了一个包装器算法，在某些对抗赌徒问题上获得了 o (T) 策略遗憾。尤其对于 K-armed bandit 和 bandit 凸优化问题，我们的算法的策略遗憾边界为 Ο(T^(2/3))。此外，我们还证明了 K-armed bandit 的匹配下界，即使在损失序列是遗忘的但延迟非遗忘的情况下也能实现。

Apr, 2022

带有复合匿名反馈的非随机赌博机

研究非随机赌博环境下的遗憾界，提出了基于 FTRL with Tsallis entropy 的算法转化方法。

Dec, 2021

延迟复合匿名反馈的随机赌博机

探索一种新的多臂赌博问题（MAB）的设置，其中给出了随机延迟复合匿名反馈（SDCAF）的难点，使用基于 UCB 算法的相位扩展提出了两种算法，并通过遗憾分析显示出两种算法的亚线性理论保证。

Oct, 2019

带有延迟、汇聚匿名反馈的赌博机

研究了一种带有延迟的聚合匿名反馈的赌博机问题，表明在期望延迟已知的情况下，可以通过提供的算法，在硬的、延迟聚合匿名反馈设置中维持类似于非匿名问题的后悔成本，但在延迟不确定情况下，增加了对数因子或加性方差项的后悔成本。

Sep, 2017

复合和匿名反馈多臂赌博机的自适应算法

本文研究使用复合和匿名反馈的多臂老虎机问题，提出适应性算法，解决了没有先验关于奖励间隔大小的信息的问题，并且进行了基于真实数据集的模拟实验，结果表明我们的算法胜过现有的基准算法。

Dec, 2020

具有无限制延迟的非随机多臂赌博机

本文研究带有延迟反馈的多臂老虎机问题，证明了先前的算法在延迟是变量但有上界的情况下具有较好的表现，提出了一种新算法通过一个跳过具有过度大延迟的步骤的 wrapper 来降低了对上界的要求，同时构造了一种新的加倍方案，从而放宽了对时间和延迟知识的要求。提出的算法解决了丰富的应用场景问题并达到了合理的预期表现。

Jun, 2019

对抗性多臂老虎机中的延迟和数据的适应

本文考虑在延迟反馈下的敌对多臂老虎机问题，并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体，从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后，我们介绍了 AdaGrad 风格的版本的算法，该算法通过观察到的 (延迟的) 损失进行适应，而不仅仅是适应于累积延迟 (该算法要求先验上限）。

Oct, 2020

具有不受限制的延迟分布的随机多臂赌博机

该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Jun, 2021

适应离线算法来解决带有固定反馈的组合多臂赌博问题的框架

该研究针对随机、组合式多臂老虎机问题，提出了一种将离线算法转化为基于有限老虎机反馈的子线性 α 遗憾策略的框架，并将其应用于离散优化问题中的基数问题和背包约束问题中获得了良好的表现。

Jan, 2023

在线非次模代价延迟最小化：从全信息到强化反馈

研究在线学习中的非约束非子模最小化问题，并提出了一种基于梯度下降算法的解决方案，其中考虑了非子模函数特殊结构和成本的时滞，证明了算法在静态和延迟情况下的遗憾保证。

May, 2022