具未知延迟的强盗在线学习

Jul, 2018

Bandit Online Learning with Unknown Delays

Bingcong Li, Tianyi Chen, Georgios B. Giannakis

TL;DR该论文研究了多臂赌博问题和赌博凸优化问题中存在的未知延迟反馈问题，并开发了应对这种情况下的延迟探索、利用和指数迭代（DEXP3）和延迟赌博梯度下降（DBGD）算法。通过统一的分析框架，证明了 DEXP3 和 DBGD 算法的性能优越。

Abstract

This paper deals with bandit online learning problems involving feedback of unknown delay that can emerge in multi-armed bandit (MAB) and

bandit online learning multi-armed bandit bandit convex optimization unknown delay delayed exploration

发现论文，激发创造

带有延迟反馈的强化学习优化中的改进后悔度

我们研究了具有延迟反馈的强凸波段优化问题，通过精细地利用延迟波段反馈的阻塞更新机制，我们的算法改进了损失边界并将其与延迟设置下的传统波段梯度下降（BGD）算法相匹配。

Feb, 2024

对抗性多臂老虎机中的延迟和数据的适应

本文考虑在延迟反馈下的敌对多臂老虎机问题，并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体，从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后，我们介绍了 AdaGrad 风格的版本的算法，该算法通过观察到的 (延迟的) 损失进行适应，而不仅仅是适应于累积延迟 (该算法要求先验上限）。

Oct, 2020

具有无限制延迟的非随机多臂赌博机

本文研究带有延迟反馈的多臂老虎机问题，证明了先前的算法在延迟是变量但有上界的情况下具有较好的表现，提出了一种新算法通过一个跳过具有过度大延迟的步骤的 wrapper 来降低了对上界的要求，同时构造了一种新的加倍方案，从而放宽了对时间和延迟知识的要求。提出的算法解决了丰富的应用场景问题并达到了合理的预期表现。

Jun, 2019

具有不受限制的延迟分布的随机多臂赌博机

该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Jun, 2021

多用户延迟反馈中的改进 EXP3 及其自适应变体在对抗性赌博中的应用

对于带有延迟反馈的对抗性多臂赌博问题，我们设计了一种改进的 EXP3 算法 MUD-EXP3 来处理多用户延迟反馈，同时提出了一种自适应算法 AMUD-EXP3，这两种算法在实验中被证明是正确且有效的，并给出了关于遗憾的理论分析。

Oct, 2023

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020

延迟反馈下的在线学习

本文系统研究了在线学习与延迟反馈的主题，分析了延迟对在线学习算法的遗憾值的影响，提出了黑盒元算法以及基于 UCB 算法的改进方法来解决带有延迟反馈的学习问题。

Jun, 2013

随机延迟反馈下的贝叶斯优化

本文研究了贝叶斯优化在随机延迟反馈问题上的表现，提出了具有子线性遗憾保证的算法，并在批量 BO 和上下文高斯过程老虎机方面做出了新贡献。作者在合成和真实数据集上进行了实验证明了算法的性能。

Jun, 2022

带有延迟、汇聚匿名反馈的赌博机

研究了一种带有延迟的聚合匿名反馈的赌博机问题，表明在期望延迟已知的情况下，可以通过提供的算法，在硬的、延迟聚合匿名反馈设置中维持类似于非匿名问题的后悔成本，但在延迟不确定情况下，增加了对数因子或加性方差项的后悔成本。

Sep, 2017

具有延迟组合匿名赌徒反馈的随机次模赌徒算法

本文研究了具有随机次模（期望上）奖励和完全 bandit 延迟反馈的组合多臂老虎机问题，其中假定延迟反馈是组合匿名的，同时研究了有界择逊、随机独立和随机条件独立三种延迟反馈模型，给出了每种延迟模型的后悔界限，忽略问题相关参数，证明所有延迟模型的后悔界限为 $ ilde {O}(T^{2/3} + T^{1/3} u)$，其中 $T$ 为时间跨度，$ u$ 根据三种情况有不同的定义，因此在所有三种延迟模型中表明了延迟对后悔的添加项，该算法被证明优于具有延迟复合匿名反馈的其他全 bandit 方法。

Mar, 2023