广义线性赌博机中的延迟反馈：重访

Jul, 2022

广义线性赌博机中的延迟反馈：重访

Delayed Feedback in Generalised Linear Bandits Revisited

Benjamin Howson, Ciara Pike-Burke, Sarah Filippi

TL;DR本文以延迟反馈形式的一般化线性赌博机作为研究对象，通过设计乐观的算法，使得其失效惩罚与决策次数无关，从而大幅提高了现有研究中最优遗憾界的表现。

Abstract

The stochastic generalised linear bandit is a well-understood model for sequential decision-making problems, with many algorithms achieving near-optimal regret guarantees under immediate feedback. However, the st

stochastic generalised linear bandit sequential decision-making problems delayed rewards optimistic algorithm regret bound

发现论文，激发创造

具有随机延迟反馈的线性赌博机

该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS，并通过实验验证了其性能，其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。

Jul, 2018

核心赌徒中的延迟反馈

该研究提出了一种算法来解决具有随机延迟反馈的内核赌博问题，其具有非常相似的复杂性界限，而且，与现有算法相比表现出了更好的表现。

Feb, 2023

对抗性多臂老虎机中的延迟和数据的适应

本文考虑在延迟反馈下的敌对多臂老虎机问题，并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体，从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后，我们介绍了 AdaGrad 风格的版本的算法，该算法通过观察到的 (延迟的) 损失进行适应，而不仅仅是适应于累积延迟 (该算法要求先验上限）。

Oct, 2020

基于延迟反馈的预算推荐

在有限的资源和延迟反馈的情况下，研究了延迟反馈对约束上下文多臂赌博问题的影响，并开发了一种决策策略（DORAL），以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。

May, 2024

带有延迟、汇聚匿名反馈的赌博机

研究了一种带有延迟的聚合匿名反馈的赌博机问题，表明在期望延迟已知的情况下，可以通过提供的算法，在硬的、延迟聚合匿名反馈设置中维持类似于非匿名问题的后悔成本，但在延迟不确定情况下，增加了对数因子或加性方差项的后悔成本。

Sep, 2017

具有不受限制的延迟分布的随机多臂赌博机

该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Jun, 2021

延迟反馈下的在线学习

本文系统研究了在线学习与延迟反馈的主题，分析了延迟对在线学习算法的遗憾值的影响，提出了黑盒元算法以及基于 UCB 算法的改进方法来解决带有延迟反馈的学习问题。

Jun, 2013

非平稳广义线性赌博机算法

本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法，以解决在非静态环境下的上下文在线学习和塞德利反馈问题，这些结果表明这些算法在一般的情境序列下，并且存在突然变化时具有高概率的上限置信度边界，证明结果的形式为时间 T 内的 d^2/3 G^1/3 T^2/3 阶动态后悔。

Mar, 2020

带有复合匿名反馈的非随机赌博机

研究非随机赌博环境下的遗憾界，提出了基于 FTRL with Tsallis entropy 的算法转化方法。

Dec, 2021

具有中间观测的非平稳延迟赌博机

介绍了一种解决在线推荐系统中面临的延迟反馈和非静态环境下，如何利用中间信号解决长期行为稳定性问题的计算机算法，并利用 UCRL 算法提出了一个能够在非静态延迟环境中学习的方法。

Jun, 2020