基于延迟反馈的预算推荐

May, 2024

Budgeted Recommendation with Delayed Feedback

Kweiguu Liu, Setareh Maghsudi

TL;DR在有限的资源和延迟反馈的情况下，研究了延迟反馈对约束上下文多臂赌博问题的影响，并开发了一种决策策略（DORAL），以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。

Abstract

In a conventional contextual multi-armed bandit problem, the feedback (or reward) is immediately observable after an action. Nevertheless, delayed feedback arises in numerous real-life situations and is particularly crucial in time-sensitive applications. The →

contextual multi-armed bandit delayed feedback exploration-exploitation dilemma limited resources constrained contextual bandits

发现论文，激发创造

广义线性赌博机中的延迟反馈：重访

本文以延迟反馈形式的一般化线性赌博机作为研究对象，通过设计乐观的算法，使得其失效惩罚与决策次数无关，从而大幅提高了现有研究中最优遗憾界的表现。

Jul, 2022

具有延迟奖励的上下文多臂赌博机的随机分配与非参数估计

研究带有协变量的多臂赌博问题，在可能存在奖励延迟的情况下，通过对延迟的概率分布进行一些温和假设，并使用适当的随机选择武器策略，证明了该策略的强一致性。

Feb, 2019

不耐烦赌徒：无需延迟的长期优化

在在线平台中，推荐系统是一个普遍存在的功能，越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务，将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡：等待全部奖励可用可能需要几个星期，从而影响学习的速度，而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先，我们开发了一个预测延迟奖励的模型，该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测（短期或中期结果）结合起来，得到概率信念。其次，我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题，期望在两个月内找到用户重复参与的节目。经验证明，我们的方法相比于优化短期代理或等待完全实现长期结果的方法，能够显著提高性能。

Jul, 2023

延迟反馈下的在线学习

本文系统研究了在线学习与延迟反馈的主题，分析了延迟对在线学习算法的遗憾值的影响，提出了黑盒元算法以及基于 UCB 算法的改进方法来解决带有延迟反馈的学习问题。

Jun, 2013

对抗性多臂老虎机中的延迟和数据的适应

本文考虑在延迟反馈下的敌对多臂老虎机问题，并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体，从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后，我们介绍了 AdaGrad 风格的版本的算法，该算法通过观察到的 (延迟的) 损失进行适应，而不仅仅是适应于累积延迟 (该算法要求先验上限）。

Oct, 2020

具有不受限制的延迟分布的随机多臂赌博机

该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Jun, 2021

具有随机延迟反馈的线性赌博机

该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS，并通过实验验证了其性能，其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。

Jul, 2018

延迟二元反馈的自适应实验

本文介绍了一种适用于满足延迟目标的自适应实验解决方案，通过在 delayed binary feedback objectives 之前估计实际底层目标来动态分配变体，并显示了该方法相较其他方法更为高效，而且在不同环境下很稳健。此外，我们还描述了一个由该算法驱动的实验产品，该产品已经部署在一个大型的电子商务公司 JD.com 的在线实验平台上。

Feb, 2022

具未知延迟的强盗在线学习

该论文研究了多臂赌博问题和赌博凸优化问题中存在的未知延迟反馈问题，并开发了应对这种情况下的延迟探索、利用和指数迭代（DEXP3）和延迟赌博梯度下降（DBGD）算法。通过统一的分析框架，证明了 DEXP3 和 DBGD 算法的性能优越。

Jul, 2018

基于核函数的离线上下文对抗波动策略

在这项研究中，我们利用代理人能够选择获取人工反馈的上下文的事实，引入了离线情境对决贝叶斯臂设置，提出了一种基于上置信界的算法，并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。

Jul, 2023