基于延迟反馈的预算推荐
研究带有协变量的多臂赌博问题,在可能存在奖励延迟的情况下,通过对延迟的概率分布进行一些温和假设,并使用适当的随机选择武器策略,证明了该策略的强一致性。
Feb, 2019
在在线平台中,推荐系统是一个普遍存在的功能,越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务,将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡:等待全部奖励可用可能需要几个星期,从而影响学习的速度,而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先,我们开发了一个预测延迟奖励的模型,该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测(短期或中期结果)结合起来,得到概率信念。其次,我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题,期望在两个月内找到用户重复参与的节目。经验证明,我们的方法相比于优化短期代理或等待完全实现长期结果的方法,能够显著提高性能。
Jul, 2023
本文考虑在延迟反馈下的敌对多臂老虎机问题,并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体,从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后,我们介绍了 AdaGrad 风格的版本的算法,该算法通过观察到的 (延迟的) 损失进行适应,而不仅仅是适应于累积延迟 (该算法要求先验上限)。
Oct, 2020
该研究探讨具有随机延迟的随机多臂赌博问题,在考虑了奖励相关延迟和奖励无关延迟两种情况下,提出了接近最优的算法,并在延迟分布的分位数上增加了附加依赖性,而不需要假设延迟分布来自任何参数化的分布族,还允许无限延迟的情况。
Jun, 2021
该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS,并通过实验验证了其性能,其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。
Jul, 2018
本文介绍了一种适用于满足延迟目标的自适应实验解决方案,通过在 delayed binary feedback objectives 之前估计实际底层目标来动态分配变体,并显示了该方法相较其他方法更为高效,而且在不同环境下很稳健。此外,我们还描述了一个由该算法驱动的实验产品,该产品已经部署在一个大型的电子商务公司 JD.com 的在线实验平台上。
Feb, 2022
该论文研究了多臂赌博问题和赌博凸优化问题中存在的未知延迟反馈问题,并开发了应对这种情况下的延迟探索、利用和指数迭代(DEXP3)和延迟赌博梯度下降(DBGD)算法。通过统一的分析框架,证明了 DEXP3 和 DBGD 算法的性能优越。
Jul, 2018
在这项研究中,我们利用代理人能够选择获取人工反馈的上下文的事实,引入了离线情境对决贝叶斯臂设置,提出了一种基于上置信界的算法,并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。
Jul, 2023