该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS,并通过实验验证了其性能,其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。
Jul, 2018
该研究提出了一种算法来解决具有随机延迟反馈的内核赌博问题,其具有非常相似的复杂性界限,而且,与现有算法相比表现出了更好的表现。
Feb, 2023
本文考虑在延迟反馈下的敌对多臂老虎机问题,并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体,从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后,我们介绍了 AdaGrad 风格的版本的算法,该算法通过观察到的 (延迟的) 损失进行适应,而不仅仅是适应于累积延迟 (该算法要求先验上限)。
Oct, 2020
在有限的资源和延迟反馈的情况下,研究了延迟反馈对约束上下文多臂赌博问题的影响,并开发了一种决策策略(DORAL),以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。
May, 2024
研究了一种带有延迟的聚合匿名反馈的赌博机问题,表明在期望延迟已知的情况下,可以通过提供的算法,在硬的、延迟聚合匿名反馈设置中维持类似于非匿名问题的后悔成本,但在延迟不确定情况下,增加了对数因子或加性方差项的后悔成本。
Sep, 2017
该研究探讨具有随机延迟的随机多臂赌博问题,在考虑了奖励相关延迟和奖励无关延迟两种情况下,提出了接近最优的算法,并在延迟分布的分位数上增加了附加依赖性,而不需要假设延迟分布来自任何参数化的分布族,还允许无限延迟的情况。
Jun, 2021
本文系统研究了在线学习与延迟反馈的主题,分析了延迟对在线学习算法的遗憾值的影响,提出了黑盒元算法以及基于 UCB 算法的改进方法来解决带有延迟反馈的学习问题。
Jun, 2013
本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法,以解决在非静态环境下的上下文在线学习和塞德利反馈问题,这些结果表明这些算法在一般的情境序列下,并且存在突然变化时具有高概率的上限置信度边界,证明结果的形式为时间 T 内的 d^2/3 G^1/3 T^2/3 阶动态后悔。
Mar, 2020
研究非随机赌博环境下的遗憾界,提出了基于 FTRL with Tsallis entropy 的算法转化方法。
Dec, 2021
介绍了一种解决在线推荐系统中面临的延迟反馈和非静态环境下,如何利用中间信号解决长期行为稳定性问题的计算机算法,并利用 UCRL 算法提出了一个能够在非静态延迟环境中学习的方法。
Jun, 2020