我们研究了具有延迟反馈的强凸波段优化问题,通过精细地利用延迟波段反馈的阻塞更新机制,我们的算法改进了损失边界并将其与延迟设置下的传统波段梯度下降(BGD)算法相匹配。
Feb, 2024
本文考虑在延迟反馈下的敌对多臂老虎机问题,并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体,从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后,我们介绍了 AdaGrad 风格的版本的算法,该算法通过观察到的 (延迟的) 损失进行适应,而不仅仅是适应于累积延迟 (该算法要求先验上限)。
Oct, 2020
本文研究带有延迟反馈的多臂老虎机问题,证明了先前的算法在延迟是变量但有上界的情况下具有较好的表现,提出了一种新算法通过一个跳过具有过度大延迟的步骤的 wrapper 来降低了对上界的要求,同时构造了一种新的加倍方案,从而放宽了对时间和延迟知识的要求。提出的算法解决了丰富的应用场景问题并达到了合理的预期表现。
Jun, 2019
该研究探讨具有随机延迟的随机多臂赌博问题,在考虑了奖励相关延迟和奖励无关延迟两种情况下,提出了接近最优的算法,并在延迟分布的分位数上增加了附加依赖性,而不需要假设延迟分布来自任何参数化的分布族,还允许无限延迟的情况。
Jun, 2021
对于带有延迟反馈的对抗性多臂赌博问题,我们设计了一种改进的 EXP3 算法 MUD-EXP3 来处理多用户延迟反馈,同时提出了一种自适应算法 AMUD-EXP3,这两种算法在实验中被证明是正确且有效的,并给出了关于遗憾的理论分析。
Oct, 2023
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。
Dec, 2020
本文系统研究了在线学习与延迟反馈的主题,分析了延迟对在线学习算法的遗憾值的影响,提出了黑盒元算法以及基于 UCB 算法的改进方法来解决带有延迟反馈的学习问题。
Jun, 2013
本文研究了贝叶斯优化在随机延迟反馈问题上的表现,提出了具有子线性遗憾保证的算法,并在批量 BO 和上下文高斯过程老虎机方面做出了新贡献。作者在合成和真实数据集上进行了实验证明了算法的性能。
Jun, 2022
研究了一种带有延迟的聚合匿名反馈的赌博机问题,表明在期望延迟已知的情况下,可以通过提供的算法,在硬的、延迟聚合匿名反馈设置中维持类似于非匿名问题的后悔成本,但在延迟不确定情况下,增加了对数因子或加性方差项的后悔成本。
Sep, 2017
本文研究了具有随机次模(期望上)奖励和完全 bandit 延迟反馈的组合多臂老虎机问题,其中假定延迟反馈是组合匿名的,同时研究了有界择逊、随机独立和随机条件独立三种延迟反馈模型,给出了每种延迟模型的后悔界限,忽略问题相关参数,证明所有延迟模型的后悔界限为 $ ilde {O}(T^{2/3} + T^{1/3} u)$,其中 $T$ 为时间跨度,$ u$ 根据三种情况有不同的定义,因此在所有三种延迟模型中表明了延迟对后悔的添加项,该算法被证明优于具有延迟复合匿名反馈的其他全 bandit 方法。
Mar, 2023