具有不受限制的延迟分布的随机多臂赌博机
本文研究随机延迟赌博机问题,提出了一种基于 UCB 算法的简单但高效的算法 ——PatientBandits,通过针对延迟赋予限制的方法,得出不同类型问题的效果下限和上限。
Jun, 2020
探索一种新的多臂赌博问题(MAB)的设置,其中给出了随机延迟复合匿名反馈(SDCAF)的难点,使用基于 UCB 算法的相位扩展提出了两种算法,并通过遗憾分析显示出两种算法的亚线性理论保证。
Oct, 2019
本文研究使用复合和匿名反馈的多臂老虎机问题,提出适应性算法,解决了没有先验关于奖励间隔大小的信息的问题,并且进行了基于真实数据集的模拟实验,结果表明我们的算法胜过现有的基准算法。
Dec, 2020
设计一种不使用奖励分布信息的多臂赌博机算法,通过交替应用贪婪规则与强制探索来实现显著的后悔上界,并提供不同强制探索策略下的问题依赖性后悔上界分析方法,适用于不同奖励分布的固定和分段固定设置。
Dec, 2023
本文研究了多臂赌博策略在非静态随机回报函数和延迟反馈的情况下的性能,并针对非静态回报函数和延迟反馈的情况提出了一种自适应技术(AG1),在在线电子商务平台上进行了多臂赌博模拟。结果表明,相对于传统的多臂赌博策略,在后悔最小化的情况下,自适应技术表现更优秀。
Feb, 2019
本文研究了在多臂赌博机的延迟反馈场景下,如何利用局部反馈来提高标准算法的样本复杂度。采用模型化的方法探讨了局部反馈和延迟反馈之间的关系,并提出了一种用于处理偏差或无偏差情况下局部反馈的有效算法。另外,还针对并行多臂赌博机提出了一种新的算法扩展。在实际场景中,针对电池快速充电和野生动物走廊建设的计算可持续性领域中的策略搜索和超参数优化等问题的实验表明,利用局部反馈的结构可以显著提高标准算法的性能。
Mar, 2018
本文研究带有延迟反馈的多臂老虎机问题,证明了先前的算法在延迟是变量但有上界的情况下具有较好的表现,提出了一种新算法通过一个跳过具有过度大延迟的步骤的 wrapper 来降低了对上界的要求,同时构造了一种新的加倍方案,从而放宽了对时间和延迟知识的要求。提出的算法解决了丰富的应用场景问题并达到了合理的预期表现。
Jun, 2019
研究了一种带有延迟的聚合匿名反馈的赌博机问题,表明在期望延迟已知的情况下,可以通过提供的算法,在硬的、延迟聚合匿名反馈设置中维持类似于非匿名问题的后悔成本,但在延迟不确定情况下,增加了对数因子或加性方差项的后悔成本。
Sep, 2017
研究带有协变量的多臂赌博问题,在可能存在奖励延迟的情况下,通过对延迟的概率分布进行一些温和假设,并使用适当的随机选择武器策略,证明了该策略的强一致性。
Feb, 2019
本文研究了一种分散式多臂搏击器的问题,提出了一种达到最优秩序并确保公平性的分散式政策,并证明了其总遗憾增长速率的下限,这个问题在认知无线电网络,多通道通信系统,多智能体系统,网络搜索和广告以及社交网络等领域有潜在的应用。
Oct, 2009