保守上下文线性赌博机
本文提出了一种基于UCB策略的新算法Safe-LUCB,用于解决多臂赌博问题中考虑安全限制的约束,该算法具有探索和利用两个阶段,并控制遗憾值增长,提供了一般遗憾上界及与最佳行动位置有关的问题相关遗憾上界。
Aug, 2019
本文介绍了一个安全的线性随机挑战模型,其中学习器在每一阶段都需要选择一个预期奖励不小于预先确定的(安全)阈值的臂,以高概率。我们假设学习器最初掌握的是一个已知为安全但不一定最优的臂的知识。基于此假设,介绍了一种学习算法,它将已知的安全臂与探索性臂系统地结合起来,以便随时间安全地扩展安全臂集,同时促进后续阶段的安全贪婪利用。除了确保在每个播放阶段满足安全约束之外,所提出的算法还表现出一种预期的遗憾,在播放T个阶段后不超过O(sqrt(T)log(T))
Nov, 2019
本文研究在线学习算法如何在现实应用中优化基线策略并介绍了一种新的基于Conservative Constrained LinUCB算法的解决方案,并在多个合成和真实世界的问题中超越了现有的保守乐队算法。
Feb, 2020
本文研究了上下文多样性对随机线性情境赌博机的影响,提出了LinUCB-d算法并分析其遗憾性能,理论结果表明,在多样性上下文的假设下,LinUCB-d的期望累积遗憾被一个常数限制,改善了以往对LinUCB的理解并加强了其性能保证。
Mar, 2020
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
本文解决了无界上下文的非参数上下文赌博机问题,填补了现有研究在这一领域的空白。提出了两种结合UCB探索的最近邻方法,其中第二种方法通过自适应选择邻居数量,达到了大部分情况下的最优后悔界限,为无界上下文的在线决策提供了有效的解决方案。
Aug, 2024