基于安全性的分段独立同分布赌博机变点检测
本文研究了随机多武器歹徒问题的设置,在未知变化点的情况下,将奖励分配为分段独立同分布且有界。我们集中研究了所有武器同时发生更改的情况,并针对涉及变化量(∆{^{chg}_{i,g}})和最优间隙(∆{^{opt}_{i,g}})的依赖间隙(而不仅是间隙独立的间隙)后悔边界。在不知道变化点的情况下,我们介绍了两种 UCB 策略的自适应性,并采用扫描统计技术,以积极检测变化点。
May, 2019
本文研究基于变点检测的多臂赌博机问题,提出了使用累积和和 Page-Hinkley 测试进行变点检测的 UCB 策略,并展示了在伯努利奖励和 Yahoo 数据集上的性能测试结果。
Nov, 2017
通过结合经典的 UCB 算法和简单的变化检测组件,我们提出了一种称为 M-UCB 的算法,可以在未知时间步骤中检测和适应变化,并在多臂赌博机问题中实现近乎最优的风险界。通过在公共数据集上进行数值实验,我们还展示了该算法的卓越性能。
Feb, 2018
本文提出了一种基于 UCB 策略的新算法 Safe-LUCB,用于解决多臂赌博问题中考虑安全限制的约束,该算法具有探索和利用两个阶段,并控制遗憾值增长,提供了一般遗憾上界及与最佳行动位置有关的问题相关遗憾上界。
Aug, 2019
GLR-klUCB 是一种结合了 kl-UCB 算法和 Bernoulli 广义似然比检验的高效参数无关变点检测的算法,可以在非平稳的打赌问题中获得较小的后悔。
Feb, 2019
本研究探讨具有因果关系奖励的分段稳定组合半强盗问题,在我们的非稳态环境中,基本臂的分布变化,奖励之间的因果关系,或者二者同时改变了奖励生成过程。我们提出的算法在复杂环境中具备优越的应用性能。
Jul, 2023
在认知无线电中,提出了一种对于具有不同但未知奖励分布的多臂赌博问题的感知策略。该策略是一个集中协调的索引策略,其中频带的索引由一个样本均值项和一个置信项组成,使得子优频段之间连续感知的时间间隔成指数增长,导致弱后悔值对数增长。仿真结果表明,该策略优于文献中的其他类似方法。
Nov, 2012
研究了分段不稳定组合半汉迪问题,提出了一种名为 GLR-CUCB 的算法,该算法将高效组合半汉迪算法 CUCB 与几乎无参数的变化点检测器 GLRT 相结合,其遗憾值具有渐近界,且比现有算法表现优异
Aug, 2019
提出了一种在非平稳环境中运行的自适应风险感知策略框架,该框架结合了文献中普遍存在的各种风险度量标准,将多臂赌博算法的多个系列映射到风险感知的设置中,并将重启贝叶斯在线变点检测算法和(可调节的)强制探索策略结合在一起,以检测本地(针对每个臂)的切换,并提供有限时间的理论保证和渐进性的损失界限,性能在合成和现实环境中均优于现有状态下的技术,并在风险感知和非平稳性方面高效执行。
Oct, 2023
本文介绍了一个安全的线性随机挑战模型,其中学习器在每一阶段都需要选择一个预期奖励不小于预先确定的(安全)阈值的臂,以高概率。我们假设学习器最初掌握的是一个已知为安全但不一定最优的臂的知识。基于此假设,介绍了一种学习算法,它将已知的安全臂与探索性臂系统地结合起来,以便随时间安全地扩展安全臂集,同时促进后续阶段的安全贪婪利用。除了确保在每个播放阶段满足安全约束之外,所提出的算法还表现出一种预期的遗憾,在播放 T 个阶段后不超过 O(sqrt(T)log(T))
Nov, 2019