随机赌博机上的数据污染攻击
该论文提出了当对手可以适应在线算法的动作时,标准遗憾定义变得不再有效, 定义了替代的政策遗憾概念,用于测量在线算法在适应性对手下的性能,并研究了在线赌徒问题的情况,表明任何赌徒算法都无法针对带有无界内存的适应性对手保证次线性的政策遗憾,但同时提出了将标准遗憾限制在次线性边界以下的任何赌徒算法转换为政策遗憾限制在次线性边界以下的算法的一般技术, 并将这一结果扩展到其他遗憾变体。
Jun, 2012
该论文研究了对多臂赌博算法进行的对抗攻击,以操纵奖励信号以控制算法选择的行动,并提出了针对常见的两种多臂赌博算法epsilon-greedy和UCB的攻击方案。这种攻击是在不知道平均奖励的情况下进行的,并且攻击者所需的努力是对问题特定参数取对数,这个参数随着赌博问题变得越来越容易攻击而变小。结果表明,攻击者可以轻松地劫持多臂赌博算法的行为,以推广或阻止某些行动。由于多臂赌博算法在实践中的使用越来越广泛,因此我们的研究揭示了一个重大的安全威胁。
Oct, 2018
本文研究使用复合和匿名反馈的多臂老虎机问题,提出适应性算法,解决了没有先验关于奖励间隔大小的信息的问题,并且进行了基于真实数据集的模拟实验,结果表明我们的算法胜过现有的基准算法。
Dec, 2020
本文研究带有数据污染攻击的有界奖励情况下的强度攻击模型下的强盗算法,并提出了基于验证的机制以对抗此类攻击。此外,文章提出了Secure-BARBAR算法,其在有限验证次数的情况下能够显著降低攻击者造成的损失。
Feb, 2021
本文探讨了对线性随机赌博机的对抗攻击,提供了攻击性的充分必要条件,针对LinUCB和Robust Phase Elimination方法提出了一种有效的攻击方法并得出了数字实验结果。
Oct, 2021
在对抗式多臂赌博机中,攻击者通过攻击策略干扰损失或奖励信号,以实现对受害者赌徒玩家的行为控制。我们向攻击者显示,攻击者能够引导任何无憾对抗性赌博算法,在每轮之外的几乎所有轮次中选择次优目标臂,而仅产生次线性的攻击成本。这个结果意味着在现实世界中,基于赌博机的系统中存在重要的安全问题,例如,在线推荐中,攻击者可能能够劫持推荐系统并推广所需的产品。我们提出的攻击算法只需要了解后悔率,因此对受害方使用的具体赌博算法没有任何限制。此外,我们还推导了任何受害者不可知攻击算法必须产生的理论下限,并与我们的攻击产生的上限匹配,这表明我们的攻击在渐近意义下是最优的。
Jan, 2023
对随机多臂赌博(MAB)算法的对抗攻击进行了广泛研究。本文通过基于同质性检测的检测方法发现,大多数现有攻击方法容易被检测出来,这激发了我们研究针对随机MAB的隐蔽攻击概念并调查所产生的攻击能力,分析结果表明,在两个常用的MAB算法UCB1和ε-贪心中,隐蔽攻击的成功取决于环境条件和第一轮拉动的臂的实际奖励,对于配备我们的攻击检测方法的通用MAB算法,我们还分析了相应的情况并发现几乎总能成功执行隐蔽攻击,这为MAB算法的安全风险带来了新的见解。
Feb, 2024
本文研究了对抗攻击具有鲁棒性的随机多臂赌博机算法,解决了攻击者在观察学习者行动后篡改奖励观测的问题。提出的算法在已知和未知攻击预算情况下均有效,显著降低了算法的遗憾界限,为提升算法在对抗环境中的稳定性提供了新思路。
Aug, 2024