对随机赌徒的对抗攻击

Oct, 2018

Adversarial Attacks on Stochastic Bandits

Kwang-Sung Jun, Lihong Li, Yuzhe Ma, Xiaojin Zhu

TL;DR该论文研究了对多臂赌博算法进行的对抗攻击，以操纵奖励信号以控制算法选择的行动，并提出了针对常见的两种多臂赌博算法epsilon-greedy和UCB的攻击方案。这种攻击是在不知道平均奖励的情况下进行的，并且攻击者所需的努力是对问题特定参数取对数，这个参数随着赌博问题变得越来越容易攻击而变小。结果表明，攻击者可以轻松地劫持多臂赌博算法的行为，以推广或阻止某些行动。由于多臂赌博算法在实践中的使用越来越广泛，因此我们的研究揭示了一个重大的安全威胁。

Abstract

We study adversarial attacks that manipulate the reward signals to control the actions chosen by a stochastic multi-armed bandit algorithm

发现论文，激发创造

最佳两种选择：随机和对抗臂

通过结合Exp3 和 UCB1两个先前算法的优点，我们提出了一种新的、在对抗性奖励和随机奖励两种情况下表现最优的bandit算法SAO。

Feb, 2012

对抗性污染下的随机赌博机鲁棒性

本文介绍了一种基于随机波段的新型随机抽样模型，该模型可以适应在受到敌对冲击的情况下仍然保持准确性，并且对于包含作弊行为的数据的性能逐渐降低，但依旧维持在一个线性水平。

Mar, 2018

更好的随机赌博机算法与对抗性干扰

研究了存在对抗性污染的随机多臂赌博机问题，在此问题上提出了一种新算法，其遗憾几乎是最优的，相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的，并且可以承受相当大的污染，几乎不会降低性能。

Feb, 2019

随机赌博机上的数据污染攻击

本文旨在研究敌对攻击策略对多臂赌博算法的影响，并提供了离线攻击和在线攻击的策略，展示了潜在的安全威胁。

May, 2019

鲁棒随机线性情境臂带在对抗攻击下的应用

提出了第一个针对全面适应性攻击的稳健性线性上下文bandit算法，其不仅可以抵御回报攻击，还可以抵御袭击环境，提高了对各种流行攻击的稳健性。

Jun, 2021

高斯过程赌博机的对抗攻击

本文从攻击者的角度研究了在高代价和潜在噪音条件下使用Gaussian processes进行优化的问题，并提出了不同假设攻击者强度和先前信息的不同对策，通过对函数 $f$ 进行干扰而导致算法朝着目标区域移动。作者设计了白盒和黑盒攻击方法，并展示了这些攻击在低攻击预算下能够成功地将算法强制推向目标区域，并在各种客观函数上测试了攻击的有效性。

Oct, 2021

线性随机臂何时易受攻击？

本文探讨了对线性随机赌博机的对抗攻击，提供了攻击性的充分必要条件，针对LinUCB和Robust Phase Elimination方法提出了一种有效的攻击方法并得出了数字实验结果。

Oct, 2021

对抗性贝叶斯强化学习的对抗攻击

在对抗式多臂赌博机中，攻击者通过攻击策略干扰损失或奖励信号，以实现对受害者赌徒玩家的行为控制。我们向攻击者显示，攻击者能够引导任何无憾对抗性赌博算法，在每轮之外的几乎所有轮次中选择次优目标臂，而仅产生次线性的攻击成本。这个结果意味着在现实世界中，基于赌博机的系统中存在重要的安全问题，例如，在线推荐中，攻击者可能能够劫持推荐系统并推广所需的产品。我们提出的攻击算法只需要了解后悔率，因此对受害方使用的具体赌博算法没有任何限制。此外，我们还推导了任何受害者不可知攻击算法必须产生的理论下限，并与我们的攻击产生的上限匹配，这表明我们的攻击在渐近意义下是最优的。

Jan, 2023

针对随机多臂赌博机的隐蔽对抗攻击

对随机多臂赌博（MAB）算法的对抗攻击进行了广泛研究。本文通过基于同质性检测的检测方法发现，大多数现有攻击方法容易被检测出来，这激发了我们研究针对随机MAB的隐蔽攻击概念并调查所产生的攻击能力，分析结果表明，在两个常用的MAB算法UCB1和ε-贪心中，隐蔽攻击的成功取决于环境条件和第一轮拉动的臂的实际奖励，对于配备我们的攻击检测方法的通用MAB算法，我们还分析了相应的情况并发现几乎总能成功执行隐蔽攻击，这为MAB算法的安全风险带来了新的见解。

Feb, 2024

对抗攻击鲁棒的随机多臂赌博机

本文研究了对抗攻击具有鲁棒性的随机多臂赌博机算法，解决了攻击者在观察学习者行动后篡改奖励观测的问题。提出的算法在已知和未知攻击预算情况下均有效，显著降低了算法的遗憾界限，为提升算法在对抗环境中的稳定性提供了新思路。

Aug, 2024