对抗性污染下的随机赌博机鲁棒性

Mar, 2018

对抗性污染下的随机赌博机鲁棒性

Stochastic bandits robust to adversarial corruptions

Thodoris Lykouris, Vahab Mirrokni, Renato Paes Leme

TL;DR本文介绍了一种基于随机波段的新型随机抽样模型，该模型可以适应在受到敌对冲击的情况下仍然保持准确性，并且对于包含作弊行为的数据的性能逐渐降低，但依旧维持在一个线性水平。

Abstract

We introduce a new model of stochastic bandits with adversarial corruptions which aims to capture settings where most of the input follows a stochastic pattern but some fraction of it can be adversarially changed

发现论文，激发创造

对随机赌徒的对抗攻击

该论文研究了对多臂赌博算法进行的对抗攻击，以操纵奖励信号以控制算法选择的行动，并提出了针对常见的两种多臂赌博算法epsilon-greedy和UCB的攻击方案。这种攻击是在不知道平均奖励的情况下进行的，并且攻击者所需的努力是对问题特定参数取对数，这个参数随着赌博问题变得越来越容易攻击而变小。结果表明，攻击者可以轻松地劫持多臂赌博算法的行为，以推广或阻止某些行动。由于多臂赌博算法在实践中的使用越来越广泛，因此我们的研究揭示了一个重大的安全威胁。

Oct, 2018

更好的随机赌博机算法与对抗性干扰

研究了存在对抗性污染的随机多臂赌博机问题，在此问题上提出了一种新算法，其遗憾几乎是最优的，相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的，并且可以承受相当大的污染，几乎不会降低性能。

Feb, 2019

具对抗性破坏的随机线性优化

将随机赌徒模型扩展到对抗性破坏模型，并应用于随机线性优化问题，采用L"owner-John椭球进行探索，并将时间分割成指数递增的时代以限制破坏的影响，使得算法对于适应性对手所选择的破坏的数量不可知，其遗憾只会在破坏数量线性增加时增加。

Sep, 2019

对抗性放缩赌博机

本研究研究了“对抗缩放”，它是一个多臂老虎机模型，其中奖励有随机的和对抗性的组成部分。Despite模型的相对随机性, 我们展示了两种情况下大多数老虎机算法会遇到困难，同时，我们还展示了一种行动消除和一种镜像下降算法足够适应，能够对对抗性的缩放有很好地鲁棒性。我们的结果揭示了随机老虎机中适应参数选择的鲁棒性，可能是独立感兴趣的。

Mar, 2020

抗对抗攻击的随机线性臂机算法

研究了随机线性赌博机问题，考虑了对抗攻击，提出了两种Robust Phased Elimination算法，证明了在非污染情况下可以获得近似最优的收益，并得出针对这些算法的相对近似最优的加性项。同时，在具有多样化情境的情况下，表明一种简单的贪婪算法是稳健的，近似最优的加性遗憾项，尽管不进行明确的探索并且不知道C。

Jul, 2020

在随机和对抗线性赌博机中同时实现近似实例最优性和极小化最优性

本文将开发线性试探算法来适应不同的环境，并提出一种新的损失估计方法，该算法在随机环境中实现了几乎实时最优遗憾，还在带有额外遗憾的破损环境中工作，并装备有对抗性组件，同时拥有最小化遗憾的敌对环境优势。

Feb, 2021

在线决策问题中关于对抗性破坏的最佳鲁棒性

论文研究了预测问题和多臂老虎机问题两个具有序列决策的基本问题。特别地，我们关注当对手可能篡改损失时的随机机制，并研究能够实现的鲁棒性水平。本文的主要贡献在于表明，最佳鲁棒性可以通过对所涉及的污染量的平方根依赖来表达。此外，我们还提供了下限，表明上述遗憾边界是紧的。最后，对于多臂老虎机问题，我们还提供了一个近似紧密的下限。

Sep, 2021

一个强健的相位消除算法，用于容错高斯过程赌博机

针对连续的、昂贵的评估的未知、有噪音和对抗性损坏的奖励函数的时序优化问题，提出了一种新的强化的消除型算法，称为RGP-PE，它成功地平衡了对于削弱性的稳健性和探索和开发，其性能不会因存在（或不存在）对抗性污染而降低。

Feb, 2022

鲁棒利普希茨贝叶斯在对抗扰动下的决策

本文提出了第一行对抗下的强、弱 Lipschitz bandit 算法，能在无总损坏预算的情况下，在两种类型的对手下实现次线性后悔，但强对手情况下表现最优，并通过对两种经典攻击的试验证明了该算法的有效性。

May, 2023

对抗攻击鲁棒的随机多臂赌博机

本文研究了对抗攻击具有鲁棒性的随机多臂赌博机算法，解决了攻击者在观察学习者行动后篡改奖励观测的问题。提出的算法在已知和未知攻击预算情况下均有效，显著降低了算法的遗憾界限，为提升算法在对抗环境中的稳定性提供了新思路。

Aug, 2024