对抗性污染下的随机赌博机鲁棒性
该论文研究了对多臂赌博算法进行的对抗攻击,以操纵奖励信号以控制算法选择的行动,并提出了针对常见的两种多臂赌博算法epsilon-greedy和UCB的攻击方案。这种攻击是在不知道平均奖励的情况下进行的,并且攻击者所需的努力是对问题特定参数取对数,这个参数随着赌博问题变得越来越容易攻击而变小。结果表明,攻击者可以轻松地劫持多臂赌博算法的行为,以推广或阻止某些行动。由于多臂赌博算法在实践中的使用越来越广泛,因此我们的研究揭示了一个重大的安全威胁。
Oct, 2018
研究了存在对抗性污染的随机多臂赌博机问题,在此问题上提出了一种新算法,其遗憾几乎是最优的,相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的,并且可以承受相当大的污染,几乎不会降低性能。
Feb, 2019
将随机赌徒模型扩展到对抗性破坏模型,并应用于随机线性优化问题,采用L"owner-John椭球进行探索,并将时间分割成指数递增的时代以限制破坏的影响,使得算法对于适应性对手所选择的破坏的数量不可知,其遗憾只会在破坏数量线性增加时增加。
Sep, 2019
本研究研究了“对抗缩放”,它是一个多臂老虎机模型,其中奖励有随机的和对抗性的组成部分。Despite模型的相对随机性, 我们展示了两种情况下大多数老虎机算法会遇到困难,同时,我们还展示了一种行动消除和一种镜像下降算法足够适应,能够对对抗性的缩放有很好地鲁棒性。我们的结果揭示了随机老虎机中适应参数选择的鲁棒性,可能是独立感兴趣的。
Mar, 2020
研究了随机线性赌博机问题,考虑了对抗攻击,提出了两种Robust Phased Elimination算法,证明了在非污染情况下可以获得近似最优的收益,并得出针对这些算法的相对近似最优的加性项。同时,在具有多样化情境的情况下,表明一种简单的贪婪算法是稳健的,近似最优的加性遗憾项,尽管不进行明确的探索并且不知道C。
Jul, 2020
本文将开发线性试探算法来适应不同的环境,并提出一种新的损失估计方法,该算法在随机环境中实现了几乎实时最优遗憾,还在带有额外遗憾的破损环境中工作,并装备有对抗性组件,同时拥有最小化遗憾的敌对环境优势。
Feb, 2021
论文研究了预测问题和多臂老虎机问题两个具有序列决策的基本问题。特别地,我们关注当对手可能篡改损失时的随机机制,并研究能够实现的鲁棒性水平。本文的主要贡献在于表明,最佳鲁棒性可以通过对所涉及的污染量的平方根依赖来表达。此外,我们还提供了下限,表明上述遗憾边界是紧的。最后,对于多臂老虎机问题,我们还提供了一个近似紧密的下限。
Sep, 2021
针对连续的、昂贵的评估的未知、有噪音和对抗性损坏的奖励函数的时序优化问题,提出了一种新的强化的消除型算法,称为RGP-PE,它成功地平衡了对于削弱性的稳健性和探索和开发,其性能不会因存在(或不存在)对抗性污染而降低。
Feb, 2022
本文提出了第一行对抗下的强、弱 Lipschitz bandit 算法,能在无总损坏预算的情况下,在两种类型的对手下实现次线性后悔,但强对手情况下表现最优,并通过对两种经典攻击的试验证明了该算法的有效性。
May, 2023
本文研究了对抗攻击具有鲁棒性的随机多臂赌博机算法,解决了攻击者在观察学习者行动后篡改奖励观测的问题。提出的算法在已知和未知攻击预算情况下均有效,显著降低了算法的遗憾界限,为提升算法在对抗环境中的稳定性提供了新思路。
Aug, 2024