概率无界对抗下的稳健随机赌博算法
该论文研究了对多臂赌博算法进行的对抗攻击,以操纵奖励信号以控制算法选择的行动,并提出了针对常见的两种多臂赌博算法epsilon-greedy和UCB的攻击方案。这种攻击是在不知道平均奖励的情况下进行的,并且攻击者所需的努力是对问题特定参数取对数,这个参数随着赌博问题变得越来越容易攻击而变小。结果表明,攻击者可以轻松地劫持多臂赌博算法的行为,以推广或阻止某些行动。由于多臂赌博算法在实践中的使用越来越广泛,因此我们的研究揭示了一个重大的安全威胁。
Oct, 2018
设计了第一个能够在任意变化的环境中工作的多人赌博算法,其中武器的损失甚至可能是由对手选择的,同时解决了Rosenski、Shamir和Szlak(2016年)提出的一个悬而未决的问题。
Feb, 2019
研究了在自利的情况下,三种常见的赌博算法UCB, ε-Greedy和Thompson Sampling 对策略行为的适应性,为应用于经济学中的推荐系统提供了鲁棒的工具。
Jun, 2019
研究了利用自我私利游戏玩家的多臂赌博机问题,提出了一种能够实现对恶意玩家具有鲁棒性的算法,并构建了两个不同设置下的鲁棒算法,其中一种包括隐式通信的算法,同时针对只能观察奖励或手臂平均值任意变化的情况进行了研究。
Feb, 2020
发展了一种新的方法,使用标准无偏估计量,并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式,以获取高概率遗憾边界。
Jun, 2020
研究了随机线性赌博机问题,考虑了对抗攻击,提出了两种Robust Phased Elimination算法,证明了在非污染情况下可以获得近似最优的收益,并得出针对这些算法的相对近似最优的加性项。同时,在具有多样化情境的情况下,表明一种简单的贪婪算法是稳健的,近似最优的加性遗憾项,尽管不进行明确的探索并且不知道C。
Jul, 2020
我们提出了一种新的攻击策略,在随机多臂赌博问题中,通过操纵UCB原则来引导其选择一些次优的目标臂,攻击成本的累计代价随轮数的增加而增长,上界与下界相差一个loglogT的因子,因此我们的攻击接近最优。
Aug, 2020
提出一种基于元-UCB算法的简单方法,用于组合随机赌博算法,提高在劣势环境下的表现,实验结果表明算法可以在多种场景下取得与下界一致的效果,已验证线性赌博和模型选择问题的有效性。
Dec, 2020
提出了基于一种不精确预算方法的智能多臂赌博机构建UCB型算法的新方法;推导出了相应于最优化方法的收敛速度的遗憾界;提出了一种新的算法Clipped-SGD-UCB,并从理论和实证角度展示了在奖励中存在对称噪声的情况下,我们可以达到O(logT√KTlogT)的遗憾界,而不是当奖励分布满足E[X∈D][|X|^(1+α)]≤σ^(1+α)(α∈(0,1])时,即表现得比普遍的重尾赌博机下界所假设的要好。此外,即使奖励分布没有期望,也能保持相同的界限,即当α<0时。
Feb, 2024
本文研究了对抗攻击具有鲁棒性的随机多臂赌博机算法,解决了攻击者在观察学习者行动后篡改奖励观测的问题。提出的算法在已知和未知攻击预算情况下均有效,显著降低了算法的遗憾界限,为提升算法在对抗环境中的稳定性提供了新思路。
Aug, 2024