对抗攻击鲁棒的随机多臂赌博机
提出了一种新颖的算法,采用乐观性和适应性技术,结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题,并在提高先前工作的同时,取得了多种新的数据依赖性遗憾界。
Jan, 2018
本文介绍了一种基于随机波段的新型随机抽样模型,该模型可以适应在受到敌对冲击的情况下仍然保持准确性,并且对于包含作弊行为的数据的性能逐渐降低,但依旧维持在一个线性水平。
Mar, 2018
该论文研究了对多臂赌博算法进行的对抗攻击,以操纵奖励信号以控制算法选择的行动,并提出了针对常见的两种多臂赌博算法epsilon-greedy和UCB的攻击方案。这种攻击是在不知道平均奖励的情况下进行的,并且攻击者所需的努力是对问题特定参数取对数,这个参数随着赌博问题变得越来越容易攻击而变小。结果表明,攻击者可以轻松地劫持多臂赌博算法的行为,以推广或阻止某些行动。由于多臂赌博算法在实践中的使用越来越广泛,因此我们的研究揭示了一个重大的安全威胁。
Oct, 2018
研究了存在对抗性污染的随机多臂赌博机问题,在此问题上提出了一种新算法,其遗憾几乎是最优的,相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的,并且可以承受相当大的污染,几乎不会降低性能。
Feb, 2019
研究了在自利的情况下,三种常见的赌博算法UCB, ε-Greedy和Thompson Sampling 对策略行为的适应性,为应用于经济学中的推荐系统提供了鲁棒的工具。
Jun, 2019
提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法,并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现sublinear regret。
Feb, 2020
发展了一种新的方法,使用标准无偏估计量,并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式,以获取高概率遗憾边界。
Jun, 2020
研究了随机线性赌博机问题,考虑了对抗攻击,提出了两种Robust Phased Elimination算法,证明了在非污染情况下可以获得近似最优的收益,并得出针对这些算法的相对近似最优的加性项。同时,在具有多样化情境的情况下,表明一种简单的贪婪算法是稳健的,近似最优的加性遗憾项,尽管不进行明确的探索并且不知道C。
Jul, 2020
提出一种基于元-UCB算法的简单方法,用于组合随机赌博算法,提高在劣势环境下的表现,实验结果表明算法可以在多种场景下取得与下界一致的效果,已验证线性赌博和模型选择问题的有效性。
Dec, 2020
我们研究了随机线性臂问题,在每一轮中,学习者接收一组动作(即特征向量),从中选择一个元素并获得随机奖励。期望奖励是所选动作的一个固定但未知的线性函数。我们研究了稀疏遗憾界,其依赖于线性奖励函数中的非零系数数目$S$。先前的研究关注$S$已知的情况,或者动作集满足额外假设的情况。在这项研究中,我们首次获得了在$S$未知且动作集由对手生成时成立的稀疏遗憾界。我们的技术将在线转换为置信区间,并结合一种新颖的层级置信区间随机模型选择方法。当$S$已知时,我们的分析恢复了对于对手动作集的最先进界限。我们还表明,我们的方法的一种变体,使用Exp3动态选择置信区间,可用于提高随机线性臂问题的实证性能,同时享受对于时间段的最优遗憾界限。
Jun, 2024