鲁棒随机线性情境臂带在对抗攻击下的应用
该论文研究了对多臂赌博算法进行的对抗攻击,以操纵奖励信号以控制算法选择的行动,并提出了针对常见的两种多臂赌博算法epsilon-greedy和UCB的攻击方案。这种攻击是在不知道平均奖励的情况下进行的,并且攻击者所需的努力是对问题特定参数取对数,这个参数随着赌博问题变得越来越容易攻击而变小。结果表明,攻击者可以轻松地劫持多臂赌博算法的行为,以推广或阻止某些行动。由于多臂赌博算法在实践中的使用越来越广泛,因此我们的研究揭示了一个重大的安全威胁。
Oct, 2018
针对经典$K$-armed线性上下文对抗性问题,我们开发了基于Exp3算法的计算有效算法,其中包含实时算法和鲁棒算法,它们能够实现良好的失望保证,并且对于线性奖励函数而言具有稳健性。
Feb, 2020
研究了随机线性赌博机问题,考虑了对抗攻击,提出了两种Robust Phased Elimination算法,证明了在非污染情况下可以获得近似最优的收益,并得出针对这些算法的相对近似最优的加性项。同时,在具有多样化情境的情况下,表明一种简单的贪婪算法是稳健的,近似最优的加性遗憾项,尽管不进行明确的探索并且不知道C。
Jul, 2020
本文从对抗鲁棒性的角度重新审视了两个经典的高维在线学习问题,即线性回归和情境地图,并探究了无需假设数据分布,直接从全局角度保证它们对抗鲁棒的可行性。具体方法是通过交替最小化策略将普通最小二乘法嵌入到简单的凸约束计算不完整数据下的最优加权分布,并证明该方法在污染程度方面具有最佳的可重复性和完整性。
Oct, 2020
本文探讨了对线性随机赌博机的对抗攻击,提供了攻击性的充分必要条件,针对LinUCB和Robust Phase Elimination方法提出了一种有效的攻击方法并得出了数字实验结果。
Oct, 2021
考虑对抗性线性上下文赌博机设置,文中给出了一种新的算法,通过利用与不需要上下文设置的线性赌博机的新联系,利用连续指数权重算法在概率单形上的一个截断版本来获得结果,并证明了其结果优于最坏情况下的后悔,特别的当环境相对温和时,考虑了上下文的密度是对数凹的情况,给出了一种同时优于二阶和一阶损失的方法。
May, 2023
通过实现无需模拟器的多项式时间算法,我们在拥有线性上界误差的情况下,提高了对抗性线性上下文赌博问题的表现,实现了近乎优化的后悔度,同时保持了计算效率。
Sep, 2023
本文研究了对抗攻击具有鲁棒性的随机多臂赌博机算法,解决了攻击者在观察学习者行动后篡改奖励观测的问题。提出的算法在已知和未知攻击预算情况下均有效,显著降低了算法的遗憾界限,为提升算法在对抗环境中的稳定性提供了新思路。
Aug, 2024