线性情境赌博机的对抗性攻击
该论文研究了对多臂赌博算法进行的对抗攻击,以操纵奖励信号以控制算法选择的行动,并提出了针对常见的两种多臂赌博算法epsilon-greedy和UCB的攻击方案。这种攻击是在不知道平均奖励的情况下进行的,并且攻击者所需的努力是对问题特定参数取对数,这个参数随着赌博问题变得越来越容易攻击而变小。结果表明,攻击者可以轻松地劫持多臂赌博算法的行为,以推广或阻止某些行动。由于多臂赌博算法在实践中的使用越来越广泛,因此我们的研究揭示了一个重大的安全威胁。
Oct, 2018
针对经典$K$-armed线性上下文对抗性问题,我们开发了基于Exp3算法的计算有效算法,其中包含实时算法和鲁棒算法,它们能够实现良好的失望保证,并且对于线性奖励函数而言具有稳健性。
Feb, 2020
本文探讨了对线性随机赌博机的对抗攻击,提供了攻击性的充分必要条件,针对LinUCB和Robust Phase Elimination方法提出了一种有效的攻击方法并得出了数字实验结果。
Oct, 2021
在对抗式多臂赌博机中,攻击者通过攻击策略干扰损失或奖励信号,以实现对受害者赌徒玩家的行为控制。我们向攻击者显示,攻击者能够引导任何无憾对抗性赌博算法,在每轮之外的几乎所有轮次中选择次优目标臂,而仅产生次线性的攻击成本。这个结果意味着在现实世界中,基于赌博机的系统中存在重要的安全问题,例如,在线推荐中,攻击者可能能够劫持推荐系统并推广所需的产品。我们提出的攻击算法只需要了解后悔率,因此对受害方使用的具体赌博算法没有任何限制。此外,我们还推导了任何受害者不可知攻击算法必须产生的理论下限,并与我们的攻击产生的上限匹配,这表明我们的攻击在渐近意义下是最优的。
Jan, 2023
研究如何在多臂赌博机制(例如PPC拍卖)中有效地学习,解决诱导真实出价行为(激励)、用户个性化(上下文)和点击模式诱导(污损)三个挑战。该研究提出一种在环境和污损情况下表现良好的上下文多臂赌博算法。
Jul, 2023
通过实现无需模拟器的多项式时间算法,我们在拥有线性上界误差的情况下,提高了对抗性线性上下文赌博问题的表现,实现了近乎优化的后悔度,同时保持了计算效率。
Sep, 2023
通过创新性对抗反馈的鲁棒情境对决算法,本研究在学习人类反馈中探索大型语言模型的对齐方法,并证明了在存在或不存在创新性对抗反馈的情况下,算法具有接近最优的后悔界限。同时,在各种类型的创新性对抗反馈中,实验结果表明该算法优于现有的对决算法。
Apr, 2024