鲁棒利普希茨贝叶斯在对抗扰动下的决策
本文介绍了一种基于随机波段的新型随机抽样模型,该模型可以适应在受到敌对冲击的情况下仍然保持准确性,并且对于包含作弊行为的数据的性能逐渐降低,但依旧维持在一个线性水平。
Mar, 2018
研究了存在对抗性污染的随机多臂赌博机问题,在此问题上提出了一种新算法,其遗憾几乎是最优的,相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的,并且可以承受相当大的污染,几乎不会降低性能。
Feb, 2019
将随机赌徒模型扩展到对抗性破坏模型,并应用于随机线性优化问题,采用 L"owner-John 椭球进行探索,并将时间分割成指数递增的时代以限制破坏的影响,使得算法对于适应性对手所选择的破坏的数量不可知,其遗憾只会在破坏数量线性增加时增加。
Sep, 2019
研究了随机线性赌博机问题,考虑了对抗攻击,提出了两种 Robust Phased Elimination 算法,证明了在非污染情况下可以获得近似最优的收益,并得出针对这些算法的相对近似最优的加性项。同时,在具有多样化情境的情况下,表明一种简单的贪婪算法是稳健的,近似最优的加性遗憾项,尽管不进行明确的探索并且不知道 C。
Jul, 2020
研究了随机多臂赌博问题中期望奖励是武器的 Lipschitz 函数的情况,提出了两种算法 OSLB 和 CKL-UCB,并衍生出上限,针对连续武器集合的情况建议首先离散化行动空间再应用算法,同时也考虑到了具有类似性质的背景下文本字形赌博。
May, 2014
论文研究了预测问题和多臂老虎机问题两个具有序列决策的基本问题。特别地,我们关注当对手可能篡改损失时的随机机制,并研究能够实现的鲁棒性水平。本文的主要贡献在于表明,最佳鲁棒性可以通过对所涉及的污染量的平方根依赖来表达。此外,我们还提供了下限,表明上述遗憾边界是紧的。最后,对于多臂老虎机问题,我们还提供了一个近似紧密的下限。
Sep, 2021
使用高斯过程方法提出一种基于随机噪声反馈的未知非凸函数的优化算法 Fast-Slow GP-UCB,在考虑对抗性干扰的情况下,通过两个实例间的随机选择、扩大置信区间和悲观乐观法,提出了稳健性和非稳健性的区分的理论分析。
Mar, 2020
在对抗式多臂赌博机中,攻击者通过攻击策略干扰损失或奖励信号,以实现对受害者赌徒玩家的行为控制。我们向攻击者显示,攻击者能够引导任何无憾对抗性赌博算法,在每轮之外的几乎所有轮次中选择次优目标臂,而仅产生次线性的攻击成本。这个结果意味着在现实世界中,基于赌博机的系统中存在重要的安全问题,例如,在线推荐中,攻击者可能能够劫持推荐系统并推广所需的产品。我们提出的攻击算法只需要了解后悔率,因此对受害方使用的具体赌博算法没有任何限制。此外,我们还推导了任何受害者不可知攻击算法必须产生的理论下限,并与我们的攻击产生的上限匹配,这表明我们的攻击在渐近意义下是最优的。
Jan, 2023
针对具有连续臂的随机赌博问题,研究解决策略应适应不同环境的问题,针对全局 Lipschitz 平均回报函数的特殊情况,展示在不提前知道 $L$ 或 $T$ 的情况下,最小化后悔损失达到最优阶的能力。
May, 2011