研究了存在对抗性污染的随机多臂赌博机问题,在此问题上提出了一种新算法,其遗憾几乎是最优的,相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的,并且可以承受相当大的污染,几乎不会降低性能。
Feb, 2019
本文介绍了一种基于随机波段的新型随机抽样模型,该模型可以适应在受到敌对冲击的情况下仍然保持准确性,并且对于包含作弊行为的数据的性能逐渐降低,但依旧维持在一个线性水平。
Mar, 2018
本文提出了第一行对抗下的强、弱 Lipschitz bandit 算法,能在无总损坏预算的情况下,在两种类型的对手下实现次线性后悔,但强对手情况下表现最优,并通过对两种经典攻击的试验证明了该算法的有效性。
May, 2023
研究了随机线性赌博机问题,考虑了对抗攻击,提出了两种 Robust Phased Elimination 算法,证明了在非污染情况下可以获得近似最优的收益,并得出针对这些算法的相对近似最优的加性项。同时,在具有多样化情境的情况下,表明一种简单的贪婪算法是稳健的,近似最优的加性遗憾项,尽管不进行明确的探索并且不知道 C。
Jul, 2020
论文研究了预测问题和多臂老虎机问题两个具有序列决策的基本问题。特别地,我们关注当对手可能篡改损失时的随机机制,并研究能够实现的鲁棒性水平。本文的主要贡献在于表明,最佳鲁棒性可以通过对所涉及的污染量的平方根依赖来表达。此外,我们还提供了下限,表明上述遗憾边界是紧的。最后,对于多臂老虎机问题,我们还提供了一个近似紧密的下限。
Sep, 2021
本文将开发线性试探算法来适应不同的环境,并提出一种新的损失估计方法,该算法在随机环境中实现了几乎实时最优遗憾,还在带有额外遗憾的破损环境中工作,并装备有对抗性组件,同时拥有最小化遗憾的敌对环境优势。
Feb, 2021
我们提出了一个框架,结合 “不确定性中的乐观主义” 和 “动作消除” 这两个策略,以解决领域中的非随机腐败问题,从而有效地实现了多阶段情节强化学习。
Nov, 2019
使用高斯过程方法提出一种基于随机噪声反馈的未知非凸函数的优化算法 Fast-Slow GP-UCB,在考虑对抗性干扰的情况下,通过两个实例间的随机选择、扩大置信区间和悲观乐观法,提出了稳健性和非稳健性的区分的理论分析。
Mar, 2020
本文研究线性 MDP 环境下基于离线数据集的对抗鲁棒强化学习问题,提出并分析了罕见奖励污染情况下的最优区间,展示了由最优区间出发,直接针对初始化状态的改进算法;同时,我们指出该离线场景下普适的主动鲁棒化机制并不存在(例如动态调参等),并建议未来应着重于该问题的研究。
Jun, 2021
本文研究了控制具有对抗扰动的线性动态系统的问题,其中控制器仅有可用的标量损失反馈,且损失函数本身未知。针对这个问题,无论系统是否知道,我们都提出了一个有效的次线性后悔算法,并提出了一种用于带有记忆的损失函数的通用带贝叶斯优化算法,这可能是独立学科领域的一个难点。
Aug, 2020