研究了在奖励和转移概率未知的情况下的分集式强化学习,提出了使用新的算法来达到更好的后悔界限,并基于攻击性鲁棒性策略消除元算法和插入式无奖励探索子算法的通用算法框架。
Feb, 2021
本文研究线性 MDP 环境下基于离线数据集的对抗鲁棒强化学习问题,提出并分析了罕见奖励污染情况下的最优区间,展示了由最优区间出发,直接针对初始化状态的改进算法;同时,我们指出该离线场景下普适的主动鲁棒化机制并不存在(例如动态调参等),并建议未来应着重于该问题的研究。
Jun, 2021
本文介绍了一种基于随机波段的新型随机抽样模型,该模型可以适应在受到敌对冲击的情况下仍然保持准确性,并且对于包含作弊行为的数据的性能逐渐降低,但依旧维持在一个线性水平。
Mar, 2018
这项研究处理了模型驱动的强化学习中的对抗性损坏方面的挑战,其中转移动态可能会受到对手的损坏。通过引入最大似然估计方法来学习转移模型,我们提出了旨在解决联机和脱机设置中的对抗性损坏问题的算法,并证明了这些算法的性能和下界。据我们所知,这是关于具有可证明保证的对抗性损坏模型驱动的强化学习算法的首次研究。
Feb, 2024
研究了存在对抗性污染的随机多臂赌博机问题,在此问题上提出了一种新算法,其遗憾几乎是最优的,相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的,并且可以承受相当大的污染,几乎不会降低性能。
Feb, 2019
针对连续的、昂贵的评估的未知、有噪音和对抗性损坏的奖励函数的时序优化问题,提出了一种新的强化的消除型算法,称为 RGP-PE,它成功地平衡了对于削弱性的稳健性和探索和开发,其性能不会因存在(或不存在)对抗性污染而降低。
Feb, 2022
我们研究了离线强化学习中的腐败鲁棒性问题,提出了一种新的不确定性权重迭代方法来计算批处理样本,并设计了一种对腐败具有鲁棒性的离线强化学习算法。
Oct, 2023
将随机赌徒模型扩展到对抗性破坏模型,并应用于随机线性优化问题,采用 L"owner-John 椭球进行探索,并将时间分割成指数递增的时代以限制破坏的影响,使得算法对于适应性对手所选择的破坏的数量不可知,其遗憾只会在破坏数量线性增加时增加。
Sep, 2019
本文研究在奖励和转移方面存在敌对性干扰的鲁棒强化学习问题,并提出了天然策略梯度方法和筛选策略梯度算法可解决该问题,并在 MuJoCo 连续控制基准测试中取得了比较强的鲁棒性。
研究了随机线性赌博机问题,考虑了对抗攻击,提出了两种 Robust Phased Elimination 算法,证明了在非污染情况下可以获得近似最优的收益,并得出针对这些算法的相对近似最优的加性项。同时,在具有多样化情境的情况下,表明一种简单的贪婪算法是稳健的,近似最优的加性遗憾项,尽管不进行明确的探索并且不知道 C。
Jul, 2020