强化学习中具有防腐能力的探索策略

Nov, 2019

强化学习中具有防腐能力的探索策略

Corruption-robust exploration in episodic reinforcement learning

Thodoris Lykouris, Max Simchowitz, Aleksandrs Slivkins, Wen Sun

TL;DR我们提出了一个框架，结合 “不确定性中的乐观主义” 和 “动作消除” 这两个策略，以解决领域中的非随机腐败问题，从而有效地实现了多阶段情节强化学习。

Abstract

We initiate the study of multi-stage episodic reinforcement learning under adversarial corruptions in both the rewards and the transition probabilities of the underlying system extending recent results for the sp

multi-stage episodic reinforcement learning adversarial corruptions action elimination regret guarantee linear function approximation

发现论文，激发创造

改进的环境依赖强化学习的鲁棒性算法

研究了在奖励和转移概率未知的情况下的分集式强化学习，提出了使用新的算法来达到更好的后悔界限，并基于攻击性鲁棒性策略消除元算法和插入式无奖励探索子算法的通用算法框架。

Feb, 2021

抗腐败离线强化学习

本文研究线性 MDP 环境下基于离线数据集的对抗鲁棒强化学习问题，提出并分析了罕见奖励污染情况下的最优区间，展示了由最优区间出发，直接针对初始化状态的改进算法；同时，我们指出该离线场景下普适的主动鲁棒化机制并不存在（例如动态调参等），并建议未来应着重于该问题的研究。

Jun, 2021

对抗性污染下的随机赌博机鲁棒性

本文介绍了一种基于随机波段的新型随机抽样模型，该模型可以适应在受到敌对冲击的情况下仍然保持准确性，并且对于包含作弊行为的数据的性能逐渐降低，但依旧维持在一个线性水平。

Mar, 2018

面向鲁棒性模型驱动增强学习抵御对抗性破坏

这项研究处理了模型驱动的强化学习中的对抗性损坏方面的挑战，其中转移动态可能会受到对手的损坏。通过引入最大似然估计方法来学习转移模型，我们提出了旨在解决联机和脱机设置中的对抗性损坏问题的算法，并证明了这些算法的性能和下界。据我们所知，这是关于具有可证明保证的对抗性损坏模型驱动的强化学习算法的首次研究。

Feb, 2024

更好的随机赌博机算法与对抗性干扰

研究了存在对抗性污染的随机多臂赌博机问题，在此问题上提出了一种新算法，其遗憾几乎是最优的，相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的，并且可以承受相当大的污染，几乎不会降低性能。

Feb, 2019

一个强健的相位消除算法，用于容错高斯过程赌博机

针对连续的、昂贵的评估的未知、有噪音和对抗性损坏的奖励函数的时序优化问题，提出了一种新的强化的消除型算法，称为 RGP-PE，它成功地平衡了对于削弱性的稳健性和探索和开发，其性能不会因存在（或不存在）对抗性污染而降低。

Feb, 2022

具有通用函数近似的反腐败离线强化学习

我们研究了离线强化学习中的腐败鲁棒性问题，提出了一种新的不确定性权重迭代方法来计算批处理样本，并设计了一种对腐败具有鲁棒性的离线强化学习算法。

Oct, 2023

具对抗性破坏的随机线性优化

将随机赌徒模型扩展到对抗性破坏模型，并应用于随机线性优化问题，采用 L"owner-John 椭球进行探索，并将时间分割成指数递增的时代以限制破坏的影响，使得算法对于适应性对手所选择的破坏的数量不可知，其遗憾只会在破坏数量线性增加时增加。

Sep, 2019

强数据损坏下的鲁棒策略梯度

本文研究在奖励和转移方面存在敌对性干扰的鲁棒强化学习问题，并提出了天然策略梯度方法和筛选策略梯度算法可解决该问题，并在 MuJoCo 连续控制基准测试中取得了比较强的鲁棒性。

Feb, 2021

抗对抗攻击的随机线性臂机算法

研究了随机线性赌博机问题，考虑了对抗攻击，提出了两种 Robust Phased Elimination 算法，证明了在非污染情况下可以获得近似最优的收益，并得出针对这些算法的相对近似最优的加性项。同时，在具有多样化情境的情况下，表明一种简单的贪婪算法是稳健的，近似最优的加性遗憾项，尽管不进行明确的探索并且不知道 C。

Jul, 2020