强数据损坏下的鲁棒策略梯度

Feb, 2021

Robust Policy Gradient against Strong Data Corruption

Xuezhou Zhang, Yiding Chen, Xiaojin Zhu, Wen Sun

TL;DR本文研究在奖励和转移方面存在敌对性干扰的鲁棒强化学习问题，并提出了天然策略梯度方法和筛选策略梯度算法可解决该问题，并在 MuJoCo 连续控制基准测试中取得了比较强的鲁棒性。

Abstract

We study the problem of robust reinforcement learning under adversarial corruption on both rewards and transitions. Our attack model assumes an \textit{adaptive} adversary who can arbitrarily corrupt the reward and transition at every step within an episode, for at most $\epsilon$-frac

robust reinforcement learning adversarial corruption natural policy gradient (npg)filtered policy gradient (fpg)neural implementation

发现论文，激发创造

改进的环境依赖强化学习的鲁棒性算法

研究了在奖励和转移概率未知的情况下的分集式强化学习，提出了使用新的算法来达到更好的后悔界限，并基于攻击性鲁棒性策略消除元算法和插入式无奖励探索子算法的通用算法框架。

Feb, 2021

面向鲁棒性模型驱动增强学习抵御对抗性破坏

这项研究处理了模型驱动的强化学习中的对抗性损坏方面的挑战，其中转移动态可能会受到对手的损坏。通过引入最大似然估计方法来学习转移模型，我们提出了旨在解决联机和脱机设置中的对抗性损坏问题的算法，并证明了这些算法的性能和下界。据我们所知，这是关于具有可证明保证的对抗性损坏模型驱动的强化学习算法的首次研究。

Feb, 2024

强化学习中具有防腐能力的探索策略

我们提出了一个框架，结合 “不确定性中的乐观主义” 和 “动作消除” 这两个策略，以解决领域中的非随机腐败问题，从而有效地实现了多阶段情节强化学习。

Nov, 2019

抗腐败离线强化学习

本文研究线性 MDP 环境下基于离线数据集的对抗鲁棒强化学习问题，提出并分析了罕见奖励污染情况下的最优区间，展示了由最优区间出发，直接针对初始化状态的改进算法；同时，我们指出该离线场景下普适的主动鲁棒化机制并不存在（例如动态调参等），并建议未来应着重于该问题的研究。

Jun, 2021

具有通用函数近似的反腐败离线强化学习

我们研究了离线强化学习中的腐败鲁棒性问题，提出了一种新的不确定性权重迭代方法来计算批处理样本，并设计了一种对腐败具有鲁棒性的离线强化学习算法。

Oct, 2023

一个强健的相位消除算法，用于容错高斯过程赌博机

针对连续的、昂贵的评估的未知、有噪音和对抗性损坏的奖励函数的时序优化问题，提出了一种新的强化的消除型算法，称为 RGP-PE，它成功地平衡了对于削弱性的稳健性和探索和开发，其性能不会因存在（或不存在）对抗性污染而降低。

Feb, 2022

乐观自然策略梯度：一种简单高效的在线强化学习策略优化框架

本文提出了一种称为 Optimistic NPG 的简单高效策略优化框架，该框架的样本复杂度具有最优的维度依赖性，可以高效地学习线性 MDP 和函数逼近下的最优策略。

May, 2023

策略梯度贝叶斯鲁棒优化在模仿学习中的应用

本论文提出一种名为 PG-BROIL 的新型策略梯度型鲁棒优化方法，用于优化平衡预期表现和风险的软鲁棒目标，并且可以在存在大量悬而未决的奖励函数的情况下实现刻画行为从无风险到会冒风险的策略优化，进而超越了最先进的仿真学习算法。

Jun, 2021

腐败稳健的离线双人零和马尔可夫博弈

我们研究了线性马尔可夫游戏中离线两人零和游戏中的数据损坏鲁棒性问题，提出了鲁棒版本的悲观极小极大值迭代算法，并给出了关于 epsilon 的 (近) 最优次优性能界限。

Mar, 2024

容忍腐败的高斯过程赌博优化

使用高斯过程方法提出一种基于随机噪声反馈的未知非凸函数的优化算法 Fast-Slow GP-UCB，在考虑对抗性干扰的情况下，通过两个实例间的随机选择、扩大置信区间和悲观乐观法，提出了稳健性和非稳健性的区分的理论分析。

Mar, 2020