富有信念的悲观 Q 学习用于对抗敌对状态扰动

ICLRMar, 2024

富有信念的悲观 Q 学习用于对抗敌对状态扰动

Belief-Enriched Pessimistic Q-Learning against Adversarial State Perturbations

Xiaolin Sun, Zizhan Zheng

TL;DR我们提出了一种新的强化学习 (RL) 算法，通过得到一种悲观策略来保护代理对真实状态的不确定性，并结合置信状态推理和基于扩散的状态净化来降低不确定性，实验证明我们的方法在面对强攻击时具有出色的性能并且与基于正则化方法具有相当的训练开销。

Abstract

reinforcement learning (RL) has achieved phenomenal success in various domains. However, its data-driven nature also introduces new vulnerabilities that can be exploited by malicious opponents. Recent work shows

reinforcement learning vulnerabilities policy attacks uncertainty

发现论文，激发创造

基于学习得到的优化对手的状态观测下鲁棒强化学习

研究了强化学习在面对敌对攻击 (即使状态的扰动) 时的鲁棒性，并提出了一种基于 ATLA 框架的方法来增强 Agent 的鲁棒性，通过训练 online 的对抗学习可以达到最优敌对攻击框架与提前学习历史数据等手段，从而提高强化学习在实验中的表现。

Jan, 2021

针对状态观测的鲁棒深度强化学习对抗扰动

通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法，并在多个强白盒对抗攻击中测试，我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。

Mar, 2020

离线强化学习的状态感知邻近悲观算法

本文提出了一种基于状态感知的近端悲观算法（SA-PP），通过利用学习策略与离线数据集之间的折扣静态状态分布比率，在状态级别上调节行为正则化的程度，以实现更合适的悲观学习，为此还提出了一种名为状态感知保守 Q-Learning（SA-CQL）的新算法，实验结果表明在标准离线学习基准测试中 SA-CQL 取得了最高平均收益。

Nov, 2022

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

使用对抗训练提高强化学习在电力系统控制中的鲁棒性

本文针对电网控制系统的弱点进行研究，发现现有的强化学习算法存在敏感性，容易受到恶意攻击，提出了一种基于对抗训练的解决方案，以增强算法的安全性和鲁棒性。

Oct, 2021

深度强化学习的对抗状态不确定性可证明鲁棒性

本研究基于对认证对抗鲁棒性研究的探讨，为深度强化学习算法提供在线认证鲁棒性的防御机制。该方法通过计算阈值来确定最佳的行动方案以应对各种可能存在的敌对行为和噪声干扰，从而有效提高了系统的鲁棒性。

Apr, 2020

深度强化学习：不死之身的秘诀

本文调查了深度强化学习网络在训练时间和测试时间的对抗攻击中的鲁棒性，结果显示在非连续的训练时间攻击中，通过调整策略，Deep Q-Network (DQN) 代理能够恢复和适应对抗条件，相比较 ε- 贪婪和参数空间噪声探索方法，本文还对鲁棒性和抗干扰性进行了比较。

Dec, 2017

实用鲁棒强化学习：邻域不确定性集和双代理算法

介绍了一种新的不确定性集合并基于此提出了一种名为 ARQ-Learning 的鲁棒强化学习方法，同时还提出一种能高效解决 ARQ-Learning 在大规模或连续状态空间下的问题的技术，最终将其应用于各种存在模型不确定性的强化学习应用中。

May, 2023

扰动奖励的强化学习

本研究旨在提出一种在充满噪音的环境中学习的鲁棒性强的强化学习框架以及利用替代奖励来训练优化策略，实验表明我们的方法在提高期望奖励、加速收敛等方面的效果优于现有基线算法。

Oct, 2018

谁是最强的敌人？走向深度强化学习中最优和高效的规避攻击

本文提出了一种协作攻击方法 PA-AD，它通过将一个动态规划算法模型和一个强化学习模型进行合作，能够更加高效地找到最强的对策，实现在多个任务中求得强化学习代理的鲁棒性。

Jun, 2021