突破障碍：平滑 DRL 代理程序中的增强效用和鲁棒性

ICMLJun, 2024

突破障碍：平滑 DRL 代理程序中的增强效用和鲁棒性

Breaking the Barrier: Enhanced Utility and Robustness in Smoothed DRL Agents

Chung-En Sun, Sicun Gao, Tsui-Wei Weng

TL;DR我们提出了 S-DQN 和 S-PPO 方法，通过对现有平滑代理的改进，在标准 RL 基准测试中显著提高了干净奖励、经验鲁棒性和鲁棒性保证，平均因子分别为 $2.16 imes$ 和 $2.13 imes$。此外，我们引入了 Smoothed Attack，比现有对抗性攻击方法降低平滑代理奖励的效果提高了 $1.89 imes$。

Abstract

Robustness remains a paramount concern in deep reinforcement learning (DRL), with randomized smoothing emerging as a key technique for enhancing this attribute. However, a notable gap exists in the performance of

deep reinforcement learning randomized smoothing smoothed drl agents s-dqn s-ppo

发现论文，激发创造

可验证强化学习的策略平滑算法

本文针对强化学习中的深度神经网络，提出了一种能够直接认证总奖励且无需在每一时间步骤都保持鲁棒性的有效方法，其中使用了采样平滑和基于样条插值的鲁棒性证明。

Jun, 2021

稳健且平滑的深度强化学习策略

提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$，通过引入 smoothness-induced regularization，使学习到的 policy 对连续状态空间的过渡 smooth，提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明，该方法取得了效果的提升。

Mar, 2020

针对状态观测的鲁棒深度强化学习对抗扰动

通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法，并在多个强白盒对抗攻击中测试，我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。

Mar, 2020

通过对抗训练平滑分类器实现可证明健壮的深度学习

本文提出使用对抗训练来提高基于随机平滑的分类器的效果，并设计一种适应平滑分类器的攻击方法，通过大量实验，得出这种方法在 ImageNet 和 CIFAR-10 上的性能显著胜过所有现有的可证明的 L2 - 强健分类器，证明了这种方法是可靠的，且半监督学习和预训练能够进一步提高其效果。

Jun, 2019

策略平滑强化学习的奖励认证

本文提出了一种通用的黑盒认证方法，能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励，并扩展了在动作空间上认证扰动的方法。我们利用 f - 分布度量原始分布与扰动分布之间的差异，并通过求解凸优化问题确定认证边界。理论分析和实验结果表明，我们的方法不仅提高了平均累积奖励的认证下界，而且比最先进的技术更高效。

Dec, 2023

深度强化学习：不死之身的秘诀

本文调查了深度强化学习网络在训练时间和测试时间的对抗攻击中的鲁棒性，结果显示在非连续的训练时间攻击中，通过调整策略，Deep Q-Network (DQN) 代理能够恢复和适应对抗条件，相比较 ε- 贪婪和参数空间噪声探索方法，本文还对鲁棒性和抗干扰性进行了比较。

Dec, 2017

深度强化学习的在线稳健性训练

通过强化学习中的 Robust Student-DQN 系统可以实现在线强健性训练，使 Q 网络能够在竞争性表现的同时成为强大敌手攻击下的鲁棒代理。该系统可以与最先进的敌对训练和可证明的强健性训练相结合，从而获得一个训练和评估过程中抵御强烈攻击的代理。

Nov, 2019

通过深度强化学习实现平滑轨迹避碰

本论文针对 DRL 导航解决方案中的两个核心问题提出了多种新的代理状态和奖励函数设计，即平滑性训练轨迹和模型泛化能力，利用边缘奖励和平滑度约束来确保无人机平稳飞行，同时大大降低碰撞风险，并演示整个设计和各组件的有效性。

Oct, 2022

DreamSmooth: 通过奖励平滑改进基于模型的强化学习

基于模型的强化学习（MBRL）通过生成带有预测奖励的虚拟轨迹来规划动作，以高样本效率地学习复杂行为。我们提出一种简单而有效的奖励平滑方法 DreamSmooth，通过学习预测时间上平滑的奖励，而不是给定时间步的精确奖励。实证结果表明，DreamSmooth 在长时间范围的稀疏奖励任务上实现了最先进的性能，同时在常见的基准测试中也不损失性能，如 Deepmind 控制套件和 Atari 基准。

Nov, 2023

增强 QMIX 对抗状态攻击的鲁棒性

研究通过使用 QMIX 算法作为例子，讨论了四种方法来提高单智能体强化学习算法的鲁棒性，并将它们扩展到多智能体情景中，并使用各种攻击来训练模型，以增加多智能体强化学习算法的鲁棒性。

Jul, 2023