应用动作空间中自适应对抗扰动的鲁棒深度强化学习

May, 2024

应用动作空间中自适应对抗扰动的鲁棒深度强化学习

Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space

Qianmei Liu, Yufei Kuang, Jie Wang

TL;DR深度强化学习算法中的模拟和真实世界之间的建模错误问题，通过使用对抗学习生成扰动以建模差异并提高深度强化学习的鲁棒性，在控制对抗性扰动的参数上存在平均性能和鲁棒性之间的权衡。为了保持训练的稳定性并提高鲁棒性，我们提出了一种简单而有效的方法，即自适应对抗性扰动 (A2P)，可以动态选择适当的对抗性扰动来处理每个样本。我们的方法具有将其部署在实际应用中且无需事先访问模拟器的优点。在 MuJoCo 上的实验表明，我们的方法可以提高训练的稳定性，并在不同的测试环境中学习到一种鲁棒的策略。

Abstract

deep reinforcement learning (DRL) algorithms can suffer from modeling errors between the simulation and the real world. Many studies use adversarial learning to generate perturbation during training process to mo

deep reinforcement learning adversarial learning perturbation robustness adaptive adversarial perturbation

发现论文，激发创造

具有对抗攻击的强化学习做法

本文提出了针对强化学习的对抗攻击，并通过这些攻击提高了深度强化学习算法对参数不确定性的鲁棒性。我们展示了即使是一个简单的攻击也能成功降低深度强化学习算法的性能，并进一步使用工程丢失函数的梯度信息改进了攻击方法，导致性能进一步降低。这些攻击方法被用于训练中，以改善 RL 控制框架的鲁棒性。我们展示了在 Cart-pole，Mountain Car，Hopper 和 Half Cheetah 等 RL 基准测试环境中，对 DRL 算法进行对抗训练可以显著提高其对参数变化的鲁棒性。

Dec, 2017

通过动作空间对抗训练强化学习智能体的鲁棒性提升

研究了机器学习在具备恶意状态 / 执行机构攻击下的表现，介绍了深度强化学习在决策和控制任务中存在漏洞的问题，提出了通过对抗训练来提高深度强化学习代理的抗干扰性以实现系统的稳定性和鲁棒性。

Jul, 2020

针对状态观测的鲁棒深度强化学习对抗扰动

通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法，并在多个强白盒对抗攻击中测试，我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。

Mar, 2020

基于学习得到的优化对手的状态观测下鲁棒强化学习

研究了强化学习在面对敌对攻击 (即使状态的扰动) 时的鲁棒性，并提出了一种基于 ATLA 框架的方法来增强 Agent 的鲁棒性，通过训练 online 的对抗学习可以达到最优敌对攻击框架与提前学习历史数据等手段，从而提高强化学习在实验中的表现。

Jan, 2021

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

深度强化学习攻击特征分析

本研究主要研究深度强化学习模型的脆弱性，针对相应的攻击方式进行了探究，并提出了黑盒攻击、在线顺序攻击等攻击方法来应对其高计算需求，同时探讨了攻击者扰动环境动态的可能性，并通过实验验证了这些攻击方式的有效性。

Jul, 2019

A2: 高效自动化攻击者用于提升对抗训练

本文提出了一个名为 A2 的高效自动攻击者，它能够在训练过程中实时生成最优扰动，并证实其强制扰动能够有效提高不同数据集上各种对抗训练方法的鲁棒性。

Oct, 2022

通过对抗攻击和训练的强大深度强化学习：一项综述

深度强化学习可以通过对抗训练提高其鲁棒性和可靠性，本研究对当代对抗性攻击方法进行了深入分析和分类，以提高深度强化学习代理的鲁棒性。

Mar, 2024

使用对抗训练提高强化学习在电力系统控制中的鲁棒性

本文针对电网控制系统的弱点进行研究，发现现有的强化学习算法存在敏感性，容易受到恶意攻击，提出了一种基于对抗训练的解决方案，以增强算法的安全性和鲁棒性。

Oct, 2021

深度强化学习中的对抗策略优化

本文提出了一种新的强化学习算法 APO，该算法利用 max-min 博弈理论减轻数据扩充带来的过拟合问题，提高了学习策略的效率，并对几个 DeepMind 控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明，我们的方法 APO 在性能上始终优于最先进的基于策略的 PPO 代理，并且与最先进的数据增强，RAD 和基于正式的 DRAC 等方法进行了比较。

Apr, 2023