深度强化学习的在线稳健性训练
本文研究基于深度神经网络的自主决策系统的安全性,提出了一种基于认证对抗鲁棒性的在线防御机制,该机制计算执行过程中状态 - 动作值的保证下限,以在可能存在对手或噪声导致输入空间最差情况偏离选择最佳行动,在行人碰撞回避场景和一个经典控制任务中,该方法显示出提高对噪声和对手的鲁棒性。
Oct, 2019
本文调查了深度强化学习网络在训练时间和测试时间的对抗攻击中的鲁棒性,结果显示在非连续的训练时间攻击中,通过调整策略,Deep Q-Network (DQN) 代理能够恢复和适应对抗条件,相比较 ε- 贪婪和参数空间噪声探索方法,本文还对鲁棒性和抗干扰性进行了比较。
Dec, 2017
本文提出了针对强化学习的对抗攻击,并通过这些攻击提高了深度强化学习算法对参数不确定性的鲁棒性。我们展示了即使是一个简单的攻击也能成功降低深度强化学习算法的性能,并进一步使用工程丢失函数的梯度信息改进了攻击方法,导致性能进一步降低。这些攻击方法被用于训练中,以改善 RL 控制框架的鲁棒性。我们展示了在 Cart-pole,Mountain Car,Hopper 和 Half Cheetah 等 RL 基准测试环境中,对 DRL 算法进行对抗训练可以显著提高其对参数变化的鲁棒性。
Dec, 2017
本研究基于对认证对抗鲁棒性研究的探讨,为深度强化学习算法提供在线认证鲁棒性的防御机制。该方法通过计算阈值来确定最佳的行动方案以应对各种可能存在的敌对行为和噪声干扰,从而有效提高了系统的鲁棒性。
Apr, 2020
研究通过使用 QMIX 算法作为例子,讨论了四种方法来提高单智能体强化学习算法的鲁棒性,并将它们扩展到多智能体情景中,并使用各种攻击来训练模型,以增加多智能体强化学习算法的鲁棒性。
Jul, 2023
本文针对电网控制系统的弱点进行研究,发现现有的强化学习算法存在敏感性,容易受到恶意攻击,提出了一种基于对抗训练的解决方案,以增强算法的安全性和鲁棒性。
Oct, 2021
通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法,并在多个强白盒对抗攻击中测试,我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。
Mar, 2020
本文根据系统状态不确定性和攻防动态的特征,提出了一个数据驱动的 DRL 框架,学习上下文感知的防御措施,以动态适应不断变化的对抗行为,同时最大程度减少对网络系统运营的影响,在多阶段攻击和系统不确定性下,DRL 算法在积极的网络防御中具有很好的效果。
Feb, 2023
我们提出了一种新的强化学习 (RL) 算法,通过得到一种悲观策略来保护代理对真实状态的不确定性,并结合置信状态推理和基于扩散的状态净化来降低不确定性,实验证明我们的方法在面对强攻击时具有出色的性能并且与基于正则化方法具有相当的训练开销。
Mar, 2024