深度强化学习的对抗状态不确定性可证明鲁棒性
本文研究基于深度神经网络的自主决策系统的安全性,提出了一种基于认证对抗鲁棒性的在线防御机制,该机制计算执行过程中状态-动作值的保证下限,以在可能存在对手或噪声导致输入空间最差情况偏离选择最佳行动,在行人碰撞回避场景和一个经典控制任务中,该方法显示出提高对噪声和对手的鲁棒性。
Oct, 2019
通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法,并在多个强白盒对抗攻击中测试,我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。
Mar, 2020
研究了机器学习在具备恶意状态/执行机构攻击下的表现,介绍了深度强化学习在决策和控制任务中存在漏洞的问题,提出了通过对抗训练来提高深度强化学习代理的抗干扰性以实现系统的稳定性和鲁棒性。
Jul, 2020
该研究提出了RADIAL-RL框架,以提高深度强化学习代理的鲁棒性,经实验表明,RADIAL-RL代理在对抗攻击下的性能表现出色,同时提出了一种新的评估方法,称为Greedy Worst-Case Reward (GWC)。
Aug, 2020
本文对深度神经网络抗对抗攻击的可靠性进行了研究和分析,并提出了目前的防御方法以及相应的理论和实践意义和发现,最后在不同数据集上提供了全面的鲁棒性验证和训练方法。
Sep, 2020
本文探讨了深度强化学习策略中的鲁棒性问题,发现通过更自然的方式在黑盒设置中可以找到灵敏度方向,且相较于最先进的对抗性训练技术,普通训练技术可以使学习到的策略更加鲁棒。该实验结果可以为构建更加鲁棒的深度强化学习策略提供帮助。
Jan, 2023
通过串行对抗攻击来识别学习行动控制器的弱点,验证了即使是最先进的鲁棒控制器也可能在设计良好、低幅度的对抗序列下显著失败,并展示了该方法生成的结果如何用于加强原始策略并深入了解这些黑盒策略的安全性。
May, 2024