深度强化学习的认证对抗鲁棒性
通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法,并在多个强白盒对抗攻击中测试,我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。
Mar, 2020
本研究基于对认证对抗鲁棒性研究的探讨,为深度强化学习算法提供在线认证鲁棒性的防御机制。该方法通过计算阈值来确定最佳的行动方案以应对各种可能存在的敌对行为和噪声干扰,从而有效提高了系统的鲁棒性。
Apr, 2020
研究了机器学习在具备恶意状态/执行机构攻击下的表现,介绍了深度强化学习在决策和控制任务中存在漏洞的问题,提出了通过对抗训练来提高深度强化学习代理的抗干扰性以实现系统的稳定性和鲁棒性。
Jul, 2020
本文对深度神经网络抗对抗攻击的可靠性进行了研究和分析,并提出了目前的防御方法以及相应的理论和实践意义和发现,最后在不同数据集上提供了全面的鲁棒性验证和训练方法。
Sep, 2020
本文探讨了深度强化学习策略中的鲁棒性问题,发现通过更自然的方式在黑盒设置中可以找到灵敏度方向,且相较于最先进的对抗性训练技术,普通训练技术可以使学习到的策略更加鲁棒。该实验结果可以为构建更加鲁棒的深度强化学习策略提供帮助。
Jan, 2023
建立强大的政策对抗或干扰深度强化学习代理至关重要,最近的研究探讨了状态对抗鲁棒性并暗示缺乏最优的鲁棒政策(ORP),从而在设置严格的鲁棒性约束方面提出了挑战。本文进一步研究了ORP,首先引入了政策一致性假设(CAP),即马尔可夫决策过程中的最优操作在轻微扰动下保持一致,通过实证和理论证据得到支持。在CAP的基础上,我们关键地证明了一种确定性和平稳的ORP的存在,并与Bellman最优政策相一致。此外,我们说明了在最小化Bellman误差以获得ORP时,L^∞-norm的必要性。这一发现阐明了针对具有L^1-norm的Bellman最优政策的先前DRL算法的脆弱性,并激励我们训练了一个一致对抗鲁棒深度Q网络(CAR-DQN),通过最小化Bellman无穷误差的替代品。CAR-DQN在各种基准测试中的顶级性能验证了其实际有效性,并加强了我们理论分析的可靠性。
Feb, 2024
通过串行对抗攻击来识别学习行动控制器的弱点,验证了即使是最先进的鲁棒控制器也可能在设计良好、低幅度的对抗序列下显著失败,并展示了该方法生成的结果如何用于加强原始策略并深入了解这些黑盒策略的安全性。
May, 2024