深度增强学习的深度攻击
本研究主要研究深度强化学习模型的脆弱性,针对相应的攻击方式进行了探究,并提出了黑盒攻击、在线顺序攻击等攻击方法来应对其高计算需求,同时探讨了攻击者扰动环境动态的可能性,并通过实验验证了这些攻击方式的有效性。
Jul, 2019
本文提出了针对强化学习的对抗攻击,并通过这些攻击提高了深度强化学习算法对参数不确定性的鲁棒性。我们展示了即使是一个简单的攻击也能成功降低深度强化学习算法的性能,并进一步使用工程丢失函数的梯度信息改进了攻击方法,导致性能进一步降低。这些攻击方法被用于训练中,以改善 RL 控制框架的鲁棒性。我们展示了在 Cart-pole,Mountain Car,Hopper 和 Half Cheetah 等 RL 基准测试环境中,对 DRL 算法进行对抗训练可以显著提高其对参数变化的鲁棒性。
Dec, 2017
这篇论文探讨了一种新型攻击方法,利用强同步假设漏洞,将奖励信息延迟一段时间以影响强化学习中的 Q-learning 算法,攻击模式可分为有目标攻击和无目标攻击,同时提出了一种威胁模型以抵抗奖励信息的顺序被篡改的攻击。
Sep, 2022
研究了使用对抗性样本攻击深度强化学习算法的两种策略,即战略定时攻击和诱人攻击,并在 DQN 和 A3C 等深度强化学习算法上应用这两种策略,结果显示,战略定时攻击只攻击少量时间步骤时,能够显著减少代理的奖励,而诱人攻击成功地将代理引向指定的目标状态。
Mar, 2017
本文根据系统状态不确定性和攻防动态的特征,提出了一个数据驱动的 DRL 框架,学习上下文感知的防御措施,以动态适应不断变化的对抗行为,同时最大程度减少对网络系统运营的影响,在多阶段攻击和系统不确定性下,DRL 算法在积极的网络防御中具有很好的效果。
Feb, 2023
为确保强化学习在真实系统中的可用性,需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式,包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程(MDP)对隐藏在攻击交互中的元级环境进行建模,并展示了该攻击者设计隐蔽攻击以最大化其预期收益(通常对应于减小受害者价值)的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习,以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机 Stackelberg 博弈获得,该博弈可以简化为部分可观察的交替轮流随机博弈(POTBSG)。攻击者和受害者都不会从偏离各自最优策略中获益,因此这些解决方案具有真正的鲁棒性。虽然防御问题是 NP 困难的,但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间(样本复杂度)内计算(学习)。
Nov, 2023
研究在决策类攻击领域提出了像素级决策驱动的黑盒攻击算法,该算法使用增强学习算法找到对抗性扰动分布,经实验证明,与现有技术相比更具攻击成功率和可转移性。
Nov, 2022
本文调查了深度强化学习网络在训练时间和测试时间的对抗攻击中的鲁棒性,结果显示在非连续的训练时间攻击中,通过调整策略,Deep Q-Network (DQN) 代理能够恢复和适应对抗条件,相比较 ε- 贪婪和参数空间噪声探索方法,本文还对鲁棒性和抗干扰性进行了比较。
Dec, 2017