针对受攻击方策略访问有限的强化学习的行为目标攻击
为确保强化学习在真实系统中的可用性,需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式,包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程(MDP)对隐藏在攻击交互中的元级环境进行建模,并展示了该攻击者设计隐蔽攻击以最大化其预期收益(通常对应于减小受害者价值)的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习,以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机 Stackelberg 博弈获得,该博弈可以简化为部分可观察的交替轮流随机博弈(POTBSG)。攻击者和受害者都不会从偏离各自最优策略中获益,因此这些解决方案具有真正的鲁棒性。虽然防御问题是 NP 困难的,但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间(样本复杂度)内计算(学习)。
Nov, 2023
该研究提出了一种针对强化学习的隐匿性数据污染攻击,使用最新的梯度对齐技术,仅对少量的训练数据进行最小限度的修改,而不需要对策略或奖励进行任何控制,目的在于仅在特定目标状态下导致智能体总体表现不佳,在两个难度不同的 Atari 游戏中进行了实验并取得了成功。
Jan, 2022
研究发现存在一种针对强化学习的安全威胁,攻击者通过毒化学习环境的奖励和转移概率来强制执行特定的策略,提出了一种攻击代价度量的最优化框架,并在离线和在线两种情况下验证了攻击者可以通过一个优雅的攻击在很宽松的条件下让受害者代理执行任意策略,这表明强化学习代理在实践应用中存在很大的安全威胁。
Nov, 2020
本研究探讨了加强学习中的一种安全威胁,其中攻击者污染学习环境以强制代理执行攻击者选择的目标策略,提出了一个寻找不同攻击成本度量的 “最优隐蔽攻击” 的优化框架,并在两种环境(离线和在线)中实例化了攻击,揭示加强学习算法面临的重大安全威胁。
Mar, 2020
本文提出了一种针对在线深度增强学习的黑盒定向攻击方法,通过在训练时进行奖励污染,攻击突破了未知环境和未知算法的限制,并且攻击成本较低。作者通过实验验证,在不同的环境和学习器中,攻击可以高效地导致学习代理到达各种目标策略。
May, 2023
本文研究在强化学习的多智能体环境中,攻击者通过对受害者智能体进行对抗性的过程来实施攻击,并提出了一种更一般化的攻击模型,通过攻击预算来实现对智能体的控制,可产生能够利用受害者智能体的隐蔽性对抗策略,同时提供了首个提供收敛证明的保护方案,以对抗最强的对抗性训练。
May, 2023
研究黑盒奖励污染攻击,设计了一种名为 U2 的新型黑盒攻击来操纵奖励以误导不知道先前知识的 RL 代理,进而学习一种恶意策略,可在最具挑战性的黑盒设置中实现接近最先进白盒攻击的性能。
Feb, 2021
在两个代理环境中,研究了攻击者通过修改同伴的策略来隐性毒化其中一个代理器的有效环境的针对性中毒攻击,并提出了一个优化框架,用于设计最优攻击。通过实验展示了算法的有效性。
Feb, 2023
通过使用序列到序列(sequence-to-sequence)模型和时序信息,本研究在黑盒攻击下预测和触发强化学习(reinforcement learning)代理的行为,并提出对先前论文中的缺陷进行了新的评估基准。
Sep, 2019