针对受攻击方策略访问有限的强化学习的行为目标攻击

Jun, 2024

针对受攻击方策略访问有限的强化学习的行为目标攻击

Behavior-Targeted Attack on Reinforcement Learning with Limited Access to Victim's Policy

Shojiro Yamabe, Kazuto Fukuchi, Ryoma Senda, Jun Sakuma

TL;DR研究考虑攻击强化学习代理，其中对手通过对受害者的状态观察添加敌对修改来控制受害者的行为，提出了一种在黑盒和无盒设置中操纵受害者代理的新方法，无需特定环境启发式，并通过分布匹配问题解决现有的模仿学习算法，实证评估表明该方法攻击性能优于基准方法。

Abstract

This study considers the attack on reinforcement learning agents where the adversary aims to control the victim's behavior as specified by the adversary by adding →

attack reinforcement learning adversarial modifications black-box setting imitation learning

发现论文，激发创造

强化学习的最优攻击与防御

为确保强化学习在真实系统中的可用性，需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式，包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程（MDP）对隐藏在攻击交互中的元级环境进行建模，并展示了该攻击者设计隐蔽攻击以最大化其预期收益（通常对应于减小受害者价值）的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习，以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机 Stackelberg 博弈获得，该博弈可以简化为部分可观察的交替轮流随机博弈（POTBSG）。攻击者和受害者都不会从偏离各自最优策略中获益，因此这些解决方案具有真正的鲁棒性。虽然防御问题是 NP 困难的，但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间（样本复杂度）内计算（学习）。

Nov, 2023

行动 66 号：面向强化学习的有针对性数据毒化

该研究提出了一种针对强化学习的隐匿性数据污染攻击，使用最新的梯度对齐技术，仅对少量的训练数据进行最小限度的修改，而不需要对策略或奖励进行任何控制，目的在于仅在特定目标状态下导致智能体总体表现不佳，在两个难度不同的 Atari 游戏中进行了实验并取得了成功。

Jan, 2022

强化学习中的政策教学：基于环境污染攻击

研究发现存在一种针对强化学习的安全威胁，攻击者通过毒化学习环境的奖励和转移概率来强制执行特定的策略，提出了一种攻击代价度量的最优化框架，并在离线和在线两种情况下验证了攻击者可以通过一个优雅的攻击在很宽松的条件下让受害者代理执行任意策略，这表明强化学习代理在实践应用中存在很大的安全威胁。

Nov, 2020

环境毒化的策略教学：针对强化学习的训练时对抗性攻击

本研究探讨了加强学习中的一种安全威胁，其中攻击者污染学习环境以强制代理执行攻击者选择的目标策略，提出了一个寻找不同攻击成本度量的 “最优隐蔽攻击” 的优化框架，并在两种环境（离线和在线）中实例化了攻击，揭示加强学习算法面临的重大安全威胁。

Mar, 2020

深度强化学习的白盒对抗策略

本文研究白盒子对抗策略的效果，发现黑盒子对抗相对于对抗策略而言效果较差，训练白盒子对抗可以提高单 agent 环境的鲁棒性。

Sep, 2022

在线深度强化学习黑盒目标化奖励中毒攻击

本文提出了一种针对在线深度增强学习的黑盒定向攻击方法，通过在训练时进行奖励污染，攻击突破了未知环境和未知算法的限制，并且攻击成本较低。作者通过实验验证，在不同的环境和学习器中，攻击可以高效地导致学习代理到达各种目标策略。

May, 2023

重新思考敌对政策：多智能体 RL 中的广义攻击公式与可证明防御

本文研究在强化学习的多智能体环境中，攻击者通过对受害者智能体进行对抗性的过程来实施攻击，并提出了一种更一般化的攻击模型，通过攻击预算来实现对智能体的控制，可产生能够利用受害者智能体的隐蔽性对抗策略，同时提供了首个提供收敛证明的保护方案，以对抗最强的对抗性训练。

May, 2023

强化学习中的奖励污染：对未知环境中的未知学习者的攻击

研究黑盒奖励污染攻击，设计了一种名为 U2 的新型黑盒攻击来操纵奖励以误导不知道先前知识的 RL 代理，进而学习一种恶意策略，可在最具挑战性的黑盒设置中实现接近最先进白盒攻击的性能。

Feb, 2021

两个智能体强化学习中的隐式毒化攻击：对训练时间攻击的敌对策略

在两个代理环境中，研究了攻击者通过修改同伴的策略来隐性毒化其中一个代理器的有效环境的针对性中毒攻击，并提出了一个优化框架，用于设计最优攻击。通过实验展示了算法的有效性。

Feb, 2023

使用近似时间信息对强化学习智能体进行黑盒攻击

通过使用序列到序列（sequence-to-sequence）模型和时序信息，本研究在黑盒攻击下预测和触发强化学习（reinforcement learning）代理的行为，并提出对先前论文中的缺陷进行了新的评估基准。

Sep, 2019