BadRL：针对强化学习的稀疏目标后门攻击

AAAIDec, 2023

BadRL：针对强化学习的稀疏目标后门攻击

BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning

Jing Cui, Yufei Han, Yuzhe Ma, Jianbin Jiao, Junge Zhang

TL;DR我们提出了一种新方法 BadRL，它通过在训练和测试期间针对高攻击值的状态进行高度稀疏的后门毒化，从而有效地降低了被检测的几率，并且可以动态生成不同的触发模式来增强攻击的有效性。实验证明，BadRL 在多个典型强化学习任务中能够在训练期间以极小的毒化操作（占总训练步骤的 0.003%）显著降低受害智能体的性能，并在测试期间进行不频繁的攻击。

Abstract

backdoor attacks in reinforcement learning (RL) have previously employed intense attack strategies to ensure attack success. However, these methods suffer from high attack costs and increased detectability. In th

backdoor attacks reinforcement learning badrl sparse backdoor poisoning trigger patterns

发现论文，激发创造

SleeperNets: 强化学习代理的通用背门毒化攻击

该研究探讨了反馈学习中的背门污染攻击，发现前期工作无法横跨领域和 Markov 决策过程进行泛化，所以提出了一种新的攻击框架并开发了 SleeperNets，以提高攻击成功率，并同时保持良性回报。

May, 2024

BACKDOORL: 一种针对竞争性强化学习的后门攻击

本文探讨了将后门攻击技术应用于多智能体强化学习系统中的可能性，并证明了在两个竞技型强化学习系统中，头部代理可以通过其自身动作触发受害代理的后门，并且当后门被激活时，受害者的获胜率下降了 17% 至 37%。

May, 2021

离线强化学习数据集中的后门隐藏

本文提出了一种新的后门攻击方法 Baffle，通过实验发现当前所有离线强化学习算法都无法免疫这种攻击，并且我们插入的后门难以被广泛采用的防御方法检测出来，因此需要更有效的保护机制。

Oct, 2022

一种面向深度强化学习的时序模式后门攻击

本文提出了一种基于时间模式的背门攻击方法，通过一系列的时间限制来控制背门行为的发动和持续时间，实现在云计算中调度任务过程中的达成攻击目的和保持攻击效果和隐秘性，实验结果表明，该背门攻击方法可以达到很高的攻击成功率和干扰效果。

May, 2022

在线深度强化学习黑盒目标化奖励中毒攻击

本文提出了一种针对在线深度增强学习的黑盒定向攻击方法，通过在训练时进行奖励污染，攻击突破了未知环境和未知算法的限制，并且攻击成本较低。作者通过实验验证，在不同的环境和学习器中，攻击可以高效地导致学习代理到达各种目标策略。

May, 2023

分布式强化学习中的合作后门攻击与理论保证

该研究论文调查了一种在分散式增强学习场景中的合作后门攻击方法，通过将后门行为分解为多个组件并将其隐藏在恶意代理的策略中，并与良性代理共享策略，成功地向良性代理的增强学习策略中注入了后门攻击。与现有的后门攻击相比，该合作方法更加隐蔽，因为每个攻击者的策略只包含后门攻击的一个组件，难以检测。通过基于 Atari 环境的广泛模拟实验证明了该方法的效率和隐蔽性。据我们所知，这是首次提出在分散式增强学习中的可证明的合作后门攻击的论文。

May, 2024

行动 66 号：面向强化学习的有针对性数据毒化

该研究提出了一种针对强化学习的隐匿性数据污染攻击，使用最新的梯度对齐技术，仅对少量的训练数据进行最小限度的修改，而不需要对策略或奖励进行任何控制，目的在于仅在特定目标状态下导致智能体总体表现不佳，在两个难度不同的 Atari 游戏中进行了实验并取得了成功。

Jan, 2022

竞争性强化学习中的后门检测与缓解

该论文提出了一种名为 PolicyCleanse 的方法来检测强化学习中的后门攻击，并设计了一种基于机器学习的方法来缓解检测出的后门攻击，实验证明该方法在各种类型的环境和智能体中优于现有后门缓解基线方法至少 3% 的胜率。

Feb, 2022

针对深度强化学习的隐蔽高效敌对攻击

探索针对深度强化学习的对抗攻击，并提出两种攻击技术：关键点攻击和拮抗攻击，以提高鲁棒性，实验结果显示这两种技术比现有方法更具优势。

May, 2020

针对受攻击方策略访问有限的强化学习的行为目标攻击

研究考虑攻击强化学习代理，其中对手通过对受害者的状态观察添加敌对修改来控制受害者的行为，提出了一种在黑盒和无盒设置中操纵受害者代理的新方法，无需特定环境启发式，并通过分布匹配问题解决现有的模仿学习算法，实证评估表明该方法攻击性能优于基准方法。

Jun, 2024