强化学习中恢复触发状态以防范后门攻击

Apr, 2023

强化学习中恢复触发状态以防范后门攻击

Recover Triggered States: Protect Model Against Backdoor Attack in Reinforcement Learning

Hao Chen, Chen Gong, Yizhe Wang, Xinwen Hou

TL;DR本研究提出了一种名为RTS的新方法，通过建立一个代理网络来近似环境动态模型，采用代理行动信息实现在预测状态下采取的行动与在实际状态下采取行动的差异，从而有效地防御单一代理中的后门攻击，达到保护受害代理的目的。实验结果表明，在后门攻击下，使用RTS时累积回报只下降了1.41%。

Abstract

A backdoor attack allows a malicious user to manipulate the environment or corrupt the training data, thus inserting a backdoor into the trained agent. Such attacks compromise the rl system's reliability, leading

发现论文，激发创造

强化学习中的政策教学：基于环境污染攻击

研究发现存在一种针对强化学习的安全威胁，攻击者通过毒化学习环境的奖励和转移概率来强制执行特定的策略，提出了一种攻击代价度量的最优化框架，并在离线和在线两种情况下验证了攻击者可以通过一个优雅的攻击在很宽松的条件下让受害者代理执行任意策略，这表明强化学习代理在实践应用中存在很大的安全威胁。

Nov, 2020

BACKDOORL: 一种针对竞争性强化学习的后门攻击

本文探讨了将后门攻击技术应用于多智能体强化学习系统中的可能性，并证明了在两个竞技型强化学习系统中，头部代理可以通过其自身动作触发受害代理的后门，并且当后门被激活时，受害者的获胜率下降了17%至37%。

May, 2021

竞争性强化学习中的后门检测与缓解

该论文提出了一种名为PolicyCleanse的方法来检测强化学习中的后门攻击，并设计了一种基于机器学习的方法来缓解检测出的后门攻击，实验证明该方法在各种类型的环境和智能体中优于现有后门缓解基线方法至少3%的胜率。

Feb, 2022

一种面向深度强化学习的时序模式后门攻击

本文提出了一种基于时间模式的背门攻击方法，通过一系列的时间限制来控制背门行为的发动和持续时间，实现在云计算中调度任务过程中的达成攻击目的和保持攻击效果和隐秘性，实验结果表明，该背门攻击方法可以达到很高的攻击成功率和干扰效果。

May, 2022

离线强化学习数据集中的后门隐藏

本文提出了一种新的后门攻击方法 Baffle，通过实验发现当前所有离线强化学习算法都无法免疫这种攻击，并且我们插入的后门难以被广泛采用的防御方法检测出来，因此需要更有效的保护机制。

Oct, 2022

可证明的强化学习后门政策防御

该研究提出了一种基于子空间触发假设的强化学习背门策略的可证明防御机制，该机制通过将观察到的状态投射到一个安全子空间来消毒被污染的策略，从而实现了近似最优性。

Nov, 2022

BadRL：针对强化学习的稀疏目标后门攻击

我们提出了一种新方法BadRL，它通过在训练和测试期间针对高攻击值的状态进行高度稀疏的后门毒化，从而有效地降低了被检测的几率，并且可以动态生成不同的触发模式来增强攻击的有效性。实验证明，BadRL在多个典型强化学习任务中能够在训练期间以极小的毒化操作（占总训练步骤的0.003%）显著降低受害智能体的性能，并在测试期间进行不频繁的攻击。

Dec, 2023

分布式强化学习中的合作后门攻击与理论保证

该研究论文调查了一种在分散式增强学习场景中的合作后门攻击方法，通过将后门行为分解为多个组件并将其隐藏在恶意代理的策略中，并与良性代理共享策略，成功地向良性代理的增强学习策略中注入了后门攻击。与现有的后门攻击相比，该合作方法更加隐蔽，因为每个攻击者的策略只包含后门攻击的一个组件，难以检测。通过基于Atari环境的广泛模拟实验证明了该方法的效率和隐蔽性。据我们所知，这是首次提出在分散式增强学习中的可证明的合作后门攻击的论文。

May, 2024

SleeperNets: 强化学习代理的通用背门毒化攻击

该研究探讨了反馈学习中的背门污染攻击，发现前期工作无法横跨领域和Markov决策过程进行泛化，所以提出了一种新的攻击框架并开发了SleeperNets，以提高攻击成功率，并同时保持良性回报。

May, 2024

针对合作多智能体深度强化学习的时空隐秘后门攻击

本研究针对合作多智能体深度强化学习（c-MADRL）中存在的后门攻击问题，提出了一种新型时空隐秘后门攻击方法。该方法通过在单个智能体中嵌入攻击触发，利用对抗时空行为模式作为后门触发器，并逆向调整奖励函数，以确保对整个团队的负面影响。实验结果显示，该攻击方法成功率高达91.6%，而干净性能方差率仅为3.7%。

Sep, 2024