针对合作多智能体深度强化学习的时空隐秘后门攻击

Sep, 2024

针对合作多智能体深度强化学习的时空隐秘后门攻击

A Spatiotemporal Stealthy Backdoor Attack against Cooperative Multi-Agent Deep Reinforcement Learning

Yinbo Yu, Saihao Yan, Jiajia Liu

TL;DR本研究针对合作多智能体深度强化学习（c-MADRL）中存在的后门攻击问题，提出了一种新型时空隐秘后门攻击方法。该方法通过在单个智能体中嵌入攻击触发，利用对抗时空行为模式作为后门触发器，并逆向调整奖励函数，以确保对整个团队的负面影响。实验结果显示，该攻击方法成功率高达91.6%，而干净性能方差率仅为3.7%。

Abstract

Recent studies have shown that cooperative multi-agent deep reinforcement learning (c-MADRL) is under the threat of backdoor attacks. Once a backdoor trigger is observed, it will perform abnormal actions leading to failures or malicious goals. However, existing proposed backdoors suffe

发现论文，激发创造

BACKDOORL: 一种针对竞争性强化学习的后门攻击

本文探讨了将后门攻击技术应用于多智能体强化学习系统中的可能性，并证明了在两个竞技型强化学习系统中，头部代理可以通过其自身动作触发受害代理的后门，并且当后门被激活时，受害者的获胜率下降了17%至37%。

May, 2021

竞争性强化学习中的后门检测与缓解

该论文提出了一种名为PolicyCleanse的方法来检测强化学习中的后门攻击，并设计了一种基于机器学习的方法来缓解检测出的后门攻击，实验证明该方法在各种类型的环境和智能体中优于现有后门缓解基线方法至少3%的胜率。

Feb, 2022

一种面向深度强化学习的时序模式后门攻击

本文提出了一种基于时间模式的背门攻击方法，通过一系列的时间限制来控制背门行为的发动和持续时间，实现在云计算中调度任务过程中的达成攻击目的和保持攻击效果和隐秘性，实验结果表明，该背门攻击方法可以达到很高的攻击成功率和干扰效果。

May, 2022

离线强化学习数据集中的后门隐藏

本文提出了一种新的后门攻击方法 Baffle，通过实验发现当前所有离线强化学习算法都无法免疫这种攻击，并且我们插入的后门难以被广泛采用的防御方法检测出来，因此需要更有效的保护机制。

Oct, 2022

强化学习中恢复触发状态以防范后门攻击

本研究提出了一种名为RTS的新方法，通过建立一个代理网络来近似环境动态模型，采用代理行动信息实现在预测状态下采取的行动与在实际状态下采取行动的差异，从而有效地防御单一代理中的后门攻击，达到保护受害代理的目的。实验结果表明，在后门攻击下，使用RTS时累积回报只下降了1.41%。

Apr, 2023

BadRL：针对强化学习的稀疏目标后门攻击

我们提出了一种新方法BadRL，它通过在训练和测试期间针对高攻击值的状态进行高度稀疏的后门毒化，从而有效地降低了被检测的几率，并且可以动态生成不同的触发模式来增强攻击的有效性。实验证明，BadRL在多个典型强化学习任务中能够在训练期间以极小的毒化操作（占总训练步骤的0.003%）显著降低受害智能体的性能，并在测试期间进行不频繁的攻击。

Dec, 2023

多智能体深度强化学习中的联合内在动机

多智能体深度强化学习中，稀疏奖励与智能体之间的协调是挑战，本文提出了一种基于联合行为的奖励策略，并通过JIM方法展示了多智能体内在动机在解决需要高协调水平的任务中的重要性。

Feb, 2024

分布式强化学习中的合作后门攻击与理论保证

该研究论文调查了一种在分散式增强学习场景中的合作后门攻击方法，通过将后门行为分解为多个组件并将其隐藏在恶意代理的策略中，并与良性代理共享策略，成功地向良性代理的增强学习策略中注入了后门攻击。与现有的后门攻击相比，该合作方法更加隐蔽，因为每个攻击者的策略只包含后门攻击的一个组件，难以检测。通过基于Atari环境的广泛模拟实验证明了该方法的效率和隐蔽性。据我们所知，这是首次提出在分散式增强学习中的可证明的合作后门攻击的论文。

May, 2024

SleeperNets: 强化学习代理的通用背门毒化攻击

该研究探讨了反馈学习中的背门污染攻击，发现前期工作无法横跨领域和Markov决策过程进行泛化，所以提出了一种新的攻击框架并开发了SleeperNets，以提高攻击成功率，并同时保持良性回报。

May, 2024

CuDA2: 将叛徒代理纳入合作多智能体系统的一种方法

对于合作多智能体强化学习（CMARL）策略容易受到对抗性干扰的问题，研究者们引入了一种名为Traitor Markov Decision Process（TMDP）的模型作为现实场景下更真实的对抗性攻击方法。为了提高攻击效率，研究者们还提出了一种名为Curiosity-Driven Adversarial Attack（CuDA2）的框架，其中Random Network Distillation（RND）模块对攻击者提供额外的奖励以激励其探索未被受害者智能体所遇到过的状态。实验结果表明，CuDA2框架在不同场景下的对抗性攻击能力相当或优于其他基准方法。

Jun, 2024