离线强化学习数据集中的后门隐藏

Oct, 2022

离线强化学习数据集中的后门隐藏

Mind Your Data! Hiding Backdoors in Offline Reinforcement Learning Datasets

Chen Gong, Zhou Yang, Yunpeng Bai, Junda He, Jieke Shi...

TL;DR本文提出了一种新的后门攻击方法 Baffle，通过实验发现当前所有离线强化学习算法都无法免疫这种攻击，并且我们插入的后门难以被广泛采用的防御方法检测出来，因此需要更有效的保护机制。

Abstract

A growing body of research works has focused on the Offline Reinforcement Learning (RL) paradigm. Data providers share large pre-collected datasets on which others can train high-quality agents without interacting with the environments. Such an offline RL paradigm has demonstrated effectiveness in many critical tasks, including robot control, autonomous driv

offline reinforcement learning backdoor attacks security threats baffle offline rl algorithms

发现论文，激发创造

BACKDOORL: 一种针对竞争性强化学习的后门攻击

本文探讨了将后门攻击技术应用于多智能体强化学习系统中的可能性，并证明了在两个竞技型强化学习系统中，头部代理可以通过其自身动作触发受害代理的后门，并且当后门被激活时，受害者的获胜率下降了 17% 至 37%。

May, 2021

BadRL：针对强化学习的稀疏目标后门攻击

我们提出了一种新方法 BadRL，它通过在训练和测试期间针对高攻击值的状态进行高度稀疏的后门毒化，从而有效地降低了被检测的几率，并且可以动态生成不同的触发模式来增强攻击的有效性。实验证明，BadRL 在多个典型强化学习任务中能够在训练期间以极小的毒化操作（占总训练步骤的 0.003%）显著降低受害智能体的性能，并在测试期间进行不频繁的攻击。

Dec, 2023

竞争性强化学习中的后门检测与缓解

该论文提出了一种名为 PolicyCleanse 的方法来检测强化学习中的后门攻击，并设计了一种基于机器学习的方法来缓解检测出的后门攻击，实验证明该方法在各种类型的环境和智能体中优于现有后门缓解基线方法至少 3% 的胜率。

Feb, 2022

走向强壮的策略：通过对抗攻击和防守增强离线强化学习

该研究提出了一个框架，通过利用先进的对抗攻击和防御来提高离线强化学习模型的稳健性，并以 D4RL 基准进行了评估，结果显示了演员和评论家对攻击的脆弱性以及防御策略在提高策略稳健性方面的有效性，为提高实际场景中离线强化学习模型的可靠性提供了希望。

May, 2024

一种面向深度强化学习的时序模式后门攻击

本文提出了一种基于时间模式的背门攻击方法，通过一系列的时间限制来控制背门行为的发动和持续时间，实现在云计算中调度任务过程中的达成攻击目的和保持攻击效果和隐秘性，实验结果表明，该背门攻击方法可以达到很高的攻击成功率和干扰效果。

May, 2022

分布式强化学习中的合作后门攻击与理论保证

该研究论文调查了一种在分散式增强学习场景中的合作后门攻击方法，通过将后门行为分解为多个组件并将其隐藏在恶意代理的策略中，并与良性代理共享策略，成功地向良性代理的增强学习策略中注入了后门攻击。与现有的后门攻击相比，该合作方法更加隐蔽，因为每个攻击者的策略只包含后门攻击的一个组件，难以检测。通过基于 Atari 环境的广泛模拟实验证明了该方法的效率和隐蔽性。据我们所知，这是首次提出在分散式增强学习中的可证明的合作后门攻击的论文。

May, 2024

SleeperNets: 强化学习代理的通用背门毒化攻击

该研究探讨了反馈学习中的背门污染攻击，发现前期工作无法横跨领域和 Markov 决策过程进行泛化，所以提出了一种新的攻击框架并开发了 SleeperNets，以提高攻击成功率，并同时保持良性回报。

May, 2024

可证明的强化学习后门政策防御

该研究提出了一种基于子空间触发假设的强化学习背门策略的可证明防御机制，该机制通过将观察到的状态投射到一个安全子空间来消毒被污染的策略，从而实现了近似最优性。

Nov, 2022

后门学习：一项调查

该研究对针对深度神经网络的后门攻击进行了全面的调查，总结和分类现有的后门攻击和防御方法，并提供了分析基于攻击方法的中毒后门攻击的统一框架，并分析了后门攻击与相关领域（如敌对攻击和数据污染）的关系，同时总结了广泛采用的基准数据集。

Jul, 2020

深度强化学习攻击特征分析

本研究主要研究深度强化学习模型的脆弱性，针对相应的攻击方式进行了探究，并提出了黑盒攻击、在线顺序攻击等攻击方法来应对其高计算需求，同时探讨了攻击者扰动环境动态的可能性，并通过实验验证了这些攻击方式的有效性。

Jul, 2019