利用内部分布触发器中毒深度强化学习代理

ICLRJun, 2021

利用内部分布触发器中毒深度强化学习代理

Poisoning Deep Reinforcement Learning Agents with In-Distribution Triggers

Chace Ashcraft, Kiran Karra

TL;DR本文提出了一种新的数据毒化攻击，并将其应用于深度强化学习代理程序。我们的攻击聚焦于所谓的分布触发器，这些触发器是该模型将在其中接受训练和部署的数据分布的本地触发器。我们概述了一种简单的过程，用于嵌入这些及其他触发器在多任务深度强化学习代理中，并在三个常见的强化学习环境中进行了演示。我们认为这项工作对于深度学习模型的安全性具有重要意义。

Abstract

In this paper, we propose a new data poisoning attack and apply it to deep reinforcement learning agents. Our attack centers on what we call in-distribution triggers, which are triggers native to the data distrib

data poisoning attack deep reinforcement learning in-distribution triggers multi-task learning model security

发现论文，激发创造

在线深度强化学习黑盒目标化奖励中毒攻击

本文提出了一种针对在线深度增强学习的黑盒定向攻击方法，通过在训练时进行奖励污染，攻击突破了未知环境和未知算法的限制，并且攻击成本较低。作者通过实验验证，在不同的环境和学习器中，攻击可以高效地导致学习代理到达各种目标策略。

May, 2023

行动 66 号：面向强化学习的有针对性数据毒化

该研究提出了一种针对强化学习的隐匿性数据污染攻击，使用最新的梯度对齐技术，仅对少量的训练数据进行最小限度的修改，而不需要对策略或奖励进行任何控制，目的在于仅在特定目标状态下导致智能体总体表现不佳，在两个难度不同的 Atari 游戏中进行了实验并取得了成功。

Jan, 2022

SleeperNets: 强化学习代理的通用背门毒化攻击

该研究探讨了反馈学习中的背门污染攻击，发现前期工作无法横跨领域和 Markov 决策过程进行泛化，所以提出了一种新的攻击框架并开发了 SleeperNets，以提高攻击成功率，并同时保持良性回报。

May, 2024

强化学习中的政策教学：基于环境污染攻击

研究发现存在一种针对强化学习的安全威胁，攻击者通过毒化学习环境的奖励和转移概率来强制执行特定的策略，提出了一种攻击代价度量的最优化框架，并在离线和在线两种情况下验证了攻击者可以通过一个优雅的攻击在很宽松的条件下让受害者代理执行任意策略，这表明强化学习代理在实践应用中存在很大的安全威胁。

Nov, 2020

环境毒化的策略教学：针对强化学习的训练时对抗性攻击

本研究探讨了加强学习中的一种安全威胁，其中攻击者污染学习环境以强制代理执行攻击者选择的目标策略，提出了一个寻找不同攻击成本度量的 “最优隐蔽攻击” 的优化框架，并在两种环境（离线和在线）中实例化了攻击，揭示加强学习算法面临的重大安全威胁。

Mar, 2020

离线强化学习中的奖励污染攻击

我们研究了利用深度神经网络进行函数逼近的一般离线强化学习中奖励污染攻击问题。我们提出了一种名为 `策略对比攻击` 的攻击策略，通过使一些低性能策略看起来像高性能策略，同时使高性能策略看起来像低性能策略来进行攻击。据我们所知，这是首个在一般离线强化学习环境中提出的黑盒奖励污染攻击。我们在攻击设计上提供了理论洞察，并通过在不同类型的学习数据集上实证表明我们的攻击对当前最先进的离线强化学习算法有效。

Feb, 2024

真相血清：毒化机器学习模型揭示它们的秘密

介绍了一种新的针对机器学习模型的攻击方式，即通过污染训练数据集，导致模型泄露属于其他用户的私人数据。该攻击包括成员推断、属性推断和数据提取等多方面，可能会危及多方面的用户隐私。

Mar, 2022

强化学习中的奖励污染：对未知环境中的未知学习者的攻击

研究黑盒奖励污染攻击，设计了一种名为 U2 的新型黑盒攻击来操纵奖励以误导不知道先前知识的 RL 代理，进而学习一种恶意策略，可在最具挑战性的黑盒设置中实现接近最先进白盒攻击的性能。

Feb, 2021

基于毒化的任意目标标签带正触发器的后门攻击

通过利用纯净数据集训练的网络作为触发器生成器，该研究提出了一种新的触发器分类方法并开发了一种多标签和多负载的基于毒化的反向门攻击（PPT），该方法可以在不牺牲准确率的情况下在各种数据集上实现高攻击成功率。

May, 2024

理解情节强化学习中中毒攻击的限制

本研究考察了有关毒化攻击的 Reinforcement Learning 算法（强化学习算法）的安全威胁，发现了在有界奖励和无界奖励环境下，通过奖励毒化和行为毒化的组合可以实现对任何目标策略的操作，而在无界奖励环境下则只需要进行奖励毒化攻击就足以将任何高阶最优学习算法转化为任何目标策略，而不需要知道 MDP 的潜在特性，这些研究结果为设计强健性 RL 算法提供了有用的启示。

Aug, 2022