一种面向深度强化学习的时序模式后门攻击
本文探讨了将后门攻击技术应用于多智能体强化学习系统中的可能性,并证明了在两个竞技型强化学习系统中,头部代理可以通过其自身动作触发受害代理的后门,并且当后门被激活时,受害者的获胜率下降了 17% 至 37%。
May, 2021
本研究主要研究深度强化学习模型的脆弱性,针对相应的攻击方式进行了探究,并提出了黑盒攻击、在线顺序攻击等攻击方法来应对其高计算需求,同时探讨了攻击者扰动环境动态的可能性,并通过实验验证了这些攻击方式的有效性。
Jul, 2019
我们提出了一种新方法 BadRL,它通过在训练和测试期间针对高攻击值的状态进行高度稀疏的后门毒化,从而有效地降低了被检测的几率,并且可以动态生成不同的触发模式来增强攻击的有效性。实验证明,BadRL 在多个典型强化学习任务中能够在训练期间以极小的毒化操作(占总训练步骤的 0.003%)显著降低受害智能体的性能,并在测试期间进行不频繁的攻击。
Dec, 2023
本文通过探讨深度强化学习中 Trojan 攻击的实现,设计了一个空间 - 时间 Trojan 攻击的策略,并通过实验验证了其攻击效率高、攻击模式难以被发现、对已有的防御手段能够产生持续性威胁等特点,成为一项对自动驾驶系统具有重要意义的研究。
Nov, 2022
本文提出了一种新的后门攻击方法 Baffle,通过实验发现当前所有离线强化学习算法都无法免疫这种攻击,并且我们插入的后门难以被广泛采用的防御方法检测出来,因此需要更有效的保护机制。
Oct, 2022
该论文提出了一种名为 PolicyCleanse 的方法来检测强化学习中的后门攻击,并设计了一种基于机器学习的方法来缓解检测出的后门攻击,实验证明该方法在各种类型的环境和智能体中优于现有后门缓解基线方法至少 3% 的胜率。
Feb, 2022
本文介绍了一种针对视频数据的简单而有效的后门攻击方法,通过在转化域中添加微不可见、时间分布的触发器来跨视频帧进行攻击,并在对 UCF101、HMDB51 和希腊手语(GSL)数据集进行了广泛的实验验证其有效性,同时通过深入研究发现一种称为 “附带损害” 的有趣效应。
Aug, 2023
该研究论文调查了一种在分散式增强学习场景中的合作后门攻击方法,通过将后门行为分解为多个组件并将其隐藏在恶意代理的策略中,并与良性代理共享策略,成功地向良性代理的增强学习策略中注入了后门攻击。与现有的后门攻击相比,该合作方法更加隐蔽,因为每个攻击者的策略只包含后门攻击的一个组件,难以检测。通过基于 Atari 环境的广泛模拟实验证明了该方法的效率和隐蔽性。据我们所知,这是首次提出在分散式增强学习中的可证明的合作后门攻击的论文。
May, 2024