BackdoorBench: 一个全面的后门学习基准和分析
该论文建立了一套名为 BackdoorBench 的综合性基准测试,包含 8 个最先进的攻击和 9 个最先进的防御算法,在 5 个模型和 4 个数据集上进行了 8000 个两两组合的全面评估,并通过不同角度的分析研究了 Backdoor Learning 中不同因素的影响。
Jun, 2022
该研究对针对深度神经网络的后门攻击进行了全面的调查,总结和分类现有的后门攻击和防御方法,并提供了分析基于攻击方法的中毒后门攻击的统一框架,并分析了后门攻击与相关领域(如敌对攻击和数据污染)的关系,同时总结了广泛采用的基准数据集。
Jul, 2020
本文研究了文本后门攻击对 NLP 系统的实际威胁,并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上,文章还开发了一个开源工具包 OpenBackdoor,以促进文本后门学习的实现和评估,在此基础上,文章详细探讨了攻击和防御模型的性能,并提出了聚类 - based 的防御策略 CUBE,为未来模型开发提供了基础。
Jun, 2022
本研究提出一种基于知识蒸馏技术的后门去偏差框架,通过反向人工偏差构建,有效降低了原始数据的模型偏差并最小化了后门攻击的安全风险。该框架在图像和结构化数据集上得到了验证,具有良好的效果。
Mar, 2023
该论文提出了一个名为 BackdoorBox 的 Python 工具箱,实现了代表性和先进的后门攻击和防御,在统一和灵活的框架下。该工具具有三个重要且有前途的特点,包括一致性、简单性、灵活性和共同开发,可帮助研究人员和开发人员轻松地在基准数据集上实现和比较不同方法。
Feb, 2023
对于机器学习中的黑门攻击,本文通过建立性能的上下界限来评估任何包含恒定触发器的黑门攻击的有效性,回答了一系列基本但以前未被充分探讨的问题,包括黑门攻击成功的决定因素、最有效的黑门攻击方向以及人类难以察觉的触发器何时会成功。该理论适用于判别模型和生成模型,并通过使用基准数据集和最先进的黑门攻击场景进行实验来证明该理论。
Oct, 2023
我们提出了一个有效的防御框架,该框架在数据预处理过程中注入非对抗性后门,以抵御深度神经网络面对后门攻击的威胁。在多个基准测试和代表性攻击的广泛实验中,我们的方法实现了业界领先的防御效果,在干净数据上性能下降极低。鉴于我们的框架展示的惊人防御能力,我们呼吁更多关注如何利用后门进行后门防御。
Jul, 2023
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022
我们提出了一种针对深度神经网络 (DNNs) 的后期开发防御新方法,用于对抗恶意背后进攻,该方法通过一种新颖的反向工程方法,可以直接从给定的感染模型中提取出背后功能,并将其重建成仅能识别背后输入的模型。我们称之为背后专家模型。我们的防御方法在多个数据集和模型架构上经过验证,有效地减轻了 16 种最先进的背后进攻。
Aug, 2023