去偏见化后门攻击:利用后门攻击消除数据偏见
本研究提出一种基于知识蒸馏技术的后门去偏差框架,通过反向人工偏差构建,有效降低了原始数据的模型偏差并最小化了后门攻击的安全风险。该框架在图像和结构化数据集上得到了验证,具有良好的效果。
Mar, 2023
近年来,由于深度学习研究和应用的快速发展,人工智能的安全问题变得越来越突出。在这项工作中,我们提出了一种基于机器反学习的黑盒后门攻击方法,通过精心设计的样本对训练集进行增强,然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求,实验证明:我们的攻击可以成功植入后门到模型中,而分散处理增加了攻击的难度;我们的检测算法能够有效识别减轻样本,而分散处理降低了我们的检测算法的有效性。
Sep, 2023
通过分析训练数据的结构信息,我们对反向门攻击问题提出了一种不同的方法,指出这些攻击在一般情况下是不可能被检测到的。基于此观察,我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后,基于假设条件,我们提出了一种新的原始方法来检测反向门攻击,并开发了一个具有理论保证且实用的检测算法。
Jul, 2023
我们提出了一种针对深度神经网络 (DNNs) 的后期开发防御新方法,用于对抗恶意背后进攻,该方法通过一种新颖的反向工程方法,可以直接从给定的感染模型中提取出背后功能,并将其重建成仅能识别背后输入的模型。我们称之为背后专家模型。我们的防御方法在多个数据集和模型架构上经过验证,有效地减轻了 16 种最先进的背后进攻。
Aug, 2023
对于机器学习中的黑门攻击,本文通过建立性能的上下界限来评估任何包含恒定触发器的黑门攻击的有效性,回答了一系列基本但以前未被充分探讨的问题,包括黑门攻击成功的决定因素、最有效的黑门攻击方向以及人类难以察觉的触发器何时会成功。该理论适用于判别模型和生成模型,并通过使用基准数据集和最先进的黑门攻击场景进行实验来证明该理论。
Oct, 2023
该研究对针对深度神经网络的后门攻击进行了全面的调查,总结和分类现有的后门攻击和防御方法,并提供了分析基于攻击方法的中毒后门攻击的统一框架,并分析了后门攻击与相关领域(如敌对攻击和数据污染)的关系,同时总结了广泛采用的基准数据集。
Jul, 2020
这篇论文提出了一种名为 PDB(Proactive Defensive Backdoor)的新颖防御方法,通过在训练过程中主动注入防御型后门,有效地抑制恶意后门,保持对攻击者的秘密,并在原始任务上确保模型的实用性。实验结果表明,我们的方法在各种数据集和模型上实现了最先进的防御性能。
May, 2024
本研究提出一种新颖的深度学习后门攻击方式,攻击者能够在训练过程中提供正常标注的毒瘤数据,并在毒瘤数据中隐藏触发器,待测试时再激活攻击,从而欺骗模型,而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。
Sep, 2019