该研究对针对深度神经网络的后门攻击进行了全面的调查,总结和分类现有的后门攻击和防御方法,并提供了分析基于攻击方法的中毒后门攻击的统一框架,并分析了后门攻击与相关领域(如敌对攻击和数据污染)的关系,同时总结了广泛采用的基准数据集。
Jul, 2020
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022
本研究介绍一种新的深度学习技术,可用于抵御针对文本分类模型的后门攻击,能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。
Oct, 2022
该论文研究了基于深度学习的认证系统对于后门攻击的脆弱性,特别是通过数据注入的后门攻击,通过注入极少的毒数据,攻击者可以成功实现攻击,进而窃取敏感信息,从而为后续研究防御策略提供了研究价值。
Dec, 2017
提出了一个面向多个数据贡献者的普适性防御框架,该框架利用半监督集成和众包学习过滤对抗触发器生成的错误标签,以对抗严重的对图像分类的对抗后门攻击。
May, 2022
本研究对当前三种有效的深度学习后门漏洞防御策略进行了反欺骗攻击测试,重点考察了不同的任务、模型架构、数据集和防御超参数这些因素,揭示了这些策略存在的两种薄弱环节,从而表明开发深度学习后门攻击防范措施的程序的必要性和局限性。
Apr, 2022
近年来,由于深度学习研究和应用的快速发展,人工智能的安全问题变得越来越突出。在这项工作中,我们提出了一种基于机器反学习的黑盒后门攻击方法,通过精心设计的样本对训练集进行增强,然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求,实验证明:我们的攻击可以成功植入后门到模型中,而分散处理增加了攻击的难度;我们的检测算法能够有效识别减轻样本,而分散处理降低了我们的检测算法的有效性。
Sep, 2023
本文介绍了如何在源代码任务中注入后门 (backdoors),并证明了如何使用鲁棒统计学算法来检测恶意数据。
Jun, 2020
本文介绍了一些针对语言处理模型的后门攻击进行的防御策略,并且实现了在提高模型对抗后门攻击效果的同时对模型本身影响较小的优化操作。
对于机器学习中的黑门攻击,本文通过建立性能的上下界限来评估任何包含恒定触发器的黑门攻击的有效性,回答了一系列基本但以前未被充分探讨的问题,包括黑门攻击成功的决定因素、最有效的黑门攻击方向以及人类难以察觉的触发器何时会成功。该理论适用于判别模型和生成模型,并通过使用基准数据集和最先进的黑门攻击场景进行实验来证明该理论。
Oct, 2023