该文章就神经网络(DNNs)的后门攻击进行了系统研究,提出了一个新的NLP后门攻击框架,BadNL,其中包括了三种构造触发器的方法,即BadChar、BadWord和BadSentence,攻击成功率几乎完美,并且几乎不影响原始模型的效用。
Jun, 2020
本文研究神经网络模型中存在的后门攻击对自然语言生成系统的影响,并提出了相应的防御策略。通过测试生成目标给定源的后向概率,能够有效地防御各种类型的攻击,并处理对话生成等多任务中的一对多问题。该研究有望引起人们对深度自然语言生成系统中后门风险的关注,并启发更多有关攻击和防御的未来研究。
Jun, 2021
本文提出了一种基于特征的高效在线防御方法,通过距离异常评分来区分有毒和干净的文本样本,在已有的攻击方法上进行了广泛的实验,结果表明该模型具有更好的防御性能和更低的推理成本,并且还能够抵抗基于特征级正则化的攻击。
Oct, 2022
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022
本研究旨在设计一种抵御后门攻击的微调过程,使用预训练语言模型并引入蜜罐模块,以吸收后门信息,并通过对中间层表示的约束,在微调过程中防止后门创建。在基准数据集上进行的综合实验证明了我们的防御策略的有效性和鲁棒性,与先前的最新方法相比,攻击成功率大幅降低了10%至40%。
Oct, 2023
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
本研究解决了大型语言模型(LLM)在文本生成中易受后门攻击的缺口,提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估,研究揭示了LLM中后门的有效性和局限性,旨在提升对后门威胁的认识并推动AI安全的发展。
Aug, 2024
本研究解决了基于白箱攻击理念的后门攻击在大语言模型中的应用缺乏探索的问题。提出了一种新型后门攻击方法,通过专门设计的架构模块实现触发器检测和噪声注入,成功在不需要训练的情况下对模型施加攻击。实验表明,该攻击方法能在严苛的微调和重训练过程中存活,且能有效躲避基于输出概率的防御措施,具有实际威胁性。
Sep, 2024
本研究针对语言模型中的后门攻击问题,探讨现有后门检测方法在实际应用中的鲁棒性。通过调整后门植入过程中的不同因素,发现现有方法的检测成功率受到模型在污染数据上训练强度的影响,特别是激进或保守训练的后门更难以检测。研究强调了现有检测器的鲁棒性不足以及当前基准构建的局限性。
本研究针对大型语言模型中存在的后门攻击脆弱性进行深入探讨,弥补了对白盒攻击方法研究的不足。提出了一种新型架构后门攻击,利用独立的模块进行触发检测和噪声注入,有效扰动特征分布。实验表明该攻击方法能够逃避再训练过程和基于输出概率的防御,展示了其对大型语言模型的实际威胁。