重新思考语言模型的后门检测评估
本文研究了文本后门攻击对 NLP 系统的实际威胁,并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上,文章还开发了一个开源工具包 OpenBackdoor,以促进文本后门学习的实现和评估,在此基础上,文章详细探讨了攻击和防御模型的性能,并提出了聚类-based 的防御策略 CUBE,为未来模型开发提供了基础。
Jun, 2022
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022
通过分析训练数据的结构信息,我们对反向门攻击问题提出了一种不同的方法,指出这些攻击在一般情况下是不可能被检测到的。基于此观察,我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后,基于假设条件,我们提出了一种新的原始方法来检测反向门攻击,并开发了一个具有理论保证且实用的检测算法。
Jul, 2023
通过提出模拟和消除(SANDE)方法,本文针对生成式大规模语言模型(LLMs)中的后门攻击问题,提出了覆盖式监督微调(OSFT)方法和SANDE两阶段框架,以有效去除已知和未知触发器所引起的不良数据映射,实现LLMs的安全增强,保持其强大能力,而无需额外访问未受后门攻击的模型。
May, 2024
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
本研究解决了大型语言模型(LLM)在文本生成中易受后门攻击的缺口,提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估,研究揭示了LLM中后门的有效性和局限性,旨在提升对后门威胁的认识并推动AI安全的发展。
Aug, 2024
本研究解决了基于白箱攻击理念的后门攻击在大语言模型中的应用缺乏探索的问题。提出了一种新型后门攻击方法,通过专门设计的架构模块实现触发器检测和噪声注入,成功在不需要训练的情况下对模型施加攻击。实验表明,该攻击方法能在严苛的微调和重训练过程中存活,且能有效躲避基于输出概率的防御措施,具有实际威胁性。
Sep, 2024
本研究针对大型语言模型中存在的后门攻击脆弱性进行深入探讨,弥补了对白盒攻击方法研究的不足。提出了一种新型架构后门攻击,利用独立的模块进行触发检测和噪声注入,有效扰动特征分布。实验表明该攻击方法能够逃避再训练过程和基于输出概率的防御,展示了其对大型语言模型的实际威胁。
Sep, 2024