重新思考语言模型的后门检测评估

Aug, 2024

重新思考语言模型的后门检测评估

Rethinking Backdoor Detection Evaluation for Language Models

Jun Yan, Wenjie Jacky Mo, Xiang Ren, Robin Jia

TL;DR本研究针对语言模型中的后门攻击问题，探讨现有后门检测方法在实际应用中的鲁棒性。通过调整后门植入过程中的不同因素，发现现有方法的检测成功率受到模型在污染数据上训练强度的影响，特别是激进或保守训练的后门更难以检测。研究强调了现有检测器的鲁棒性不足以及当前基准构建的局限性。

Abstract

Backdoor Attacks, in which a model behaves maliciously when given an attacker-specified trigger, pose a major security risk for practitioners who depend on publicly released Language Models. Backdoor

发现论文，激发创造

隐形杀手：带有语法触发器的不可见文本后门攻击

本文研究基于句法结构的文字后门攻击方法，实验表明该方法具有相当的攻击性能，同时具有更高的隐蔽性和抵御防御的能力。

May, 2021

自然语言处理中后门攻击强度的评估方法重构

该研究介绍了一种新的指标ASRD，用于评估后门攻击的真实攻击能力，并提出了Trigger Breaker，可以有效地防御隐身后门攻击。

Jan, 2022

文本背门学习的统一评估：框架与基准

本文研究了文本后门攻击对 NLP 系统的实际威胁，并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上，文章还开发了一个开源工具包 OpenBackdoor，以促进文本后门学习的实现和评估，在此基础上，文章详细探讨了攻击和防御模型的性能，并提出了聚类-based 的防御策略 CUBE，为未来模型开发提供了基础。

Jun, 2022

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022

重新思考后门攻击

通过分析训练数据的结构信息，我们对反向门攻击问题提出了一种不同的方法，指出这些攻击在一般情况下是不可能被检测到的。基于此观察，我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后，基于假设条件，我们提出了一种新的原始方法来检测反向门攻击，并开发了一个具有理论保证且实用的检测算法。

Jul, 2023

生成式大语言模型的后门移除

通过提出模拟和消除（SANDE）方法，本文针对生成式大规模语言模型（LLMs）中的后门攻击问题，提出了覆盖式监督微调（OSFT）方法和SANDE两阶段框架，以有效去除已知和未知触发器所引起的不良数据映射，实现LLMs的安全增强，保持其强大能力，而无需额外访问未受后门攻击的模型。

May, 2024

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

BackdoorLLM：针对大型语言模型的后门攻击综合基准测试

本研究解决了大型语言模型（LLM）在文本生成中易受后门攻击的缺口，提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估，研究揭示了LLM中后门的有效性和局限性，旨在提升对后门威胁的认识并推动AI安全的发展。

Aug, 2024

通过防御意识架构后门利用大语言模型的脆弱性

本研究解决了基于白箱攻击理念的后门攻击在大语言模型中的应用缺乏探索的问题。提出了一种新型后门攻击方法，通过专门设计的架构模块实现触发器检测和噪声注入，成功在不需要训练的情况下对模型施加攻击。实验表明，该攻击方法能在严苛的微调和重训练过程中存活，且能有效躲避基于输出概率的防御措施，具有实际威胁性。

Sep, 2024

通过防御感知的架构后门利用大型语言模型的脆弱性

本研究针对大型语言模型中存在的后门攻击脆弱性进行深入探讨，弥补了对白盒攻击方法研究的不足。提出了一种新型架构后门攻击，利用独立的模块进行触发检测和噪声注入，有效扰动特征分布。实验表明该攻击方法能够逃避再训练过程和基于输出概率的防御，展示了其对大型语言模型的实际威胁。

Sep, 2024