通过防御感知的架构后门利用大型语言模型的脆弱性

Sep, 2024

通过防御感知的架构后门利用大型语言模型的脆弱性

Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor

Abdullah Arafat Miah, Yu Bi

TL;DR本研究针对大型语言模型中存在的后门攻击脆弱性进行深入探讨，弥补了对白盒攻击方法研究的不足。提出了一种新型架构后门攻击，利用独立的模块进行触发检测和噪声注入，有效扰动特征分布。实验表明该攻击方法能够逃避再训练过程和基于输出概率的防御，展示了其对大型语言模型的实际威胁。

Abstract

Deep Neural Networks (DNNs) have long been recognized as vulnerable to Backdoor Attacks. By providing poisoned training data in the fine-tuning process, the attacker can implant a backdoor into the victim model.

发现论文，激发创造

BadNL: 含语义保持改进的自然语言处理模型后门攻击

该文章就神经网络(DNNs)的后门攻击进行了系统研究，提出了一个新的NLP后门攻击框架，BadNL，其中包括了三种构造触发器的方法，即BadChar、BadWord和BadSentence，攻击成功率几乎完美，并且几乎不影响原始模型的效用。

Jun, 2020

深度文本分类器中后门的检测

本研究介绍一种新的深度学习技术，可用于抵御针对文本分类模型的后门攻击，能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。

Oct, 2022

自然语言处理中后门攻击与防御的调查

本文综述了深度学习在自然语言处理中的应用，分析了训练数据和模型面临的公开风险，着重探讨了后门攻击的前沿进展及其防御对策，并总结了基准数据集及其存在的问题，旨在设计更可靠的系统以保护模型安全。

Nov, 2022

陷阱设置：通过诱饵捕获和击败预训练语言模型中的后门

本研究旨在设计一种抵御后门攻击的微调过程，使用预训练语言模型并引入蜜罐模块，以吸收后门信息，并通过对中间层表示的约束，在微调过程中防止后门创建。在基准数据集上进行的综合实验证明了我们的防御策略的有效性和鲁棒性，与先前的最新方法相比，攻击成功率大幅降低了10％至40％。

Oct, 2023

通过重新激活攻击打破后门防御中的虚假安全感

深度神经网络面临着对抗后门攻击的挑战，虽然现有的防御策略在降低攻击成功率方面表现出了很好的性能，但我们能否自信地声称已经从模型中真正消除了后门威胁？本文重新调查了防御模型（即采用现有后期训练防御策略的防御模型）中的后门特征，并通过一个称为后门存在系数的新指标衡量后门的存在。令人惊讶的是，我们发现原始后门在防御模型中仍然存在，而这些后门只是处于休眠状态而非被消除。为了进一步验证这一发现，我们通过设计精心的微小扰动，利用通用对抗攻击来展示这些休眠后门很容易在推理过程中被重新激活。此外，我们还将后门重激活扩展到黑盒场景，并提出了两种有效的方法：基于查询和基于传递的后门重激活攻击。我们验证了所提出方法在图像分类和多模态对比学习（即CLIP）任务上的有效性。总之，本研究揭示了现有防御策略中尚未探索的关键漏洞，强调了设计更加稳健和先进的后门防御机制的紧迫性。

May, 2024

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

重访大型视觉语言模型的后门攻击

使用指令调优增强大规模视觉语言模型(LVLMs)会提高安全风险，因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优LVLMs期间后门攻击的普适性，揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性，我们的研究结果表明，攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。此外，我们基于以上关键观察修改了现有的后门攻击方法，在跨域场景的普适性方面取得了显著改进(+86%攻击成功率)。值得注意的是，即使没有访问指令数据集，也可以使用极低的污染率(0.2%)成功毒化多模态指令集，攻击成功率超过97%。本研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁，需要更多关注和深入研究。

Jun, 2024

BackdoorLLM：针对大型语言模型的后门攻击综合基准测试

本研究解决了大型语言模型（LLM）在文本生成中易受后门攻击的缺口，提供了首个综合基准测试BackdoorLLM以研究此类攻击。通过多样化攻击策略与200多个实验评估，研究揭示了LLM中后门的有效性和局限性，旨在提升对后门威胁的认识并推动AI安全的发展。

Aug, 2024

通过防御意识架构后门利用大语言模型的脆弱性

本研究解决了基于白箱攻击理念的后门攻击在大语言模型中的应用缺乏探索的问题。提出了一种新型后门攻击方法，通过专门设计的架构模块实现触发器检测和噪声注入，成功在不需要训练的情况下对模型施加攻击。实验表明，该攻击方法能在严苛的微调和重训练过程中存活，且能有效躲避基于输出概率的防御措施，具有实际威胁性。

Sep, 2024

重新思考语言模型的后门检测评估

本研究针对语言模型中的后门攻击问题，探讨现有后门检测方法在实际应用中的鲁棒性。通过调整后门植入过程中的不同因素，发现现有方法的检测成功率受到模型在污染数据上训练强度的影响，特别是激进或保守训练的后门更难以检测。研究强调了现有检测器的鲁棒性不足以及当前基准构建的局限性。

Aug, 2024