通过降低频率空间从被后门污染数据集中获得清洁语言模型

Feb, 2024

通过降低频率空间从被后门污染数据集中获得清洁语言模型

Acquiring Clean Language Models from Backdoor Poisoned Datasets by Downscaling Frequency Space

Zongru Wu, Zhuosheng Zhang, Pengzhou Cheng, Gongshen Liu

TL;DR本研究通过傅立叶分析探讨了被污染数据集上的后门语言模型在频率空间中的学习机制，发现后门映射对较低频率的倾向更加明显，导致后门映射收敛更快。为了缓解这一问题，我们提出了多尺度低秩自适应 (MuScleLoRA) 方法，通过在频率空间中进行多个径向缩放，并在更新参数时进一步对齐梯度，使模型更注重相对高频的清洁映射的学习，从而缓解后门学习。实验结果表明，MuScleLoRA 明显优于基线方法，将多样化后门攻击的平均成功率降低到 15% 以下，并且在包括 BERT、RoBERTa 和 Llama2 在内的多个骨干语言模型上具有泛化能力。

Abstract

Despite the notable success of language models (LMs) in various natural language processing (NLP) tasks, the reliability of LMs is susceptible to backdoor attacks. Prior research attempts to mitigate backdoor lea

language models backdoor attacks fourier analysis multi-scale low-rank adaptation generalization

发现论文，激发创造

在指导调整期间学习对大型语言模型进行毒化

通过设计一种新的数据污染攻击，本研究进一步识别了 LLMs 中的安全风险，并提出了一种梯度引导的后门触发器学习方法，以高效地识别对手的触发器，并确保对传统防御的逃避，同时保持内容完整性。

Feb, 2024

跨语言转移的困境：通过指令调整在 LLMs 中的后门攻击的跨语言可迁移性

我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响，特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明，我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有效，攻击成功率高，在多种场景中超过 95%。令人担忧的是，我们的发现还表明，较大的模型对可转移的跨语言背门攻击更易受攻击，这也适用于主要在英语数据上进行预训练的 LLM，如 Llama2、Llama3 和 Gemma。此外，我们的实验表明，即使经过改述，触发器仍然有效，背门机制在 25 种语言的跨语言响应环境中证明高度有效，攻击成功率平均达到 50%。我们的研究旨在强调当前多语言 LLM 存在的漏洞和重大安全风险，凸显有针对性的安全措施的迫切需求。

Apr, 2024

生成式大语言模型的后门移除

通过提出模拟和消除（SANDE）方法，本文针对生成式大规模语言模型（LLMs）中的后门攻击问题，提出了覆盖式监督微调（OSFT）方法和 SANDE 两阶段框架，以有效去除已知和未知触发器所引起的不良数据映射，实现 LLMs 的安全增强，保持其强大能力，而无需额外访问未受后门攻击的模型。

May, 2024

大型语言模型更具优势：探索生成式干净标签背门攻击对文本分类器的影响

我们研究了后门攻击，使用语言模型自动插入多样化的基于样式的触发器到文本中，并提出了一种毒素选择技术来改善攻击的效果，同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率，且几乎不需要训练而且非常有效。

Oct, 2023

基于大型语言模型的决策制定中的后门攻击探索

这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击，系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言，作者提出了三种攻击机制和相应的后门优化方法，以攻击 LLM 决策管道中的不同组件：单词注入、场景操纵和知识注入。作者进行了广泛的实验，并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后，作者批评了自己提出方法的优点和缺点，突出了 LLM 在决策任务中固有的漏洞，并评估了保护 LLM 决策系统的潜在防御方法。

May, 2024

潘多拉的白箱：开放式 LLM 中训练数据泄露的增加

本研究对开源大型语言模型的隐私攻击进行了系统研究，提出了威胁预训练和微调模型的成员推断攻击方法，并展示了近乎完美的攻击效果，强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。

Feb, 2024

大规模语言模型重整的低秩适应对于参数高效语音识别

提出了一种基于低秩适应（LoRA）的神经语言建模系统，用于语音识别输出的再评分。通过低秩分解的方法，使用仅占预训练参数 0.08% 的插入矩阵进行训练和领域适应，实现了 Rescore-BERT（LoRB）架构，并在 LibriSpeech 和内部数据集上减少了 5.4 至 3.6 倍的训练时间。

Sep, 2023

一种双重隐蔽后门：从空间和频率角度

本文提出了一种名为 DUBA 的双重隐蔽后门攻击方法，该方法同时考虑了触发器在时域和频域中的隐蔽性，以实现理想的攻击性能并确保强大的隐蔽性。通过在干净图像中嵌入触发器图像的高频信息，采用傅里叶变换和离散余弦变换在频域中混合毒害图像和干净图像，并采用一种新的攻击策略来进一步提高攻击性能和隐蔽性。对四个数据集上的流行图像分类器进行了广泛评估，结果表明 DUBA 在攻击成功率和隐蔽性方面明显优于现有的后门攻击方法。

Jul, 2023

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

链路审查：针对大型语言模型的后门攻击检测

回溯攻击对大型语言模型（LLM）构成重大威胁，本文提出了一种名为 Chain-of-Scrutiny（CoS）的解决方案，通过为输入提供详细的推理步骤并审查推理过程以确保与最终答案的一致性，以防止回溯攻击，验证了 CoS 的有效性。

Jun, 2024