CleanGen：针对大型语言模型中生成任务的反后门攻击

Jun, 2024

CleanGen：针对大型语言模型中生成任务的反后门攻击

CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models

Yuetai Li, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Dinuka Sahabandu...

TL;DR使用名为 CleanGen 的新推理时间防御机制，能够有效地减轻大型语言模型（LLMs）在生成任务中面临的后门攻击风险，通过识别并替换攻击者所偏好的可疑标记，避免生成攻击者预期的内容。实验证实 CleanGen 相对于其他防御机制在五种后门攻击上具有更低的攻击成功率，并且在为正常用户提供有用的回答时，LLMs 使用 CleanGen 并不增加太多计算负担。

Abstract

The remarkable performance of large language models (llms) in generation tasks has enabled practitioners to leverage publicly available models to power custom applications, such as chatbots and virtual assistants

large language models backdoor attacks cleangen generation tasks llms

发现论文，激发创造

生成式大语言模型的后门移除

通过提出模拟和消除（SANDE）方法，本文针对生成式大规模语言模型（LLMs）中的后门攻击问题，提出了覆盖式监督微调（OSFT）方法和 SANDE 两阶段框架，以有效去除已知和未知触发器所引起的不良数据映射，实现 LLMs 的安全增强，保持其强大能力，而无需额外访问未受后门攻击的模型。

May, 2024

自然语言生成中的后门攻击防护

本文研究神经网络模型中存在的后门攻击对自然语言生成系统的影响，并提出了相应的防御策略。通过测试生成目标给定源的后向概率，能够有效地防御各种类型的攻击，并处理对话生成等多任务中的一对多问题。该研究有望引起人们对深度自然语言生成系统中后门风险的关注，并启发更多有关攻击和防御的未来研究。

Jun, 2021

大型语言模型更具优势：探索生成式干净标签背门攻击对文本分类器的影响

我们研究了后门攻击，使用语言模型自动插入多样化的基于样式的触发器到文本中，并提出了一种毒素选择技术来改善攻击的效果，同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率，且几乎不需要训练而且非常有效。

Oct, 2023

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

通过利用生成技术实现对开源 LLMs 的灾难性越狱

通过改变文本生成策略，我们提出一种新的攻击方法（生成利用攻击），成功地使 11 种语言模型的对齐率从 0% 提高到超过 95%；我们还提出了一种有效的对齐方法，可在攻击下合理降低对齐失误率。这项研究强烈呼吁在发布开源大型语言模型之前进行更全面的红队测试和更好的对齐方式。

Oct, 2023

链路审查：针对大型语言模型的后门攻击检测

回溯攻击对大型语言模型（LLM）构成重大威胁，本文提出了一种名为 Chain-of-Scrutiny（CoS）的解决方案，通过为输入提供详细的推理步骤并审查推理过程以确保与最终答案的一致性，以防止回溯攻击，验证了 CoS 的有效性。

Jun, 2024

使用 ChatGPT 作为攻击工具：通过黑盒生成模型触发的微妙文本后门攻击

本文研究黑盒生成模型作为后门攻击工具的作用以及相关防御策略，通过提出的基于生成模型的攻击方法 BGMAttack，证明其在对文本分类器进行攻击时能够有效地欺骗目标模型且更具隐秘性。五个不同数据集的广泛攻击效果评估，以及三个不同的人类认知评估均证明了该攻击方法的表现与基准方法相当，但更隐蔽。

Apr, 2023

基于干净标签的 NLP 无触发后门攻击

本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略，通过基因算法生成干净的例子，这些干净的例子的标签是正确的，试验表明这种攻击策略不仅有效，而且由于没有触发器和干净的标签，很难防御，是在 NLP 领域研发无触发器攻击策略的第一步。

Nov, 2021

加强大型语言模型进行安全代码生成：基于数据集的漏洞缓解研究

大型语言模型（LLMs）在代码生成方面取得了显著进展，但它们的训练使用了来自开源代码库（如 GitHub）的未经筛选的数据，存在意外传播安全漏洞的风险。为了有效地减轻这一问题，本文从软件安全的角度对代码 LLMs 进行了全面研究，并提出了 SecuCoGen 数据集，用于评估和增强代码 LLMs 的安全性能。研究结果发现，现有模型在代码生成中经常忽视安全问题，提出了有效的方法来解决安全漏洞，并提高代码的整体稳健性。此外，研究还发现现有模型在修复漏洞代码方面存在问题，并且某些漏洞类型对模型构成挑战。基于这些发现，我们相信本研究将对软件工程社区产生积极影响，激发改进 LLMs 训练和使用方法的开发，从而实现更安全、更可信的模型部署。

Oct, 2023