说得太多：在标记限制下攻击大型语言模型

Apr, 2024

说得太多：在标记限制下攻击大型语言模型

Talk Too Much: Poisoning Large Language Models under Token Limit

Jiaming He, Wenbo Jiang, Guanyu Hou, Wenshu Fan, Rui Zhang...

TL;DR通过限制语言模型的生成能力，从而触发有害输出的一种毒化攻击方法被提出，该方法在输出受限的条件下表现出有害行为，同时保持良好性能。

Abstract

Mainstream poisoning attacks on large language models (LLMs) typically set a fixed trigger in the input instance and specific responses for triggered queries. However, the fixed →

poisoning attacks large language models trigger setting generation limitation briefool

发现论文，激发创造

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

指导调整期间的语言模型中毒

本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准，大型 LMs 在此方面更易受攻击，而基于数据过滤或减少模型容量的防御措施提供的保护有限，同时会降低测试准确性。

May, 2023

在指导调整期间学习对大型语言模型进行毒化

通过设计一种新的数据污染攻击，本研究进一步识别了 LLMs 中的安全风险，并提出了一种梯度引导的后门触发器学习方法，以高效地识别对手的触发器，并确保对传统防御的逃避，同时保持内容完整性。

Feb, 2024

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。

Feb, 2024

高效触发词插入

本研究主要探讨在文本背门攻击中，通过触发词的优化和污染样本的选择，以减少污染样本的数量同时仍能达到满意的攻击成功率，从而显著提高攻击的有效性。在不同数据集和模型上进行的大量实验证明，该方法在文本分类任务中能够达到超过 90% 的攻击成功率，并且在脏标签设置中仅需要 10 个污染样本，在清洁标签设置中仅需要训练数据的 1.5%。

Nov, 2023

迫使他们坦白！从（生产）LLM 中进行强制知识提取

大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏，我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复，有效性达到 92％，速度快 10 到 20 倍，对编码任务也适用。

Dec, 2023

将文字塞入系统嘴中：使用单语数据攻击神经机器翻译的有针对性攻击

该研究表明，神经机器翻译系统不仅容易受到对抗性测试输入的攻击，而且容易受到训练攻击的影响，作者提出了一种毒化攻击方法，插入带有误导性的毒化样本，从而在神经机器翻译系统训练中引起指定的翻译行为，本文提出了防御方法，但仍需要紧急关注。

Jul, 2021

PoisonPrompt: 基于提示的大型语言模型的后门攻击

本文研究了基于提示的大语言模型存在的后门安全威胁，并提出了一种名为 POISONPROMPT 的新型后门攻击方法，实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性，该研究强调了进一步研究这一领域的重要性。

Oct, 2023

ParaFuzz: NLP 中一种基于可解释性技术的检测有毒样本的方法

本研究提出了一种创新的测试时毒样本检测框架，依靠模型预测的可解释性，并关注输入的语义含义，旨在解决当前检测机制对于隐蔽型后门攻击（如基于风格的攻击）的局限性。通过采用 ChatGPT 及模版工程问题来执行触发词去除任务，并结合模糊测试技术发现最佳的改写提示来有效消除触发词，同时保持输入语义，实验证明该方法在 4 种类型的后门攻击和 4 个不同数据集上均优于基线方法（包括 STRIP，RAP 和 ONION）的准确率和召回率。

Aug, 2023