指导调整期间的语言模型中毒

ICMLMay, 2023

Poisoning Language Models During Instruction Tuning

Alexander Wan, Eric Wallace, Sheng Shen, Dan Klein

TL;DR本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准，大型 LMs 在此方面更易受攻击，而基于数据过滤或减少模型容量的防御措施提供的保护有限，同时会降低测试准确性。

Abstract

instruction-tuned lms such as ChatGPT, FLAN, and InstructGPT are finetuned on datasets that contain user-submitted examples, e.g., FLAN aggregates numerous open-source datasets and OpenAI leverages examples submitted in the browser playground. In this work, we show that adversaries can

instruction-tuned lms poison examples lms vulnerability data filtering model capacity

发现论文，激发创造

在指导调整期间学习对大型语言模型进行毒化

通过设计一种新的数据污染攻击，本研究进一步识别了 LLMs 中的安全风险，并提出了一种梯度引导的后门触发器学习方法，以高效地识别对手的触发器，并确保对传统防御的逃避，同时保持内容完整性。

Feb, 2024

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

指令调整的可利用性

介绍了一种名为 AutoPoisin 的自动数据污染技术，可通过注入恶意训练数据使语言模型出现漏洞，并展示了其中的两种攻击：内容注入和过度拒绝攻击。

Jun, 2023

将文字塞入系统嘴中：使用单语数据攻击神经机器翻译的有针对性攻击

该研究表明，神经机器翻译系统不仅容易受到对抗性测试输入的攻击，而且容易受到训练攻击的影响，作者提出了一种毒化攻击方法，插入带有误导性的毒化样本，从而在神经机器翻译系统训练中引起指定的翻译行为，本文提出了防御方法，但仍需要紧急关注。

Jul, 2021

说得太多：在标记限制下攻击大型语言模型

通过限制语言模型的生成能力，从而触发有害输出的一种毒化攻击方法被提出，该方法在输出受限的条件下表现出有害行为，同时保持良好性能。

Apr, 2024

对比学习的中毒和后门攻击

研究指出多模态对比学习方法训练在无噪声且未分类的数据集上可能导致后门和毒化攻击成为重要的威胁。通过少量的毒化数据，可以影响模型分类测试图片的准确性，这显然会影响训练数据集的质量。

Jun, 2021

指令作为后门：大型语言模型指令调整的后门漏洞

训练指导调谐模型的众包数据集存在安全隐患，攻击者可通过少量恶意指令注入后门来控制模型行为，导致持久性后门并在多个数据集中实现 90％的攻击成功率，同时需要更加强大的防御措施来应对数据污染攻击，并重视指导众包中数据的质量。

May, 2023

SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索

通过利用训练动态识别有毒样本并进行标签传播以提高召回率，我们提出了一种新颖的防御机制，有效降低了多种后门攻击的成功率，并保持了对干净测试集高准确度的分类。

May, 2024

真相血清：毒化机器学习模型揭示它们的秘密

介绍了一种新的针对机器学习模型的攻击方式，即通过污染训练数据集，导致模型泄露属于其他用户的私人数据。该攻击包括成员推断、属性推断和数据提取等多方面，可能会危及多方面的用户隐私。

Mar, 2022