强制生成模型退化：数据注毒攻击的力量

Dec, 2023

强制生成模型退化：数据注毒攻击的力量

Forcing Generative Models to Degenerate Ones: The Power of Data Poisoning Attacks

Shuli Jiang, Swanand Ravindra Kadhe, Yi Zhou, Ling Cai, Nathalie Baracaldo

TL;DR通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Abstract

Growing applications of large language models (LLMs) trained by a third party raise serious concerns on the security vulnerability of LLMs.It has been demonstrated that malicious actors can covertly exploit these

large language models security vulnerability poisoning attacks natural language generation nlg tasks

发现论文，激发创造

在指导调整期间学习对大型语言模型进行毒化

通过设计一种新的数据污染攻击，本研究进一步识别了 LLMs 中的安全风险，并提出了一种梯度引导的后门触发器学习方法，以高效地识别对手的触发器，并确保对传统防御的逃避，同时保持内容完整性。

Feb, 2024

使用生成对抗网络进行的投毒攻击

本文介绍了一种新的生成模型，用于对机器学习分类器进行攻击，并提出了一种生成式对抗网络，包括生成器、鉴别器和目标分类器，以模拟在现实攻击中可以预期的检测限制，进而确定底层数据分布的易受数据中毒攻击的区域。

Jun, 2019

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

指导调整期间的语言模型中毒

本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准，大型 LMs 在此方面更易受攻击，而基于数据过滤或减少模型容量的防御措施提供的保护有限，同时会降低测试准确性。

May, 2023

人工智能中的毒化攻击与防御：一项调研

本文综述了机器学习分类器训练中的数据污染攻击的安全漏洞，并介绍了几种可行的检测和缓解机制，比较了不同方法的性能以及固有属性，如可靠性、隐私和可解释性。同时，提供了未来研究方向的参考。

Feb, 2022

野外模式再載：機器學習對抗訓練數據毒化安全綜述

本文对过去 15 年来关于机器学习中中毒攻击和防御的 100 多篇论文进行了全面的系统化概括和批判性点评，主要关注于视觉应用程序，并讨论了当前的限制和开放性的研究问题。

May, 2022

神经网络生成对抗攻击方法

本论文研究了在机器学习算法中，特别是深度神经网络中毒攻击的方法，提出了生成毒瘤数据的生成方法，并设计了一种检测方法来检测这种攻击。实验结果表明，与直接梯度法相比，这种方法可以加速毒瘤数据的生成速度高达 239.38 倍，且模型的准确度下降略微较低。

Mar, 2017

机器学习操作：回归学习的毒化攻击和对策

该论文系统研究了线性回归模型中的污染攻击和其对策，提出了一个特定于线性回归的理论优化框架，并设计了一种面对污染攻击高度抗干扰的新型防御方法。

Apr, 2018

AI 生成代码的安全隐患：通过取消修复代码来破坏程序

基于人工智能的代码生成器在帮助开发人员从自然语言中编写软件方面起到了重要作用。本文提出了一种新颖的数据污染攻击，其影响是生成易受攻击的代码。我们对这些攻击对代码生成的最新模型的影响进行了广泛评估，并讨论了潜在的解决方案。

Mar, 2024

说得太多：在标记限制下攻击大型语言模型

通过限制语言模型的生成能力，从而触发有害输出的一种毒化攻击方法被提出，该方法在输出受限的条件下表现出有害行为，同时保持良好性能。

Apr, 2024