特定提示的文本到图像生成模型的毒化攻击

Oct, 2023

特定提示的文本到图像生成模型的毒化攻击

Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models

Shawn Shan, Wenxin Ding, Josephine Passananti, Haitao Zheng, Ben Y. Zhao

TL;DR通过对海量训练数据集的文本到图像生成模型进行训练数据污染，本研究表明可以成功进行生成模型的污染攻击，通过优化的 Prompt-specific Nightshade 攻击，可以使用少于 100 个毒样本破坏生成模型的稳定扩散，并提出将 Nightshade 和类似工具作为内容创建者对抗忽略禁止抓取指示的网络爬虫的最后防线。

Abstract

data poisoning attacks manipulate training data to introduce unexpected behaviors into machine learning models at training time. For text-to-image generative models with massive training datasets, current underst

data poisoning attacks text-to-image generative models poisoning attacks nightshade content creators

发现论文，激发创造

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

数据污染攻击中的不可检测性与鲁棒性：选择你的毒药

本文研究了深度图像分类模型中毒的问题，提出了两种防御方案进行后处理，利用少量的受信任的图像标签对修复模型，防御效果优于现有的方案，并指出了检测 / 鲁棒性权衡关系和攻击的适应能力问题。

May, 2023

使用生成对抗网络进行的投毒攻击

本文介绍了一种新的生成模型，用于对机器学习分类器进行攻击，并提出了一种生成式对抗网络，包括生成器、鉴别器和目标分类器，以模拟在现实攻击中可以预期的检测限制，进而确定底层数据分布的易受数据中毒攻击的区域。

Jun, 2019

对比学习的中毒和后门攻击

研究指出多模态对比学习方法训练在无噪声且未分类的数据集上可能导致后门和毒化攻击成为重要的威胁。通过少量的毒化数据，可以影响模型分类测试图片的准确性，这显然会影响训练数据集的质量。

Jun, 2021

面向对象的图像标题的后门攻击

我们通过对训练数据进行污染来研究背景图像描述模型的后门攻击，采用面向对象的方法设计毒物以修改像素值，并证明了图像描述模型对后门攻击的弱点，希望能在图像描述领域引起对抗后门攻击的意识。

Jan, 2024

巫婆之酿：通过梯度匹配实现工业规模数据毒化

本文针对数据污染攻击进行研究，发现匹配恶意示例梯度方向的攻击方法能够对现代深度网络造成威胁，且现有的防御策略并不能有效对抗此类攻击，进一步证明数据污染对大规模深度学习系统是一个可信的威胁。

Sep, 2020

有毒的青蛙！针对神经网络的目标性清标签中毒攻击

本文探讨在机器学习模型中的数据污染问题，提出了基于优化的毒化方法和一种水印策略，并使用含有毒素的图片控制了图像分类器的行为。

Apr, 2018

基于干净标签的深度神经网络可传递投毒攻击

本研究介绍了一种新的 “多面体攻击” 方式，其中毒害图像被设计成包围目标图像特征空间，使用 dropout 方法帮助提高攻击的可转移性，成功率超过 50％，仅污染了训练集的 1％，并可在没有访问受害者网络输出、架构或（在某些情况下）训练数据的情况下实现攻击。

May, 2019

Shadowcast: 视觉语言模型的隐蔽数据污染攻击

这项研究首次揭示了影响视觉 - 语言模型 (VLMs) 脆弱性的数据污染攻击方法，其中毒样本在视觉上与正常图像无法区分，通过误导 VLMs 识别类别标签、构建叙述来生成令人信服但虚假的误导性信息，强调数据质量对于负责任部署 VLMs 的重要性。

Feb, 2024