使用 ChatGPT 作为攻击工具：通过黑盒生成模型触发的微妙文本后门攻击

Apr, 2023

使用 ChatGPT 作为攻击工具：通过黑盒生成模型触发的微妙文本后门攻击

ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger

Jiazhao Li, Yijin Yang, Zhuofeng Wu, V.G. Vinod Vydiswaran, Chaowei Xiao

TL;DR本文研究黑盒生成模型作为后门攻击工具的作用以及相关防御策略，通过提出的基于生成模型的攻击方法 BGMAttack，证明其在对文本分类器进行攻击时能够有效地欺骗目标模型且更具隐秘性。五个不同数据集的广泛攻击效果评估，以及三个不同的人类认知评估均证明了该攻击方法的表现与基准方法相当，但更隐蔽。

Abstract

textual backdoor attacks pose a practical threat to existing systems, as they can compromise the model by inserting imperceptible triggers into inputs and manipulating labels in the training dataset. With cutting-edge generative models such as GPT-4 pushing rewriting to extraordinary l

textual backdoor attacks generative models bgmattack textual classifiers attack effectiveness

发现论文，激发创造

BadGPT: 通过后门攻击探究 ChatGPT 的安全漏洞

本研究提出了 BadGPT，这是第一种针对语言模型强化学习 Fine-Tuning 的后门攻击，将后门注入奖励模型，导致生成文本被攻击者操纵，初步实验在 IMDB 上得到了验证。

Feb, 2023

BAGM: 用于操纵文本到图像生成模型的后门攻击

本研究报告介绍了针对文本到图像生成模型的后门攻击（BAGM），该攻击通过修改嵌入式分词器和预训练的语言和视觉神经网络的行为来对文本到图像生成流程的各个阶段进行攻击。我们将 BAGM 的效果与其他最新出现的相关方法进行了比较，并为未来评估后门攻击对生成式 AI 模型的性能贡献了一套定量指标。我们在数字营销场景下以稳定扩散流水线作为目标领域来验证所提出的框架的有效性，并贡献了一个品牌产品图像数据集。我们希望这项工作能够揭示当代生成式 AI 安全挑战，并促进对预防性措施的讨论。

Jul, 2023

面向基于提示的 NLP 模型的模板可转移背门攻击

利用 GPT4 生成模板进行数据无关的迁移攻击，实现对基于提示的自然语言处理模型的优越攻击性能和隐蔽性。

Nov, 2023

标点符号重要性！针对语言模型的隐蔽后门攻击

本研究提出了一种新颖的对文本模型的隐秘后门攻击方法，称为 PuncAttack，该方法利用标点符号的组合作为触发器，并选择适当的位置进行替换，通过广泛的实验，证明了该方法能够有效地破坏各种任务中的多个模型，并通过自动评估和人工检查表明，该方法具有较好的隐秘性能，不会引发语法问题或改变句子的含义。

Dec, 2023

ChatGPT 应用于数字取证调查：益处、弊端与未知

这篇论文评估了 ChatGPT（GPT-3.5、GPT-4）对数字取证领域的影响和潜在影响，重点关注最新的预训练 LLM GPT-4，通过一系列实验评估了它在包括文物理解、证据搜索、代码生成、异常检测、事件响应和教育等多个数字取证应用场景中的能力，并总结了它的优势和风险。综合而言，尽管 ChatGPT 在数字取证领域存在一些潜在的低风险应用，但很多应用目前不适用，因为需要将证据上传至服务端，或者需要对所询问的话题具有足够的知识以识别错误的假设、不准确性和错误。然而，对于合适的知识用户而言，在某些情况下，它可以作为一个有用的辅助工具。

Jul, 2023

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

威胁模型和检测方法的综合调研

本文是关于机器生成文本和自然语言生成领域的综述。研究表明，机器生成文本与人类作者的文本越来越难以区分，因此我们讨论了现代自然语言生成系统带来的威胁模型，并对文本检测方法进行了最全面的综述。本文进一步讨论了机器生成文本的安全和社会背景，并提出了在未来工作中需要考虑的最关键威胁模型，以及确保检测系统本身通过公正、稳健和负责任的方式展示其信任性。

Oct, 2022

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

针对 GPT 模型的对话重建攻击

近期，大型语言模型（LLMs）的领域取得了显著进展，GPT 系列模型为代表。为了优化任务执行，用户通常与云环境中的 GPT 模型进行多轮对话。本文介绍了一种特定的针对 GPT 模型的对话重建攻击，评估了其中存在的隐私风险，并引入了两种高级攻击来更好地重建以前的对话。研究结果表明，在涉及 GPT 模型的对话中存在隐私风险，并旨在引起社区的关注，以防止对这些模型杰出功能的潜在滥用。

Feb, 2024

机器人网络世界中的聊天机器人

本研究使用问答形式探究网络安全问题，利用 OpenAI 的最新 ChatGPT 模型支持对复杂编码问题的高级理解，试验结果展示这个模型成功地生成了关键记录器、逻辑炸弹、混淆蠕虫和勒索软件等多个编码任务，其能力包括自我复制、自我修改、逃避检测，以及对复杂网络安全目标的战略理解，而令人惊讶的是，在没有图像输入的情况下，ChatGPT 还能够输出模糊或嵌入可执行程序步骤或链接的图像。

Dec, 2022