一份包含恶意内容的用于 LLMs 的中文 Prompt 攻击数据集

Sep, 2023

一份包含恶意内容的用于 LLMs 的中文 Prompt 攻击数据集

A Chinese Prompt Attack Dataset for LLMs with Evil Content

Chengyuan Liu, Fubang Zhao, Lizhi Qing, Yangyang Kang, Changlong Sun...

TL;DR我们介绍了一份针对大型语言模型的汉语 Prompt 攻击数据集（CPAD），我们的测试结果显示，我们的 Prompt 对语言模型具有显著的危害，攻击成功率约为 70％。我们将发布 CPAD 以鼓励对 Prompt 攻击和防御的进一步研究。

Abstract

large language models (LLMs) present significant priority in text understanding and generation. However, LLMs suffer from the risk of generating harmful contents especially while being employed to applications. There are several black-box attack methods, such as →

large language models prompt attack defense dataset chinese

发现论文，激发创造

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

PromptAttack：一种基于提示的语言模型梯度搜索攻击方法

本文提出一个恶意提示模板构造方法（PromptAttack）来探究预训练语言模型（PLMs）的安全性能。对三个数据集和三个 PLMs 进行广泛实验，证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验，验证了我们的方法在少量样本情境下也可以适用。

Sep, 2022

通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

基于困惑度度量和上下文信息的标记级对抗性提示检测

本文提出了一种基于令牌级别检测方法来识别对抗提示的方法，利用大型语言模型的能力来预测下一个令牌的概率，测量模型的困惑度并结合相邻令牌信息，以鼓励检测连续的对抗提示序列，提出了两种方法：一种将每个令牌识别为是否属于对抗提示的一部分，另一种估计每个令牌属于对抗提示的概率。

Nov, 2023

模型划图：评估对基于语言模型的编程助手的对抗攻击的影响

LLM-based 编程助手可以加快编程速度，但可能引入更多安全漏洞。我们介绍了恶意编程提示（MaPP）攻击，通过向编程任务的提示中添加少量文本（小于 500 字节），我们展示了我们的提示策略如何使 LLM 在编写其他正确代码的同时添加漏洞。我们在七个常见 LLM 上评估了三个提示，并使用 HumanEval 基准测试发现我们的提示在广泛范围内有效，不需要针对不同 LLM 进行定制化。此外，最适合 HumanEval 的 LLM 也最适合遵循我们的恶意指令，这表明简单扩展语言模型无法防止 MaPP 攻击。通过 16 种情景中八个 CWE 的数据集，我们发现 MaPP 攻击在各种模型上实施特定和有针对性的漏洞也是有效的。我们的工作强调了保护 LLM 提示免受操纵的需求，并且需要对借助 LLMs 生成的代码进行严格审计。

Jul, 2024

PoisonPrompt: 基于提示的大型语言模型的后门攻击

本文研究了基于提示的大语言模型存在的后门安全威胁，并提出了一种名为 POISONPROMPT 的新型后门攻击方法，实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性，该研究强调了进一步研究这一领域的重要性。

Oct, 2023

PromptBench：评估大型语言模型对对抗性提示的鲁棒性

本研究使用 adversarial prompts 对 Large Language Models 进行度量，并分析了 prompt 鲁棒性及其传递性，为 prompt 组合提供了实用性建议。

Jun, 2023

一种基于提示的对抗性样本生成和鲁棒性增强方法

本研究提出了一种基于 Prompt 的新型对抗攻击和提高自然语言处理模型的鲁棒性的技术，包括恶意 Prompt 构建、对抗样本生成和 Prompt-based 对抗训练方法，并实验验证了攻击成功率的高效性和鲁棒性提高方法的有效性。

Mar, 2022

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024