基于 DPP 的对抗性提示搜索用于语言模型

Mar, 2024

基于 DPP 的对抗性提示搜索用于语言模型

DPP-Based Adversarial Prompt Searching for Lanugage Models

Xu Zhang, Xiaojun Wan

TL;DR自动回归选择性替代提升（ASRA）是一种离散优化算法，基于优质性和决定性点过程（DPP）的相似性选择提示，以发现和修改预训练语言模型潜在的有害输出。实验结果表明，ASRA 在六种不同的预训练语言模型上有效地引发了有害内容，并显示出与目标输出的困惑程度之间的强相关性，而与模型参数数量的相关性有限。

Abstract

language models risk generating mindless and offensive content, which hinders their safe deployment. Therefore, it is crucial to discover and modify potential toxic outputs of pre-trained language models before d

language models toxic content pre-trained language models asra discrete optimization algorithm

发现论文，激发创造

只需一次提示：大型语言模型的提示学习能力对抗有害内容的能力探究

使用大型语言模型和提示学习方法解决有毒内容问题，特别关注有毒内容的分类、有毒区域检测和解毒化三个任务，通过广泛评估发现，与针对特定任务训练的模型相比，具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能，对于解毒化任务，提示学习方法成功降低了平均有毒度，同时保持语义含义。

Aug, 2023

使用生成式提示推断进行毒性检测

本文探讨零样本基于提示的毒性检测方法的生成变量，通过对提示工程的全面试验在三个社交媒体数据集上进行验证，并讨论了自诊断及其伦理影响的有趣方面。

May, 2022

基于查询的对抗性提示生成

通过使用具有 API 访问的远程语言模型构建具有更高概率发出有害字符串的对抗性示例，我们改进了之前的工作，并验证了我们的攻击在 GPT-3.5 和 OpenAI 的安全分类器上的有效性。

Feb, 2024

语言模型的敌对微调：一种用于生成和检测问题内容的迭代优化方法

使用对抗微调的新型双阶段优化技术解决大型语言模型中意外有害内容生成的挑战，并通过分类准确性评估方法展示了优化过程中，判断模型在具有挑战性的数据集上的性能提升。

Aug, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

评估语言模型中神经毒性退化的 RealToxicityPrompts

该研究通过创建 RealToxicityPrompts 数据集，使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力，指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。

Sep, 2020

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

LinkPrompt：基于提示的语言模型的自然且通用的对抗攻击

LinkPrompt 是一种通过基于梯度的波束搜索算法生成的自然的通用对抗触发器（UATs），能够有效地攻击目标预训练语言模型（PLMs）和基于提示的微调模型（PFMs）并保持触发器标记中的自然性。

Mar, 2024

PRSA：大型语言模型的提示反窃取攻击

通过分析输入 - 输出对的关键特征，在商业 LLM 中针对 prompt 反向窃取设计了一种新的攻击框架，名为 PRSA，从而构成了一个严重的潜在威胁。

Feb, 2024

通过有向表示优化的提示驱动的 LLM 保护

通过研究使用安全提示的大型语言模型的工作机制，本文发现安全提示可以在模型表示空间中明显区分有害和无害查询，从而提出了一种名为 Directed Representation Optimization (DRO) 的方法，通过优化安全提示，显著改善了模型的安全性能。

Jan, 2024