基于查询的对抗性提示生成

Feb, 2024

Query-Based Adversarial Prompt Generation

Jonathan Hayase, Ema Borevkovic, Nicholas Carlini, Florian Tramèr, Milad Nasr

TL;DR通过使用具有 API 访问的远程语言模型构建具有更高概率发出有害字符串的对抗性示例，我们改进了之前的工作，并验证了我们的攻击在 GPT-3.5 和 OpenAI 的安全分类器上的有效性。

Abstract

Recent work has shown it is possible to construct adversarial examples that cause an aligned language model to emit harmful strings or perform harmful behavior. Existing attacks work either in the white-box setti

adversarial examples language model query-based attack api access safety classifier

发现论文，激发创造

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

本文探讨了最新的预训练语言模型（PLMs），包括 GPT-3 和 BERT，存在安全漏洞，使其容易受到对抗性攻击的影响，并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。

Sep, 2022

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

基于目标引导的生成式提示注入攻击大型语言模型

通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略（G2PIA），我们最大化纯文本和对抗文本之间的 KL 散度，从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的有效性。

Apr, 2024

揭示大型语言模型的安全漏洞

通过引入包含对抗例子（以问题形式）的独特数据集 AttaQ，本文评估了各种模型在其面前的脆弱性，并通过应用专业的聚类技术自动识别和命名脆弱的语义区域，以增强对模型弱点的评估，从而促进其安全机制和整体可靠性的有针对性改进。

Nov, 2023

无处不在的大型语言模型对动态对抗性问题生成的阻碍和加速

为了理解大型语言模型对敌对问题生成过程的影响，我们使用语言模型和检索模型丰富写作指导，提出新的衡量指标和激励机制，以提出好的、具有挑战性的问题，并展示了一个新的敌对问题数据集。

Jan, 2024

识别生成单词级对抗样本的人类策略

本研究分析了人类如何生成针对细调 Transformer 模型的自然性和语法正确性保持的词级对抗性示例，通过探索人类工作者在生成过程中的行为模式，我们识别出人类更喜欢选择哪些单词进行对抗替换以及何时何地进行替换。研究结果可用于启发利用人类策略制定更强大的自然语言处理模型。

Oct, 2022