使用困惑度检测语言模型攻击

Aug, 2023

Detecting Language Model Attacks with Perplexity

Gabriel Alon, Michael Kamfonas

TL;DR利用大型语言模型（LLMs）伪造对抗性后缀的新型黑客攻击方法，通过迷惑模型来生成危险回复。我们提倡使用困扰度作为一种识别潜在攻击方法的手段，以避免生成禁止回复。通过对使用和不使用对抗性后缀的查询进行困扰度评估，我们发现近 90% 的查询困扰度都超过 1000，这凸显了困扰度在检测此类攻击上的有效性。

Abstract

A novel hack involving large language models (LLMs) has emerged, leveraging adversarial suffixes to trick models into generating perilous responses. This method has garnered considerable attention from reputable

large language models adversarial suffixes perplexity security detecting exploits

发现论文，激发创造

基于困惑度度量和上下文信息的标记级对抗性提示检测

本文提出了一种基于令牌级别检测方法来识别对抗提示的方法，利用大型语言模型的能力来预测下一个令牌的概率，测量模型的困惑度并结合相邻令牌信息，以鼓励检测连续的对抗提示序列，提出了两种方法：一种将每个令牌识别为是否属于对抗提示的一部分，另一种估计每个令牌属于对抗提示的概率。

Nov, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

大规模语言模型的对抗性搜索引擎优化

大语言模型（LLM）被越来越多地应用于模型在选择竞争的第三方内容方面，比如 LLM 驱动的搜索引擎或聊天机器人插件。本文介绍了一种新的攻击类型 —— 偏好操纵攻击，可以通过精心编写的网站内容或插件文档来误导 LLM 以提升攻击者产品的地位并贬低竞争对手，从而增加用户流量和变现。我们展示了这种攻击导致囚徒困境，其中所有各方都有动机发动攻击，但是整体效果会降低 LLM 的输出质量。我们在生产环境的 LLM 搜索引擎（Bing 和 Perplexity）以及插件 API（用于 GPT-4 和 Claude）上演示了我们的攻击。随着 LLM 被越来越多地用于排列第三方内容，我们预计偏好操纵攻击将成为一个重大威胁。

Jun, 2024

对大规模语言模型的对抗欺骗攻击效率

使用五种不同的大型语言模型（LLMs）进行情感分类任务时，针对三种不同类型的对抗攻击，该研究分析了攻击的有效性、效率和实用性，发现词级攻击更有效，而字符级攻击则更实用且所需的改动和查询数量较少，因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。

Jun, 2024

由噪音到清晰：通过文本嵌入的翻译解开大型语言模型攻击的对抗后缀

提出了一种能够将不可读的对抗性后缀转化为连贯可读文本的对抗性后缀嵌入翻译框架（ASETF），该方法在攻击成功率和提示文本的流畅性方面明显优于现有技术，并且可以推广为一种生成可成功攻击多种语言模型的可转移对抗性后缀的更广泛方法。

Feb, 2024

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

大规模语言模型应用的词汇攻击

使用来自攻击模型的嵌入和优化过程插入模型词汇，我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5，并显示了我们的方法具有不易被察觉的特点，且仅需插入单个词汇即可进行攻击，我们还证明可以使用不同于目标模型的模型进行攻击。

Apr, 2024

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023