羊驼对抗维昆纳：利用 LLMs 揭示 LLMs 的记忆

Mar, 2024

羊驼对抗维昆纳：利用 LLMs 揭示 LLMs 的记忆

Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs

Aly M. Kassem, Omar Mahmoud, Niloofar Mireshghallah, Hyunwoo Kim, Yulia Tsvetkov...

TL;DR我们介绍了一种黑盒提示优化方法，利用攻击者 LLM 代理来揭示受害者代理中比直接使用训练数据作为提示目标模型所揭示的更高水平的记忆，我们使用迭代的拒绝抽样优化过程来找到具有两个主要特征的基于指令的提示，即 (1) 最小程度地与训练数据重叠，以避免直接向模型呈现解决方案；(2) 最大化受害模型输出与训练数据的重叠，旨在诱使受害模型输出训练数据，我们观察到，与基于前缀 - 后缀测量的基准相比，我们的基于指令的提示生成的输出与训练数据重叠度更高达 23.7%，我们的发现表明，(1) 基于指令的模型可以暴露出与其基础模型一样多的预训练数据，甚至更多；(2) 原始训练数据之外的上下文可以导致信息泄漏；(3) 使用其他 LLM 提出的指令可能会开辟一种新的自动攻击的途径，需要进一步研究和探索。代码可以在此 URL 找到。

Abstract

In this paper, we introduce a black-box prompt optimization method that uses an attacker LLM agent to uncover higher levels of memorization in a victim agent, compared to what is revealed by prompting the target

black-box prompt optimization memorization instruction-based prompts pre-training data automated attacks

发现论文，激发创造

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

LLM 亲境召回取决于提示

通过使用 needle-in-a-haystack 方法分析各种大型语言模型的上下文召回性能，我们的研究表明模型的成功检索能力不仅取决于提示内容，而且还可能受到训练数据中的偏见的影响。相反，通过对模型架构、训练策略或微调进行调整可以提高性能，我们的分析揭示了关于大型语言模型行为的见解，为开发更有效的应用提供了指导。

Apr, 2024

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

研究多轮 LLM 交互的提示泄露效应和黑盒防御

对大型语言模型（LLMs）中的提示泄漏进行了研究，发现在多轮 LLM 交互中存在漏洞和泄漏，并提出了防御策略。

Apr, 2024

压缩后即提示：通过可转移提示提高 LLM 推理的准确性和效率平衡

本文介绍了一种新的压缩大型语言模型（LLM）的方法：通过使用精确的提示信息作为输入来提高压缩模型的预测准确性，以平衡其准确性和效率。研究表明，压缩 LLMs 通过这种提示学习方法能够匹配或超过原模型的准确性，这为 LLMs 的推断和扩展提供了新的可能性。

May, 2023

研究 LLM 对数学问题的鲁棒性

提出了一种提示框架，通过添加无关的变量生成数学应用问题的对抗性变体，用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明，对抗性训练实例的微调提高了对抗性数学应用问题的性能，并提高了识别相关数据进行推理的能力。然而，大型语言模型在面对对抗性信息时仍然存在困难，导致性能下降。

May, 2024

指令层次结构：训练 LLMs 优先处理特权指令

今天的 LLMs 容易受到即时注入、越狱和其他攻击的影响，使得恶意提示可以覆盖模型的初始指令。本文提出一种指令层次结构，明确定义了在不同优先级指令冲突时模型应该如何行为，并提出了一种数据生成方法来展示这种层次指令遵循行为，教导 LLMs 有选择性地忽略低权限指令。我们将这种方法应用于 GPT-3.5 上，展示它显著增加了鲁棒性，甚至对训练期间未见的攻击类型，同时对标准能力的降低影响很小。

Apr, 2024

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024

LLMLingua：压缩大型语言模型推理加速的提示

LLMLingua 是一种粗粒度到细粒度的提示压缩方法，利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法，实现高压缩率下语义完整性的维持，有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明，该方法在性能上达到了最先进的水平，并且能够在保证性能损失很小的情况下进行高达 20 倍的压缩。

Oct, 2023