通过提示微调控制大型语言模型中已记忆数据的提取

ACLMay, 2023

通过提示微调控制大型语言模型中已记忆数据的提取

Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning

Mustafa Safa Ozdayi, Charith Peris, Jack FitzGerald, Christophe Dupuy, Jimit Majmudar...

TL;DR本文采用提示调参的方法控制大型语言模型的记忆内容的提取率，通过基于 GPT-Neo 家族模型的公共基准测试，展示了我们的攻击和防御策略的有效性，实现了相对于基线的提取率增加和减少，最多可以相对于基线降低 97.7% 的提取率，附加的困惑度增加了 16.9%。

Abstract

large language models (LLMs) are known to memorize significant portions of their training data. Parts of this memorized content have been shown to be extractable by simply querying the model, which poses a privacy risk<

large language models prompt-tuning privacy risk gpt-neo extraction rate

发现论文，激发创造

从（生产）语言模型中可扩展地提取训练数据

本文研究了可提取性记忆：对一个机器学习模型进行查询，对其训练数据进行高效提取的训练数据，而不需要事先了解训练数据集。我们表明，对于开源语言模型如 Pythia 或 GPT-Neo，半开放模型如 LLaMA 或 Falcon，以及闭源模型如 ChatGPT，对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型；为了攻击已对齐的 ChatGPT，我们开发了一种新的分歧攻击，使模型偏离其聊天机器人风格的生成，并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示，实践中的攻击可以恢复比以前认为的数据更多，并揭示当前的对齐技术不能消除记忆。

Nov, 2023

插入并玩：一种控制文本生成的提示调整方法

利用小型语言模型进行 Prompt 调整，使用提示嵌入对生成文本进行控制，验证其在情感分析、正式度和有害语言领域的有效性。

Apr, 2024

模型调整还是提示调整？针对临床概念和关系提取的大型语言模型研究

开发用于大型语言模型的软提示学习算法，研究词干的形状、使用冻结 / 非冻结语言模型进行文字调优、迁移学习和少样本学习的能力。

Oct, 2023

使用 Prompt Tuning 对生成式口语模型进行探索，以处理语音处理任务

本研究首次探讨了基于生成式口语语言模型 (GSLM) 的提示调整范式用于语音处理任务，实验结果表明，与下游精细调整模型相比，提示调整技术使用的可调参数更少，在语音分类任务中实现了较高性能。

Mar, 2022

大规模语言模型的提示窃取攻击

我们提出了一种名为 prompt stealing attacks 的新攻击，该攻击旨在基于生成的答案窃取设计良好的 prompt，通过参数提取器和提示重构器实现，实验结果表明攻击的卓越性能，进一步引发关于大型语言模型安全问题的关注。