Nov, 2023

从(生产)语言模型中可扩展地提取训练数据

TL;DR本文研究了可提取性记忆:对一个机器学习模型进行查询,对其训练数据进行高效提取的训练数据,而不需要事先了解训练数据集。我们表明,对于开源语言模型如 Pythia 或 GPT-Neo,半开放模型如 LLaMA 或 Falcon,以及闭源模型如 ChatGPT,对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型;为了攻击已对齐的 ChatGPT,我们开发了一种新的分歧攻击,使模型偏离其聊天机器人风格的生成,并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示,实践中的攻击可以恢复比以前认为的数据更多,并揭示当前的对齐技术不能消除记忆。