文本分类中的隐私泄露问题:一种数据提取方法
本文旨在通过研究和基准测试改进训练数据提取的技巧,提出了一种改进的训练数据提取算法,并基于 GPT-Neo 1.3B 对算法进行了评估,实验结果表明,该算法在大多数情况下优于基线模型。
Feb, 2023
通过文本操作的水平,我们研究了使用语言模型作为远程服务时可能避免数据暴露的前景。我们聚焦于文本分类模型,检查各种令牌映射和上下文操作函数,以确定在保持原始文本不可恢复的同时能否保持分类器准确性。我们发现,尽管有些令牌映射函数容易实现,但它们对下游任务的性能有很大影响,并且通过一个复杂的攻击者可以重建。相比之下,上下文操作提供了性能的改进。
Jul, 2024
大型语言模型(LLMs)在隐私方面存在关注,因为它们会记忆训练数据(包括个人可识别信息(PII)如电子邮件和电话号码),并在推理过程中泄露。现有工作关注度较低,本研究表明精调模型不仅会泄露其训练数据,还会泄露在预训练阶段记忆的预训练数据(和 PII)。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取,给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论,并针对这些问题制定相应的政策。
Jul, 2023
该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响,重现了重复次数对记忆序列遗忘概率的对数标度关系,并发现即使没有后续接触,经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上,这对数据隐私具有挑战性。为此,我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。
Jun, 2024
本研究首次对预训练语言模型(PLMs)的训练数据抽取问题进行综述,回顾预备知识并提出多种记忆定义的分类,总结攻击和防御方法,详细介绍几项定量研究的实证结果,并在此基础上提出未来的研究方向。
May, 2023
本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾,由此提出了一种通过查询语言模型进行训练数据提取的攻击方法,并以 GPT-2 为例证,能够成功地提取训练数据中的个人信息、代码等敏感信息,这也提示着训练数据的隐私和安全问题,需要进一步的技术防范措施。
Dec, 2020
本文研究了可提取性记忆:对一个机器学习模型进行查询,对其训练数据进行高效提取的训练数据,而不需要事先了解训练数据集。我们表明,对于开源语言模型如 Pythia 或 GPT-Neo,半开放模型如 LLaMA 或 Falcon,以及闭源模型如 ChatGPT,对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型;为了攻击已对齐的 ChatGPT,我们开发了一种新的分歧攻击,使模型偏离其聊天机器人风格的生成,并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示,实践中的攻击可以恢复比以前认为的数据更多,并揭示当前的对齐技术不能消除记忆。
Nov, 2023
本文提出了一种名为 Mix And Match 的新型有针对性数据重构攻击,强调了考虑分类模型中的数据重构攻击与隐私风险的重要性,并提供了有关可能泄漏的见解。
Jun, 2023
利用对语言模型的脆弱性,我们从对抗性的角度重新审视了提取攻击,发现即使对提示进行微小、不符合直觉的更改,或者针对较小的模型和旧的检查点,也可以将提取风险增加 2-4 倍。此外,仅依赖广泛接受的逐字匹配低估了提取信息的真实范围,我们提供了其他准确捕捉提取风险的方法。我们总结了数据去重,这是一种常见的缓解策略,并发现它虽然解决了一些记忆问题,但仍对真实的对手提取风险的升级具有脆弱性。我们的发现凸显了认识对手的真实能力以避免低估提取风险的必要性。
Jul, 2024