自然语言处理 Fine-tuning 方法中的记忆化

May, 2022

自然语言处理 Fine-tuning 方法中的记忆化

Memorization in NLP Fine-tuning Methods

Fatemehsadat Mireshghallah, Archit Uniyal, Tianhao Wang, David Evans, Taylor Berg-Kirkpatrick

TL;DR本论文通过成员推断和提取攻击实证研究了不同调参方法（如全模型微调、模型头微调和适配器微调）的记忆化风险，发现微调头部的风险最高，而微调较小的适配器则较不容易受到已知提取攻击的影响。

Abstract

large language models are shown to present privacy risks through memorization of training data, and several recent works have studied such risks for the pre-training phase. Little attention, however, has been giv

large language models privacy risks fine-tuning methods memorization risk extraction attacks

发现论文，激发创造

探索微调语言模型中的记忆化

本文研究了 LLMs 在 pre-training 和 fine-tuning 阶段的记忆化行为及其对隐私和版权的影响，并通过对不同任务的实验验证了 fine-tuned 记忆化在任务间的差异性，进一步提出了多任务 fine-tuning 作为缓解记忆化问题的潜在策略。

Oct, 2023

SoK: 降低 Fine-tuned 语言模型对成员推断攻击的脆弱性

自然语言处理模型在最近几年中经历了显著的提升，其上已建立了许多应用。然而，这些应用中许多需要在定制的专有数据集上对通用基础模型进行微调，这些微调数据往往含有个人或敏感信息，增加了隐私风险。本研究首次系统回顾了大型自然语言处理模型在成员推理攻击方面的脆弱性，整理了影响这种攻击脆弱性的各种因素以及不同防御策略的有效性。研究表明，某些训练方法能显著降低隐私风险，其中差分隐私和低秩适配器的组合在保护隐私方面效果最好。

Mar, 2024

大型语言模型上的用户推理攻击

研究表明，通过对用户数据进行细调的大型语言模型（LLMs）存在用户推测攻击的隐私风险，攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调，通过限制单个用户的细调样本数量可以减少攻击效果，但也会降低细调数据总量。

Oct, 2023

通过提示微调控制大型语言模型中已记忆数据的提取

本文采用提示调参的方法控制大型语言模型的记忆内容的提取率，通过基于 GPT-Neo 家族模型的公共基准测试，展示了我们的攻击和防御策略的有效性，实现了相对于基线的提取率增加和减少，最多可以相对于基线降低 97.7% 的提取率，附加的困惑度增加了 16.9%。

May, 2023

通过伪标记成员的微调增强训练数据曝光

通过对神经语言模型进行对抗性微调，以增强其对预训练数据的保留，本文介绍了一种新的攻击场景。通过使用伪标签进行生成文本的成员近似，我们证明了使用更高的成员概率进行微调能够使模型暴露训练数据增加四到八倍。

Feb, 2024

TMI！微调的模型从其预训练数据中泄露私人信息

使用细调模型的特征泄漏来进行成员推断攻击，并在视觉和自然语言任务中评估其效果。

Jun, 2023

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020

使用 OpenAI API 来微调 GPT-3 是否会泄露个人身份信息？

本研究使用 OpenAI 的 fine-tuning API 对 GPT-3 进行隐私攻击，以确定是否可以从该模型中提取出个人身份信息（PII）。发现在针对两种任务的 fine-tuning GPT-3 中，模型会记忆和泄露从底层 fine-tuning 数据集中获取的关键的个人身份信息。

Jul, 2023

语言模型防止机械背诵，误导隐私保障

通过 Bloom 过滤器与 ALL-CAPITAL text 跨越数据记忆的问题，阐述了训练数据的记忆问题与风险，并讨论了针对神经语言模型中数据记忆的潜在替代定义和本质难题。

Oct, 2022