大型预训练语言模型是否泄露了你的个人信息？

EMNLPMay, 2022

大型预训练语言模型是否泄露了你的个人信息？

Are Large Pre-Trained Language Models Leaking Your Personal Information?

Jie Huang, Hanyin Shao, Kevin Chen-Chuan Chang

TL;DR本文分析了预训练语言模型（PLMs）是否容易泄漏个人信息，并发现这些模型确实由于记忆而泄漏个人信息。但由于这些模型在关联性方面较弱，因此攻击者提取特定个人信息的风险较低，希望这项工作能够帮助社区更好地了解 PLMs 的隐私风险，并为使 PLMs 更加安全带来新的见解。

Abstract

Are Large pre-trained language models Leaking Your personal information? In this paper, we analyze whether pre-trained language models (

pre-trained language models personal information memorization privacy risk plms

发现论文，激发创造

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023

预训练语言模型中的训练数据提取：综述

本研究首次对预训练语言模型（PLMs）的训练数据抽取问题进行综述，回顾预备知识并提出多种记忆定义的分类，总结攻击和防御方法，详细介绍几项定量研究的实证结果，并在此基础上提出未来的研究方向。

May, 2023

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

大型语言模型的关联能力量化及其对隐私泄露的影响

该研究探索了大型语言模型的关联能力，揭示了影响其关联信息能力的因素。研究发现随着模型规模的扩大，它们关联实体 / 信息的能力增强，但在关联常识知识与 PII 方面存在着明显的差距。这些发现强调了 LLM 对 PII 机密性的潜在威胁，特别是随着它们继续扩大规模和能力的过程中。

May, 2023

语言模型中的隐私风险识别与缓解：调查

通过对大规模语言模型的调查，本研究首次提供了关于语言模型隐私的技术综述，包括攻击与缓解策略的分类、现有攻击的趋势、现有缓解策略的强项与局限性，找出关键缺口并提出解决问题的方法与关切领域。

Sep, 2023

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

教授语言模型如何钓鱼：从中窃取私人信息

本文提出了一种名为 “神经钓鱼” 的新型实用数据提取攻击，可以使攻击者从基于用户数据训练的模型中目标和提取敏感或个人身份信息（PII），例如信用卡号码，攻击成功率高达 10%，有时甚至高达 50%。攻击方法仅需要攻击者将数十个看似良性的句子插入训练数据集，对用户数据的结构仅具有模糊的先验假设。

Mar, 2024

超越死记硬背：利用大型语言模型的推理违反隐私

当前隐私研究主要集中在大型语言模型（LLM）提取训练数据的问题上。与此同时，模型的推论能力已大幅增强，这引发了一个关键问题：当前的 LLM 是否能通过推断来侵犯个人的隐私。在本研究中，我们提出了关于预训练 LLM 从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实 Reddit 个人资料组成的数据集，并展示出当前 LLM 能够推断广泛的个人属性（如地点、收入、性别），在成本（人类所需的 1%）和时间（人类所需的 2.4%）上达到了高达 85% 的 top-1 准确率和 95.8% 的 top-3 准确率。由于人们越来越多地与 LLM 驱动的聊天机器人进行各个方面的互动，我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后，我们证明了普遍采用的缓解措施，即文本匿名化和模型对齐，对于保护用户隐私免受 LLM 推断攻击是无效的。我们的研究结果表明，当前的 LLM 能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下，我们主张就 LLM 隐私影响展开更广泛的讨论，力求实现更广泛的隐私保护。

Oct, 2023

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了 LLMs 发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023