大型预训练语言模型是否泄露了你的个人信息?
大型语言模型(LLMs)在隐私方面存在关注,因为它们会记忆训练数据(包括个人可识别信息(PII)如电子邮件和电话号码),并在推理过程中泄露。现有工作关注度较低,本研究表明精调模型不仅会泄露其训练数据,还会泄露在预训练阶段记忆的预训练数据(和 PII)。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取,给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论,并针对这些问题制定相应的政策。
Jul, 2023
利用特定域数据对大型语言模型进行微调时,存在个人身份信息敏感度的问题。为了解决这一挑战,我们引入了隐私保护语言模型(PPLM),通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析,并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是,正负样本指令微调成为一种有潜力的方法,可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。
Oct, 2023
本研究首次对预训练语言模型(PLMs)的训练数据抽取问题进行综述,回顾预备知识并提出多种记忆定义的分类,总结攻击和防御方法,详细介绍几项定量研究的实证结果,并在此基础上提出未来的研究方向。
May, 2023
本文调查了一系列流行模型中预训练表示所编码的个人信息的程度,并展示了模型越复杂和数据越多,可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估,结果表明,隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术(如差分隐私)可能会对模型效用产生严重影响,可以使用混合或度量隐私方法来解决。
Apr, 2022
该研究探索了大型语言模型的关联能力,揭示了影响其关联信息能力的因素。研究发现随着模型规模的扩大,它们关联实体 / 信息的能力增强,但在关联常识知识与 PII 方面存在着明显的差距。这些发现强调了 LLM 对 PII 机密性的潜在威胁,特别是随着它们继续扩大规模和能力的过程中。
May, 2023
通过对大规模语言模型的调查,本研究首次提供了关于语言模型隐私的技术综述,包括攻击与缓解策略的分类、现有攻击的趋势、现有缓解策略的强项与局限性,找出关键缺口并提出解决问题的方法与关切领域。
Sep, 2023
本文提出了一种名为 “神经钓鱼” 的新型实用数据提取攻击,可以使攻击者从基于用户数据训练的模型中目标和提取敏感或个人身份信息(PII),例如信用卡号码,攻击成功率高达 10%,有时甚至高达 50%。攻击方法仅需要攻击者将数十个看似良性的句子插入训练数据集,对用户数据的结构仅具有模糊的先验假设。
Mar, 2024
当前隐私研究主要集中在大型语言模型(LLM)提取训练数据的问题上。与此同时,模型的推论能力已大幅增强,这引发了一个关键问题:当前的 LLM 是否能通过推断来侵犯个人的隐私。在本研究中,我们提出了关于预训练 LLM 从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实 Reddit 个人资料组成的数据集,并展示出当前 LLM 能够推断广泛的个人属性(如地点、收入、性别),在成本(人类所需的 1%)和时间(人类所需的 2.4%)上达到了高达 85% 的 top-1 准确率和 95.8% 的 top-3 准确率。由于人们越来越多地与 LLM 驱动的聊天机器人进行各个方面的互动,我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后,我们证明了普遍采用的缓解措施,即文本匿名化和模型对齐,对于保护用户隐私免受 LLM 推断攻击是无效的。我们的研究结果表明,当前的 LLM 能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下,我们主张就 LLM 隐私影响展开更广泛的讨论,力求实现更广泛的隐私保护。
Oct, 2023
给出了当前针对大型语言模型(LLMs)的隐私攻击的全面分析,并对其进行了分类,同时提供了用于对抗这些隐私攻击的重要防御策略,并指出了 LLMs 发展中可能出现的新的隐私问题和未来的研究方向。
Oct, 2023