利用大型语言模型从隐私保护掩码中恢复
近期在隐私研究中,大型语言模型在推断真实世界在线文本中的个人数据方面已经达到接近人类水平的性能。在存在不断增长的模型能力的同时,现有的文本匿名化方法目前无法满足监管要求和对抗威胁。这引发了一个问题,即个人如何能够有效地在分享在线文本时保护自己的个人数据。本研究分两步回答这个问题:首先,我们提出了一个新的环境,在对抗性大型语言模型推理的情况下评估匿名化性能,从而在纠正以前的指标缺陷的同时,实现对匿名化性能的自然度量。然后,我们提出了基于大型语言模型的对抗性匿名化框架,利用大型语言模型的强大推理能力来指导我们的匿名化过程。在我们的实验评估中,我们展示了在真实世界和合成在线文本中,对抗性匿名化在结果效用和隐私方面均优于目前的工业级匿名化工具。
Feb, 2024
利用特定域数据对大型语言模型进行微调时,存在个人身份信息敏感度的问题。为了解决这一挑战,我们引入了隐私保护语言模型(PPLM),通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析,并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是,正负样本指令微调成为一种有潜力的方法,可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。
Oct, 2023
给出了当前针对大型语言模型(LLMs)的隐私攻击的全面分析,并对其进行了分类,同时提供了用于对抗这些隐私攻击的重要防御策略,并指出了 LLMs 发展中可能出现的新的隐私问题和未来的研究方向。
Oct, 2023
本文调查了一系列流行模型中预训练表示所编码的个人信息的程度,并展示了模型越复杂和数据越多,可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估,结果表明,隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术(如差分隐私)可能会对模型效用产生严重影响,可以使用混合或度量隐私方法来解决。
Apr, 2022
本文阐述了利用不同隐私保护训练配置扩大自监督学习 Transformer 模型的规模,提供 Domain Adaptation 和 Privacy Protection,实现在法律领域 NLP 下的无监督超大规模训练的技术,这在之前尚未得到解决。
Nov, 2022
当前隐私研究主要集中在大型语言模型(LLM)提取训练数据的问题上。与此同时,模型的推论能力已大幅增强,这引发了一个关键问题:当前的 LLM 是否能通过推断来侵犯个人的隐私。在本研究中,我们提出了关于预训练 LLM 从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实 Reddit 个人资料组成的数据集,并展示出当前 LLM 能够推断广泛的个人属性(如地点、收入、性别),在成本(人类所需的 1%)和时间(人类所需的 2.4%)上达到了高达 85% 的 top-1 准确率和 95.8% 的 top-3 准确率。由于人们越来越多地与 LLM 驱动的聊天机器人进行各个方面的互动,我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后,我们证明了普遍采用的缓解措施,即文本匿名化和模型对齐,对于保护用户隐私免受 LLM 推断攻击是无效的。我们的研究结果表明,当前的 LLM 能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下,我们主张就 LLM 隐私影响展开更广泛的讨论,力求实现更广泛的隐私保护。
Oct, 2023
本文讨论保护自然语言隐私的技术是否足够广泛,提出现有数据保护方法不能为语言模型提供通用且有意义的隐私保护,因此应基于明确为公共使用的文本数据对语言模型进行训练。
Feb, 2022