大型语言模型上的用户推理攻击
当前隐私研究主要集中在大型语言模型(LLM)提取训练数据的问题上。与此同时,模型的推论能力已大幅增强,这引发了一个关键问题:当前的LLM是否能通过推断来侵犯个人的隐私。在本研究中,我们提出了关于预训练LLM从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实Reddit个人资料组成的数据集,并展示出当前LLM能够推断广泛的个人属性(如地点、收入、性别),在成本(人类所需的1%)和时间(人类所需的2.4%)上达到了高达85%的top-1准确率和95.8%的top-3准确率。由于人们越来越多地与LLM驱动的聊天机器人进行各个方面的互动,我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后,我们证明了普遍采用的缓解措施,即文本匿名化和模型对齐,对于保护用户隐私免受LLM推断攻击是无效的。我们的研究结果表明,当前的LLM能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下,我们主张就LLM隐私影响展开更广泛的讨论,力求实现更广泛的隐私保护。
Oct, 2023
给出了当前针对大型语言模型(LLMs)的隐私攻击的全面分析,并对其进行了分类,同时提供了用于对抗这些隐私攻击的重要防御策略,并指出了LLMs发展中可能出现的新的隐私问题和未来的研究方向。
Oct, 2023
基于自校准概率变异的成员推断攻击(SPV-MIA)提出了一种新的对严格微调但无过拟合和隐私保护的LLMs泄露隐私的成员推断攻击方法。
Nov, 2023
本研究对开源大型语言模型的隐私攻击进行了系统研究,提出了威胁预训练和微调模型的成员推断攻击方法,并展示了近乎完美的攻击效果,强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。
Feb, 2024
自然语言处理模型在最近几年中经历了显著的提升,其上已建立了许多应用。然而,这些应用中许多需要在定制的专有数据集上对通用基础模型进行微调,这些微调数据往往含有个人或敏感信息,增加了隐私风险。本研究首次系统回顾了大型自然语言处理模型在成员推理攻击方面的脆弱性,整理了影响这种攻击脆弱性的各种因素以及不同防御策略的有效性。研究表明,某些训练方法能显著降低隐私风险,其中差分隐私和低秩适配器的组合在保护隐私方面效果最好。
Mar, 2024
利用用户级差分隐私(DP)进行训练大型语言模型(LLMs)的实用和可扩展算法研究,以可证明地保护每个用户贡献的所有示例;通过实验在固定计算预算下验证结果,发现当需要较高的隐私保证或计算预算较大时,用户级抽样和用户级梯度剪切(ULS)通常能提供更好的结果。
Jul, 2024
本研究解决了在私人数据上微调大型语言模型时可能带来的隐私风险。我们提出了一种新颖的攻击方法——模型遗忘技术,利用这一技术提升了隐私数据泄露的可能性,并在验证中显示出显著优于基线的效果。这项研究警示用户下载未经验证的预训练模型时可能面临的风险。
Aug, 2024
本研究解决了上下文学习在适应大型语言模型(LLM)时面临的隐私攻击漏洞问题。我们提出了首个专门针对上下文学习的成员推断攻击方法,结果表明,相比现有的基于概率的攻击,我们的攻击在大多数情况下能准确判断成员状态,准确率可达95%。此外,我们还探讨了组合防御策略以增强隐私保护的可能性。
Sep, 2024
本研究针对监督微调过程中存在的敏感数据和隐私泄漏风险,提出了一种新的主动隐私审计框架“Parsing”,旨在识别和量化隐私泄漏风险。通过改进的白盒会员推断攻击方法,该框架提高了对大型语言模型(如GPT-2和Llama2)的隐私审计效果,为监督微调领域提供了可靠的隐私保护工具。
Nov, 2024
本研究针对监督微调中的隐私泄露风险开展,特别是微调数据的敏感性和可识别性引发的隐私问题。提出了一种名为Parsing的主动隐私审计框架,通过改进的白盒成员推断攻击来监测微调过程中的隐私风险,提供了有效的工具以支持语言模型的隐私保护。实验结果表明该框架在多个模型和任务中均表现出明显的隐私关切。
Nov, 2024