Oct, 2023

超越死记硬背:利用大型语言模型的推理违反隐私

TL;DR当前隐私研究主要集中在大型语言模型(LLM)提取训练数据的问题上。与此同时,模型的推论能力已大幅增强,这引发了一个关键问题:当前的 LLM 是否能通过推断来侵犯个人的隐私。在本研究中,我们提出了关于预训练 LLM 从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实 Reddit 个人资料组成的数据集,并展示出当前 LLM 能够推断广泛的个人属性(如地点、收入、性别),在成本(人类所需的 1%)和时间(人类所需的 2.4%)上达到了高达 85% 的 top-1 准确率和 95.8% 的 top-3 准确率。由于人们越来越多地与 LLM 驱动的聊天机器人进行各个方面的互动,我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后,我们证明了普遍采用的缓解措施,即文本匿名化和模型对齐,对于保护用户隐私免受 LLM 推断攻击是无效的。我们的研究结果表明,当前的 LLM 能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下,我们主张就 LLM 隐私影响展开更广泛的讨论,力求实现更广泛的隐私保护。