超越死记硬背：利用大型语言模型的推理违反隐私

Oct, 2023

超越死记硬背：利用大型语言模型的推理违反隐私

Beyond Memorization: Violating Privacy Via Inference with Large Language Models

Robin Staab, Mark Vero, Mislav Balunović, Martin Vechev

TL;DR当前隐私研究主要集中在大型语言模型（LLM）提取训练数据的问题上。与此同时，模型的推论能力已大幅增强，这引发了一个关键问题：当前的LLM是否能通过推断来侵犯个人的隐私。在本研究中，我们提出了关于预训练LLM从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实Reddit个人资料组成的数据集，并展示出当前LLM能够推断广泛的个人属性（如地点、收入、性别），在成本（人类所需的1%）和时间（人类所需的2.4%）上达到了高达85%的top-1准确率和95.8%的top-3准确率。由于人们越来越多地与LLM驱动的聊天机器人进行各个方面的互动，我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后，我们证明了普遍采用的缓解措施，即文本匿名化和模型对齐，对于保护用户隐私免受LLM推断攻击是无效的。我们的研究结果表明，当前的LLM能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下，我们主张就LLM隐私影响展开更广泛的讨论，力求实现更广泛的隐私保护。

Abstract

Current privacy research on large language models (LLMs) primarily focuses on the issue of extracting memorized training data. At the same time, models' →