检索式语言模型的隐私影响

May, 2023

Privacy Implications of Retrieval-Based Language Models

Yangsibo Huang, Samyak Gupta, Zexuan Zhong, Kai Li, Danqi Chen

TL;DR本文研究检测基于 k 最近邻的检索型语言模型对隐私的风险，探索隐私安全的最佳设计和培训程序以在效用和隐私之间取得平衡，并提供了隐私风险缓解策略。

Abstract

retrieval-based language models (LMs) have demonstrated improved interpretability, factuality, and adaptability compared to their parametric counterparts, by incorporating retrieved text from external datastores. While it is well known that parametric models are prone to leaking privat

retrieval-based language models privacy risks $k$nn-lms utility-privacy trade-off mitigations

发现论文，激发创造

学习何时（不）信任语言模型：一个以隐私为中心的自适应模型感知方法

基于检索增强的大型语言模型在各种 NLP 任务中取得了显着的成功。然而，检索过程提供的知识并不总是有助于提高模型的预测能力。为了节省检索成本，先前的工作通过分析语言模型的预训练数据来决定何时执行 / 跳过检索。然而，这些面向数据的方法存在隐私风险和内存限制问题。本文提出基于标记嵌入的模型感知方法，以更安全直接的方式判断是否需要执行检索，同时避免访问预训练数据所带来的隐私风险，并简化了模型预训练过程中数据的保存要求。大量实验证明了我们的模型感知方法的优越性。

Apr, 2024

邻居非自选：关于 $k$NN-LM 中如何选择何时依赖检索

研究了基于检索增强的语言模型中 $k$NN-LM 中检索文本的词汇和语义匹配对于性能的影响，并通过使用检索结果质量确定插值系数的新表述，成功地提高了英文语言建模数据集 Wikitext-103 和 PG-19 中的困惑度近 4%。

Oct, 2022

大型语言模型引导的嵌入的隐私风险理解

这篇论文探讨了大型语言模型在提高检索式生成任务准确度方面的有效性，发现大型语言模型相较于传统的预训练模型具有更高的潜在危险性，可能对用户隐私造成负面影响，并探讨了缓解这一风险的初步策略。

Apr, 2024

语言模型中的隐私风险识别与缓解：调查

通过对大规模语言模型的调查，本研究首次提供了关于语言模型隐私的技术综述，包括攻击与缓解策略的分类、现有攻击的趋势、现有缓解策略的强项与局限性，找出关键缺口并提出解决问题的方法与关切领域。

Sep, 2023

论检索增强和语言模型训练的局限性

这项研究探讨了将 kNN 检索应用于 GPT-2 117M 等传统语言模型中，以提高性能，证实了通过这种方法可以降低困惑度，并解释了这一现象的潜在原因。

Nov, 2023

大型语言模型的知识清洗

我们探索了一种知识消毒方法，用于减轻与大型语言模型（LLMs）相关的隐私问题。我们的方法通过微调模型，在查询特定信息时，促使其生成无害回答，如 “我不知道”。实验证实，我们的简单方法不仅最小化了特定知识泄漏，还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御，并减少了产生幻觉等有害内容的排放。

Sep, 2023

可靠、适应性强、可归因的检索式语言模型

通过在推理过程中引入大规模数据存储，检索增强的语言模型（retrieval-augmented LMs）可以更可靠、适应性更强且更具可追溯性，然而目前在超越知识密集型任务（如问答）以外的领域，检索增强的语言模型尚未被广泛采用，这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。

Mar, 2024

高效的最近邻语言模型

本文探讨了如何提高非参数神经语言模型的效率，实验表明我们的方法能够在保持性能相当的情况下提高 6 倍的推理速度，为以后开发或部署更有效的非参数神经语言模型提供指南。

Sep, 2021

超越死记硬背：利用大型语言模型的推理违反隐私

当前隐私研究主要集中在大型语言模型（LLM）提取训练数据的问题上。与此同时，模型的推论能力已大幅增强，这引发了一个关键问题：当前的 LLM 是否能通过推断来侵犯个人的隐私。在本研究中，我们提出了关于预训练 LLM 从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实 Reddit 个人资料组成的数据集，并展示出当前 LLM 能够推断广泛的个人属性（如地点、收入、性别），在成本（人类所需的 1%）和时间（人类所需的 2.4%）上达到了高达 85% 的 top-1 准确率和 95.8% 的 top-3 准确率。由于人们越来越多地与 LLM 驱动的聊天机器人进行各个方面的互动，我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后，我们证明了普遍采用的缓解措施，即文本匿名化和模型对齐，对于保护用户隐私免受 LLM 推断攻击是无效的。我们的研究结果表明，当前的 LLM 能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下，我们主张就 LLM 隐私影响展开更广泛的讨论，力求实现更广泛的隐私保护。

Oct, 2023

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022