大型语言模型引导的嵌入的隐私风险理解

Apr, 2024

大型语言模型引导的嵌入的隐私风险理解

Understanding Privacy Risks of Embeddings Induced by Large Language Models

Zhihao Zhu, Ninglu Shao, Defu Lian, Chenwang Wu, Zheng Liu...

TL;DR这篇论文探讨了大型语言模型在提高检索式生成任务准确度方面的有效性，发现大型语言模型相较于传统的预训练模型具有更高的潜在危险性，可能对用户隐私造成负面影响，并探讨了缓解这一风险的初步策略。

Abstract

large language models (LLMs) show early signs of artificial general intelligence but struggle with hallucinations. One promising solution to mitigate these →

large language models hallucinations privacy retrieval-augmented generation user privacy

发现论文，激发创造

大型语言模型中的嵌入信息泄漏

该研究探讨了大型语言模型在数据隐私方面引发的关切，并研究了恶意模型提供者通过输入重建攻击来侵犯隐私的潜力。研究提出了两种基础方法以重建模型隐藏状态中的原始文本，并介绍了一种基于 Transformer 的方法以重建深层嵌入的输入。研究发现 Embed Parrot 在从 ChatGLM-6B 和 Llama2-7B 的隐藏状态中重建原始输入方面表现良好，并提出了一种防御机制以阻止嵌入重建过程的滥用。研究结果强调在分布式学习系统中保护用户隐私的重要性，并为增强此类环境中的安全协议提供了有价值的见解。

May, 2024

学习何时（不）信任语言模型：一个以隐私为中心的自适应模型感知方法

基于检索增强的大型语言模型在各种 NLP 任务中取得了显着的成功。然而，检索过程提供的知识并不总是有助于提高模型的预测能力。为了节省检索成本，先前的工作通过分析语言模型的预训练数据来决定何时执行 / 跳过检索。然而，这些面向数据的方法存在隐私风险和内存限制问题。本文提出基于标记嵌入的模型感知方法，以更安全直接的方式判断是否需要执行检索，同时避免访问预训练数据所带来的隐私风险，并简化了模型预训练过程中数据的保存要求。大量实验证明了我们的模型感知方法的优越性。

Apr, 2024

超越死记硬背：利用大型语言模型的推理违反隐私

当前隐私研究主要集中在大型语言模型（LLM）提取训练数据的问题上。与此同时，模型的推论能力已大幅增强，这引发了一个关键问题：当前的 LLM 是否能通过推断来侵犯个人的隐私。在本研究中，我们提出了关于预训练 LLM 从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实 Reddit 个人资料组成的数据集，并展示出当前 LLM 能够推断广泛的个人属性（如地点、收入、性别），在成本（人类所需的 1%）和时间（人类所需的 2.4%）上达到了高达 85% 的 top-1 准确率和 95.8% 的 top-3 准确率。由于人们越来越多地与 LLM 驱动的聊天机器人进行各个方面的互动，我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后，我们证明了普遍采用的缓解措施，即文本匿名化和模型对齐，对于保护用户隐私免受 LLM 推断攻击是无效的。我们的研究结果表明，当前的 LLM 能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下，我们主张就 LLM 隐私影响展开更广泛的讨论，力求实现更广泛的隐私保护。

Oct, 2023

增强 LLMs 与知识：关于幻觉防止的调查

将预训练语言模型与外部知识源相结合，可以增强其上下文处理能力，克服传统语言模型的问题，如错觉、无依据的回答和可拓展性挑战。

Sep, 2023

将大型语言模型嵌入扩展现实：包容、参与和隐私的机遇与挑战

利用大型语言模型将其嵌入虚拟化身或以其作为叙述形式，可通过根据用户配置文件进行提示工程和为特定目的进行微调，促进 XR 的更包容性体验，并通过与用户进行对话来增强 XR 环境的互动性，但需要研究隐私侵犯问题以及用户的隐私关注和偏好。

Feb, 2024

检索式语言模型的隐私影响

本文研究检测基于 k 最近邻的检索型语言模型对隐私的风险，探索隐私安全的最佳设计和培训程序以在效用和隐私之间取得平衡，并提供了隐私风险缓解策略。

May, 2023

利用大型语言模型揭秘嵌入空间

利用大型语言模型将嵌入向量转化为可理解的叙述，解决了嵌入向量难于解释和使用的问题，增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。