LLM 是否能保守秘密？通过上下文完整理论测试语言模型的隐私影响

Oct, 2023

LLM 是否能保守秘密？通过上下文完整理论测试语言模型的隐私影响

Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory

Niloofar Mireshghallah, Hyunwoo Kim, Xuhui Zhou, Yulia Tsvetkov, Maarten Sap...

TL;DR通过提出 ConfAIde 基准测试，我们的实验结果表明即使在使用了隐私保护提示或思维链推理后，如 GPT-4 和 ChatGPT 这样的最先进模型仍然有 39% 和 57% 的概率在具体情境中泄露私人信息，这凸显了探索基于推理和心智理论的新型推理时隐私保护方法的迫切需要。

Abstract

The interactive use of large language models (LLMs) in AI assistants (at work, home, etc.) introduces a new set of inference-time privacy risks: LLMs are fed different types of information from multiple sources i

large language models inference-time privacy risks confaide contextual privacy inference-time privacy-preserving approaches

发现论文，激发创造

超越死记硬背：利用大型语言模型的推理违反隐私

当前隐私研究主要集中在大型语言模型（LLM）提取训练数据的问题上。与此同时，模型的推论能力已大幅增强，这引发了一个关键问题：当前的 LLM 是否能通过推断来侵犯个人的隐私。在本研究中，我们提出了关于预训练 LLM 从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实 Reddit 个人资料组成的数据集，并展示出当前 LLM 能够推断广泛的个人属性（如地点、收入、性别），在成本（人类所需的 1%）和时间（人类所需的 2.4%）上达到了高达 85% 的 top-1 准确率和 95.8% 的 top-3 准确率。由于人们越来越多地与 LLM 驱动的聊天机器人进行各个方面的互动，我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后，我们证明了普遍采用的缓解措施，即文本匿名化和模型对齐，对于保护用户隐私免受 LLM 推断攻击是无效的。我们的研究结果表明，当前的 LLM 能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下，我们主张就 LLM 隐私影响展开更广泛的讨论，力求实现更广泛的隐私保护。

Oct, 2023

ChatGPT 多步越狱隐私攻击

本研究探讨了 OpenAI 和 New Bing API 应用中集成的大型语言模型对隐私的威胁，通过实验支持了对应用集成的 LLM 可能带来比以前更严重的隐私威胁的观点。

Apr, 2023

机器中的低语：LLM 整合系统中的保密性

本文提出了一种系统评估 LLM 集成系统中机密性的方法，通过形式化 “秘密密钥” 游戏来比较模型的脆弱性和不同防御策略的有效性，发现当前的防御策略在攻击策略方面缺乏泛化能力，并提出了一种受对抗训练启发的鲁棒性微调方法，有效降低了攻击成功率并提高了系统对未知攻击的弹性。

Feb, 2024

大语言模型时代的以人为中心的隐私研究

基于大型语言模型的系统，在用户隐私方面存在问题，需要更多关注人类隐私问题的研究，包括设计范例对用户的行为披露、用户心智模型和隐私控制偏好的影响，以及赋予终端用户对个人数据的拥有权的工具设计，在此基础上构建可用、高效、具有隐私友好性质的系统。本文旨在启动关于人类隐私问题研究的讨论，为基于大型语言模型的系统中的隐私问题制定议程。

Feb, 2024

基于自然语言的 LLMs 上下文建模与推理：教程

利用大型语言模型，我们展示了利用文本、提示和自主代理让模型进行上下文建模和推理的计算范式，即基于大型语言模型驱动的上下文感知计算。

Sep, 2023

大型语言模型的关联能力量化及其对隐私泄露的影响

该研究探索了大型语言模型的关联能力，揭示了影响其关联信息能力的因素。研究发现随着模型规模的扩大，它们关联实体 / 信息的能力增强，但在关联常识知识与 PII 方面存在着明显的差距。这些发现强调了 LLM 对 PII 机密性的潜在威胁，特别是随着它们继续扩大规模和能力的过程中。

May, 2023

对基于 LLM 的对话代理使用者在披露风险和好处上的导航方式进行研究

建立尊重用户隐私的伦理性大型语言模型对话代理 (LLM-CA) 需要深入了解用户最关心的隐私风险，并解决用户隐私、效用和便利之间的权衡问题。研究发现，用户在使用 LLM-CA 时面临隐私、效用和便利之间的不断选择，但用户对隐私风险的认知受到错误的心理模型和系统设计中的黑暗模式的限制。为了保护 LLM-CA 用户的隐私，我们讨论了实际设计指南和范式转移的需求。

Sep, 2023

大型语言模型的上下文注入攻击

通过在聊天系统中引入虚构的上下文，利用大型语言模型中的错误分类和上下文混淆的问题，可以进行上下文注入攻击，破坏实时交互的大型语言模型的安全性。研究发现了进行上下文注入攻击的策略并验证了其高成功率，同时提出了攻击检测和开发更安全模型的可能对策。

May, 2024

大型语言模型（LLM）安全与隐私调查：优点、缺点和不好的一面

这篇论文探讨了大型语言模型与安全和隐私的交叉领域，研究了它们对安全和隐私的积极影响、潜在的风险和威胁，以及模型本身的固有漏洞。通过全面的文献综述，将研究结果分为 “有益” 的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域，并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。

Dec, 2023

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了 LLMs 发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023