空气隔离：保护注重隐私的对话代理

May, 2024

空气隔离：保护注重隐私的对话代理

Air Gap: Protecting Privacy-Conscious Conversational Agents

Eugene Bagdasaryan, Ren Yi, Sahra Ghalebikesabi, Peter Kairouz, Marco Gruteser...

TL;DR大型语言模型基于的对话代理管理敏感用户数据的使用日益增长引发了重大的隐私问题。我们介绍了一种新的威胁模型，其中恶意第三方应用程序通过操纵交互的上下文来欺骗基于语言模型的代理，将与任务无关的私人信息泄漏出来。基于情境完整性的框架，我们引入了AirGapAgent，这是一个具有隐私意识的代理，通过限制代理对特定任务所需的数据的访问，防止意外数据泄露。使用Gemini、GPT和Mistral模型作为代理的大量实验证实了我们的方法在减轻这种形式的上下文劫持并保持核心代理功能方面的有效性。例如，我们展示了对Gemini Ultra代理进行单次查询上下文劫持攻击可以将其保护用户数据的能力从94%降低到45%，而AirGapAgent可以达到97%的保护水平，使相同攻击无效化。

Abstract

The growing use of large language model (LLM)-based conversational agents to manage sensitive user data raises significant privacy concerns. While these agents excel at understanding and acting on context, this capability can be exploited by malicious actors. We introduce a novel threa

发现论文，激发创造

对基于LLM的对话代理使用者在披露风险和好处上的导航方式进行研究

建立尊重用户隐私的伦理性大型语言模型对话代理 (LLM-CA) 需要深入了解用户最关心的隐私风险，并解决用户隐私、效用和便利之间的权衡问题。研究发现，用户在使用 LLM-CA 时面临隐私、效用和便利之间的不断选择，但用户对隐私风险的认知受到错误的心理模型和系统设计中的黑暗模式的限制。为了保护 LLM-CA 用户的隐私，我们讨论了实际设计指南和范式转移的需求。

Sep, 2023

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了LLMs发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023

LLM是否能保守秘密？通过上下文完整理论测试语言模型的隐私影响

通过提出 ConfAIde 基准测试，我们的实验结果表明即使在使用了隐私保护提示或思维链推理后，如 GPT-4 和 ChatGPT 这样的最先进模型仍然有39%和57%的概率在具体情境中泄露私人信息，这凸显了探索基于推理和心智理论的新型推理时隐私保护方法的迫切需要。

Oct, 2023

大型语言模型（LLM）安全与隐私调查：优点、缺点和不好的一面

这篇论文探讨了大型语言模型与安全和隐私的交叉领域，研究了它们对安全和隐私的积极影响、潜在的风险和威胁，以及模型本身的固有漏洞。通过全面的文献综述，将研究结果分为“有益”的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域，并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。

Dec, 2023

加强人工智能中的道德界限：提升大型语言模型安全的高级策略

通过引入多方面的方法，包括过滤敏感词汇、检测角色扮演、实施自定义规则引擎和扩展到各种大型语言模型衍生物，我们解决了大型语言模型在道德、安全和隐私方面的挑战，并且保持了高性能。这项研究为平衡问答系统的效率与用户隐私和道德标准提供了一个框架，确保了更安全的用户体验并增加了对AI技术的信任。

Jan, 2024

GuardAgent: 通过知识驱动的推理由防护手段保护LLM Agents

大型语言模型在应用中的快速发展引发了关于其安全性和可信度的新问题。本文提出了GuardAgent作为LLM代理的守卫，通过检查输入/输出是否满足用户定义的一组保护要求来监督目标LLM代理，从而增强其安全性。GuardAgent具有可扩展的工具箱、无需额外的LLM训练，并且在两个基准测试中实现了对两种类型代理的无效输入和输出进行调节的98.7%和90.0%的准确性。

Jun, 2024

LLM风险与AI防护栏的现状

大型语言模型( LLMs )的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署LLMs所面临的风险，并评估了目前实施防护和模型对齐技术的方法, 从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型LLMs的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护LLMs的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成(RAG)架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解LLMs的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保LLMs在实际应用中的安全和负责任使用。

Jun, 2024

不信任机器人：在野外的人-模型对话中发现个人信息披露

通过对真实用户与商业GPT模型的互动中产生的个人披露进行广泛细致的分析，研究人员以质量化和量化分析为基础，建立了任务和敏感话题的分类系统，并发现个人可识别信息（PII）在意料之外的上下文中出现，如翻译或代码编辑中（分别为48％和16％），而仅仅依靠PII的检测是不足以捕捉到人机交互中常见的敏感话题，如详细的性偏好或特定药物使用习惯。因此研究人员呼吁设计适当的推动机制来帮助用户监管他们的互动，以充分认识到这些高披露率的重要性。

Jul, 2024

在隐私意识助手中实施情境完整性

本研究解决了高级AI助手在用户隐私方面的顾虑，特别是在自动化执行复杂任务时如何有效共享信息的问题。通过将情境完整性（CI）框架应用于信息共享，提出了多种策略以确保助手的行为符合隐私预期。研究发现，基于CI推理的提示能够显著提高助手在信息共享方面的合规性。

Aug, 2024

隐私透镜：评估语言模型的隐私规范意识

本研究解决了量化语言模型（LM）在交互过程中遵循隐私规范的能力的难题。提出的PrivacyLens框架能够有效地扩展隐私敏感种子，并实现多层次的隐私泄漏评估，揭示了LM在执行用户指令时隐私泄漏的实际情况。研究发现，先进的语言模型在25.68%到38.69%的情况下泄漏敏感信息，尽管经过隐私增强的指令提示。

Aug, 2024