在隐私意识助手中实施情境完整性

Aug, 2024

在隐私意识助手中实施情境完整性

Operationalizing Contextual Integrity in Privacy-Conscious Assistants

Sahra Ghalebikesabi, Eugene Bagdasaryan, Ren Yi, Itay Yona, Ilia Shumailov...

TL;DR本研究解决了高级AI助手在用户隐私方面的顾虑，特别是在自动化执行复杂任务时如何有效共享信息的问题。通过将情境完整性（CI）框架应用于信息共享，提出了多种策略以确保助手的行为符合隐私预期。研究发现，基于CI推理的提示能够显著提高助手在信息共享方面的合规性。

Abstract

Advanced AI Assistants combine frontier LLMs and tool access to autonomously perform complex tasks on behalf of users. While the helpfulness of such assistants can increase dramatically with access to user information including emails and documents, this raises →

发现论文，激发创造

聊天机器人是否准备好应对隐私敏感的应用？输入翻转和提示清除的调查

本文旨在探究聊天机器人的输入复制和反刍能力，并通过直接指示来遵守HIPAA和GDPR等规定，限制复制，以减少隐私风险。通过概括100名应聘者的求职信，我们发现ChatGPT在57.4％的情况下会保留PII，并发现在不同的人员子群组之间存在非统一的差异，然而，通过指示，我们也发现ChatGPT在输出中能够显著省略PII。

May, 2023

超越死记硬背：利用大型语言模型的推理违反隐私

当前隐私研究主要集中在大型语言模型（LLM）提取训练数据的问题上。与此同时，模型的推论能力已大幅增强，这引发了一个关键问题：当前的LLM是否能通过推断来侵犯个人的隐私。在本研究中，我们提出了关于预训练LLM从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实Reddit个人资料组成的数据集，并展示出当前LLM能够推断广泛的个人属性（如地点、收入、性别），在成本（人类所需的1%）和时间（人类所需的2.4%）上达到了高达85%的top-1准确率和95.8%的top-3准确率。由于人们越来越多地与LLM驱动的聊天机器人进行各个方面的互动，我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后，我们证明了普遍采用的缓解措施，即文本匿名化和模型对齐，对于保护用户隐私免受LLM推断攻击是无效的。我们的研究结果表明，当前的LLM能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下，我们主张就LLM隐私影响展开更广泛的讨论，力求实现更广泛的隐私保护。

Oct, 2023

LLM是否能保守秘密？通过上下文完整理论测试语言模型的隐私影响

通过提出 ConfAIde 基准测试，我们的实验结果表明即使在使用了隐私保护提示或思维链推理后，如 GPT-4 和 ChatGPT 这样的最先进模型仍然有39%和57%的概率在具体情境中泄露私人信息，这凸显了探索基于推理和心智理论的新型推理时隐私保护方法的迫切需要。

Oct, 2023

利用大型语言模型自动化治理知识共享和上下文完整性（GKC-CI）隐私政策注解

使用大型语言模型，可以自动进行隐私政策文本中的高准确度GKC-CI参数注释，展示了对数据探索中GKC-CI注释的扩展效果。

Nov, 2023

空气隔离：保护注重隐私的对话代理

大型语言模型基于的对话代理管理敏感用户数据的使用日益增长引发了重大的隐私问题。我们介绍了一种新的威胁模型，其中恶意第三方应用程序通过操纵交互的上下文来欺骗基于语言模型的代理，将与任务无关的私人信息泄漏出来。基于情境完整性的框架，我们引入了AirGapAgent，这是一个具有隐私意识的代理，通过限制代理对特定任务所需的数据的访问，防止意外数据泄露。使用Gemini、GPT和Mistral模型作为代理的大量实验证实了我们的方法在减轻这种形式的上下文劫持并保持核心代理功能方面的有效性。例如，我们展示了对Gemini Ultra代理进行单次查询上下文劫持攻击可以将其保护用户数据的能力从94%降低到45%，而AirGapAgent可以达到97%的保护水平，使相同攻击无效化。

May, 2024

不信任机器人：在野外的人-模型对话中发现个人信息披露

通过对真实用户与商业GPT模型的互动中产生的个人披露进行广泛细致的分析，研究人员以质量化和量化分析为基础，建立了任务和敏感话题的分类系统，并发现个人可识别信息（PII）在意料之外的上下文中出现，如翻译或代码编辑中（分别为48％和16％），而仅仅依靠PII的检测是不足以捕捉到人机交互中常见的敏感话题，如详细的性偏好或特定药物使用习惯。因此研究人员呼吁设计适当的推动机制来帮助用户监管他们的互动，以充分认识到这些高披露率的重要性。

Jul, 2024

隐私检查清单：基于情境完整性理论的隐私违规检测

本研究针对当前隐私研究的局限性，提出了一种基于情境完整性理论的隐私检查清单，以更全面地识别隐私违规问题。该检查清单整合了社会身份、私人属性和现有隐私法规，利用大型语言模型首次全面涵盖《健康保险可携带性与责任法案》。研究结果为未来更人性化的隐私研究提供了重要参考。

Aug, 2024

隐私透镜：评估语言模型的隐私规范意识

本研究解决了量化语言模型（LM）在交互过程中遵循隐私规范的能力的难题。提出的PrivacyLens框架能够有效地扩展隐私敏感种子，并实现多层次的隐私泄漏评估，揭示了LM在执行用户指令时隐私泄漏的实际情况。研究发现，先进的语言模型在25.68%到38.69%的情况下泄漏敏感信息，尽管经过隐私增强的指令提示。

Aug, 2024

CI-Bench：基于合成数据评估AI助手的上下文完整性

本研究解决了AI助手在个人数据共享过程中面临的隐私挑战，提出了CI-Bench作为一种综合性合成基准，用于评估AI助手在模型推理期间保护个人信息的能力。研究的一个重要发现是，CI-Bench能够系统性地评估信息在多个上下文维度中的流动，为未来AI助手的开发与设计提供了重要指导。

Sep, 2024

具有双重关注的AI代理：确保隐私与战略性自我披露

本研究解决了基于大型语言模型的AI代理在社交互动中可能导致的隐私泄露问题。我们提出了一种新颖的AI代理系统，能够在保护隐私的同时实现必要的自我披露，旨在为用户的社交关系和任务场景提供平衡。用户研究表明，该系统在多样化和动态社交互动中有效保护隐私，具有重要的实践意义。

Sep, 2024