隐私透镜：评估语言模型的隐私规范意识

Aug, 2024

隐私透镜：评估语言模型的隐私规范意识

PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang

TL;DR本研究解决了量化语言模型（LM）在交互过程中遵循隐私规范的能力的难题。提出的PrivacyLens框架能够有效地扩展隐私敏感种子，并实现多层次的隐私泄漏评估，揭示了LM在执行用户指令时隐私泄漏的实际情况。研究发现，先进的语言模型在25.68%到38.69%的情况下泄漏敏感信息，尽管经过隐私增强的指令提示。

Abstract

As Language Models (LMs) are widely utilized in personalized communication scenarios (e.g., sending emails, writing social media posts) and endowed with a certain level of agency, ensuring they act in accordance with the contextual →

发现论文，激发创造

对基于LLM的对话代理使用者在披露风险和好处上的导航方式进行研究

建立尊重用户隐私的伦理性大型语言模型对话代理 (LLM-CA) 需要深入了解用户最关心的隐私风险，并解决用户隐私、效用和便利之间的权衡问题。研究发现，用户在使用 LLM-CA 时面临隐私、效用和便利之间的不断选择，但用户对隐私风险的认知受到错误的心理模型和系统设计中的黑暗模式的限制。为了保护 LLM-CA 用户的隐私，我们讨论了实际设计指南和范式转移的需求。

Sep, 2023

语言模型中的隐私风险识别与缓解：调查

通过对大规模语言模型的调查，本研究首次提供了关于语言模型隐私的技术综述，包括攻击与缓解策略的分类、现有攻击的趋势、现有缓解策略的强项与局限性，找出关键缺口并提出解决问题的方法与关切领域。

Sep, 2023

超越死记硬背：利用大型语言模型的推理违反隐私

当前隐私研究主要集中在大型语言模型（LLM）提取训练数据的问题上。与此同时，模型的推论能力已大幅增强，这引发了一个关键问题：当前的LLM是否能通过推断来侵犯个人的隐私。在本研究中，我们提出了关于预训练LLM从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实Reddit个人资料组成的数据集，并展示出当前LLM能够推断广泛的个人属性（如地点、收入、性别），在成本（人类所需的1%）和时间（人类所需的2.4%）上达到了高达85%的top-1准确率和95.8%的top-3准确率。由于人们越来越多地与LLM驱动的聊天机器人进行各个方面的互动，我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后，我们证明了普遍采用的缓解措施，即文本匿名化和模型对齐，对于保护用户隐私免受LLM推断攻击是无效的。我们的研究结果表明，当前的LLM能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下，我们主张就LLM隐私影响展开更广泛的讨论，力求实现更广泛的隐私保护。

Oct, 2023

LLM是否能保守秘密？通过上下文完整理论测试语言模型的隐私影响

通过提出 ConfAIde 基准测试，我们的实验结果表明即使在使用了隐私保护提示或思维链推理后，如 GPT-4 和 ChatGPT 这样的最先进模型仍然有39%和57%的概率在具体情境中泄露私人信息，这凸显了探索基于推理和心智理论的新型推理时隐私保护方法的迫切需要。

Oct, 2023

P-Bench: 语言模型多层隐私评估基准

我们提出了P-Bench，这是一个用于经验和直观地量化语言模型的隐私泄漏的多角度隐私评估基准，并对各种隐私保护语言模型进行公平和直观的评估。

Nov, 2023

大型语言模型（LLM）安全与隐私调查：优点、缺点和不好的一面

这篇论文探讨了大型语言模型与安全和隐私的交叉领域，研究了它们对安全和隐私的积极影响、潜在的风险和威胁，以及模型本身的固有漏洞。通过全面的文献综述，将研究结果分为“有益”的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域，并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。

Dec, 2023

大型语言模型：大规模隐私政策分析的新方法

利用大型语言模型（LLM）以替代传统的自然语言处理技术，在较大规模上从隐私政策中高效准确地提取隐私做法，并实现出色的性能评估和降低成本。

May, 2024

不信任机器人：在野外的人-模型对话中发现个人信息披露

通过对真实用户与商业GPT模型的互动中产生的个人披露进行广泛细致的分析，研究人员以质量化和量化分析为基础，建立了任务和敏感话题的分类系统，并发现个人可识别信息（PII）在意料之外的上下文中出现，如翻译或代码编辑中（分别为48％和16％），而仅仅依靠PII的检测是不足以捕捉到人机交互中常见的敏感话题，如详细的性偏好或特定药物使用习惯。因此研究人员呼吁设计适当的推动机制来帮助用户监管他们的互动，以充分认识到这些高披露率的重要性。

Jul, 2024

大型语言模型中的隐私保护：当前威胁与解决方案的调查

本研究探讨了大型语言模型（LLMs）在隐私保护方面面临的挑战，特别是在关键领域（如医疗保健）中的风险。提出从数据匿名化到差分隐私的多种解决方案，以在整个学习过程中有效地集成隐私保护机制。这项工作的关键发现是为构建更安全可信的人工智能系统提供了针对隐私保护方法的全面评估与未来发展方向的指导。

Aug, 2024

大型语言模型的隐私意识如何？合规性与隐私技术评估案例研究

本研究针对大型语言模型（LLMs）在隐私合规和技术隐私评审中的应用不足问题，提供了全面的案例研究。提出了隐私技术评审（PTR）框架，并通过实证评估多个知名LLMs在隐私信息提取、法律和监管关键点检测等任务中的表现，发现尽管这些模型在自动化隐私审查方面具有潜力，仍存在与法律标准全面合规的显著 gaps。

Sep, 2024