隐私检查清单:基于情境完整性理论的隐私违规检测
本文研究全球隐私法律法规,提出“政府隐私指令语料库”以分析法规聚焦点和演化。结果表明,个人数据类型受到隐私法规约管的比率和数量之间存在巨大差异,而主题建模分析表明金融、医疗卫生和电信等领域是当前隐私法规的主要关注点。同时,文章发布了语料库供研究社区进一步研究使用。
Jun, 2022
当前隐私研究主要集中在大型语言模型(LLM)提取训练数据的问题上。与此同时,模型的推论能力已大幅增强,这引发了一个关键问题:当前的LLM是否能通过推断来侵犯个人的隐私。在本研究中,我们提出了关于预训练LLM从文本中推断个人属性能力的首个全面研究。我们构建了一个由真实Reddit个人资料组成的数据集,并展示出当前LLM能够推断广泛的个人属性(如地点、收入、性别),在成本(人类所需的1%)和时间(人类所需的2.4%)上达到了高达85%的top-1准确率和95.8%的top-3准确率。由于人们越来越多地与LLM驱动的聊天机器人进行各个方面的互动,我们还探讨了通过似乎无害的问题来提取个人信息的侵犯隐私聊天机器人的新威胁。最后,我们证明了普遍采用的缓解措施,即文本匿名化和模型对齐,对于保护用户隐私免受LLM推断攻击是无效的。我们的研究结果表明,当前的LLM能够以以前无法想象的规模推断出个人数据。在缺乏有效防御措施的情况下,我们主张就LLM隐私影响展开更广泛的讨论,力求实现更广泛的隐私保护。
Oct, 2023
使用大型语言模型,可以自动进行隐私政策文本中的高准确度GKC-CI参数注释,展示了对数据探索中GKC-CI注释的扩展效果。
Nov, 2023
通过设计一个评估模型,我们首次提出了CAIR原则,用于量化和排名衡量合成表格数据的隐私保护度量方法对于CAIR原则的符合程度,并研究了现有评估方法的适用性和实用性,以此促进研究人员和组织就合成表格数据的隐私评估方法达成共识。
Dec, 2023
基于大型语言模型的系统,在用户隐私方面存在问题,需要更多关注人类隐私问题的研究,包括设计范例对用户的行为披露、用户心智模型和隐私控制偏好的影响,以及赋予终端用户对个人数据的拥有权的工具设计,在此基础上构建可用、高效、具有隐私友好性质的系统。本文旨在启动关于人类隐私问题研究的讨论,为基于大型语言模型的系统中的隐私问题制定议程。
Feb, 2024
保护隐私是计算社会科学、人工智能和数据科学等领域中的重要问题,本文讨论了隐私的角色和研究人员在这些领域可能面临的主要问题,并提出了保护参与者隐私的若干重要考虑因素。
Apr, 2024
提出了基于大型语言模型和语义网络的隐私合规方法,通过开发隐私政策合规验证知识图谱(PrivComp-KG),有效存储和检索有关隐私政策、法规框架和领域特定知识的全面信息,实现对供应商隐私政策与相关政策法规的合规性查询。
Apr, 2024
介绍了一种名为GoldCoin的新型框架,通过将大型语言模型与相关隐私法律结合起来,从而有效评估隐私违规,实验证明GoldCoin在识别真实法庭案例中的隐私风险方面明显提高了大型语言模型的能力。
Jun, 2024
本研究解决了高级AI助手在用户隐私方面的顾虑,特别是在自动化执行复杂任务时如何有效共享信息的问题。通过将情境完整性(CI)框架应用于信息共享,提出了多种策略以确保助手的行为符合隐私预期。研究发现,基于CI推理的提示能够显著提高助手在信息共享方面的合规性。
Aug, 2024
本研究针对大型语言模型(LLMs)在隐私合规和技术隐私评审中的应用不足问题,提供了全面的案例研究。提出了隐私技术评审(PTR)框架,并通过实证评估多个知名LLMs在隐私信息提取、法律和监管关键点检测等任务中的表现,发现尽管这些模型在自动化隐私审查方面具有潜力,仍存在与法律标准全面合规的显著 gaps。
Sep, 2024