- 数据剽窃指数:表格生成模型中的数据复制隐私风险特征
该论文提出了一种新的相似性度量和数据剽窃指数(DPI)来评估表格数据的数据复制,并表征了相应的隐私风险。同时,论文指出 DPI 鉴定的数据复制对常见的高性能架构而言存在隐私和公平威胁,强调了需要更复杂的生成模型技术来减轻这个问题。
- 机器遗忘的重构攻击:简单模型易受攻击
机器遗忘是出于对数据自治的渴望:一个人可以要求使其数据在部署模型中的影响消失,并且这些模型应该更新,就像重新训练而没有该人的数据一样。然而,我们展示出这些更新与个人之间会暴露出高精度的重构攻击,这使得攻击者可以完整地恢复其数据,即使原始模型 - 在平均值中迷失:一种评估机器学习模型成员推理攻击的新特定设置
使用权重初始化作为唯一的随机源,我们提出了一种新的、特定的用于对 ML 模型的成员识别攻击(MIAs)进行评估的设置,从而准确评估了与特定数据集训练的模型的发布相关的风险。
- SoK: 降低 Fine-tuned 语言模型对成员推断攻击的脆弱性
自然语言处理模型在最近几年中经历了显著的提升,其上已建立了许多应用。然而,这些应用中许多需要在定制的专有数据集上对通用基础模型进行微调,这些微调数据往往含有个人或敏感信息,增加了隐私风险。本研究首次系统回顾了大型自然语言处理模型在成员推理攻 - ICLR教授 语言模型如何钓鱼:从中窃取私人信息
本文提出了一种名为 “神经钓鱼” 的新型实用数据提取攻击,可以使攻击者从基于用户数据训练的模型中目标和提取敏感或个人身份信息(PII),例如信用卡号码,攻击成功率高达 10%,有时甚至高达 50%。攻击方法仅需要攻击者将数十个看似良性的句子 - 大型语言模型对齐的隐私保护指令
通过使用合成指令替代真实指令进行数据注释和模型微调,通过定义差分隐私生成合成指令,匹配合成指令和真实指令的分布来实现所需效用,结果表明,使用合成指令进行监督微调的模型优于开源模型。
- 凸凹损失函数降低会员推断的隐私风险
机器学习模型在隶属推断攻击中容易受到攻击,本论文提出了一种新方法 —— 凸 - 凹损失,使得训练损失的分布具有很高的方差,增强对隶属推断攻击的防御能力,并取得了在隐私 - 效用权衡方面的最佳平衡。
- 稳定的不可学习样例:通过稳定的最小化误差噪音增强不可学习样例的鲁棒性
通过引入稳定的误差最小化噪声(SEM),我们进一步提高了无法学习示例的鲁棒性,通过针对随机扰动而不是耗时的对抗性扰动来训练防御性噪声,提高了防御性噪声的稳定性,从而在 CIFAR-10、CIFAR-100 和 ImageNet Subset - 带隐私风险指标的神经文本清洗:实证分析
文本消毒是将文档进行编码以掩盖其中所有(直接或间接的)个人标识符的任务,以掩盖所指个体的身份。本文考虑了一种两步法的文本消毒方法,并对其在最近发布的两个数据集(Text Anonymization Benchmark 和一组维基百科传记)上 - ICCVLDP-Feat:带有局部差分隐私的图像特征
现代计算机视觉服务经常要求用户与不受信任的服务器共享原始特征描述符,这带来隐私风险,为解决此问题,研究人员最近提出了通过将图像特征嵌入一个仿射子空间中从而使其包含原始特征及对抗特征样本来实现特征私有化。本文提出了两种新的反演攻击方法,证明从 - Epsilon*: 机器学习模型的隐私度量
介绍了 Epsilon*,一种新的隐私度量方法,用于衡量在隐私保护策略的部署之前、期间或之后单个模型实例的隐私风险。该度量不需要访问训练数据抽样或模型训练算法。
- ACL伦理学家:基于损失平滑的软提示和校准置信度估计的有针对性训练数据提取
提出了一种名为 Ethicist 的方法,通过平滑丢失软提示和校准置信度估计来实现针对性的训练数据提取,探究在给定前缀的情况下如何恢复训练数据中的后缀。展示了 Ethicist 在最近提出的公开基准测试中显著改善了提取性能,并研究了解码策略 - ICML强化和防御具备马尔可夫链近似的图重构攻击
通过以 GNN 作为马尔可夫链,并借助灵活的链逼近方法,我们首次对图再现攻击进行了全面研究,并提出了两种信息理论引导的机制:一种是通过自适应设计来提取更多的私有信息的基于链的攻击方法;另一种是在训练 GNN 时去除更多的链敏感信息的基于链的 - 图神经网络的黑盒属性推断攻击是否构成隐私风险?
本研究调查了对图结构数据及其相应的图神经网络模型的黑盒属性推理攻击是否构成重要的隐私风险,并发现当攻击者具有对目标模型的黑盒访问权限时,与缺失值估计技术相比,GNNs 通常不会显着透露更多信息。
- ACL通过提示微调控制大型语言模型中已记忆数据的提取
本文采用提示调参的方法控制大型语言模型的记忆内容的提取率,通过基于 GPT-Neo 家族模型的公共基准测试,展示了我们的攻击和防御策略的有效性,实现了相对于基线的提取率增加和减少,最多可以相对于基线降低 97.7% 的提取率,附加的困惑度增 - Paired-Logits 逆向攻击恢复图像的 FedMD 破解
本文介绍了一种名为 FedMD 的联合学习方案,使用模型蒸馏来保证隐私性,而不是直接共享模型参数。然而,我们发现即使是共享公共数据集的输出日志比直接共享渐变更为安全,但仍然存在数据曝光的风险。作者研究表明,恶意服务器可以利用 PLI 攻击 - 联邦学习中的本地模型重构攻击及其应用
本文探讨本地模型重构攻击对于联邦学习的影响,提出了一种基于模型的特征推理攻击,并在实验中验证了攻击手法的有效性。
- ECCV10 位视频:为高效和隐私而设计的少位视频问答系统
本文介绍了如何使用轻量级的特征压缩模块(FeatComp)来实现 Few-Bit VideoQA 任务,该模块通过学习提取 10 位的任务特定特征,在保证精度的同时比 MPEG4 编码的视频节省了 10 万倍的存储空间,并降低了数据隐私风险 - EMNLP大型预训练语言模型是否泄露了你的个人信息?
本文分析了预训练语言模型(PLMs)是否容易泄漏个人信息,并发现这些模型确实由于记忆而泄漏个人信息。但由于这些模型在关联性方面较弱,因此攻击者提取特定个人信息的风险较低,希望这项工作能够帮助社区更好地了解 PLMs 的隐私风险,并为使 PL - 神经网络中唯一私有特征的非预期记忆度量
通过对图像分类的神经网络进行实验,我们发现神经网络即使在训练数据中只出现了一次,也不经意地会记住独特的特征。我们开发了一个得分来估计模型对独特特征的敏感性,结果表明神经网络对于训练数据中罕见的隐私信息都具有风险。