- 从 LoRA 权重中恢复数据集大小
我们引入了一个新的任务:数据集大小恢复,旨在直接从模型的权重中确定用于训练模型的样本数量。我们提出了 DSiRe 方法,用于恢复用于微调模型的图像数量,并发现 LoRA 矩阵的范数和频谱与微调数据集的大小密切相关,我们利用这一发现提出了一个 - 视可知:针对检索增强生成的黑盒成员推断攻击
利用黑盒 API 访问,使用成员推理攻击的方法来确定一份样本是否属于一个 Retrieval-Augmented Generation(RAG)系统的知识数据库,并通过计算余弦相似度和模型的困惑度建立成员评分,提出了两种新的攻击策略:基于阈 - 聚合位置数据的零辅助知识成员推理攻击
在从群体中频繁收集和共享位置数据以指导政策和决策的过程中,存在成员推断攻击的隐私问题。本文提出了一种在汇总位置数据上进行零辅助知识攻击的方法,通过生成合适的合成轨迹,从而消除了对真实个体轨迹的辅助数据集的需求,并对偏差和噪音进行了校正。研究 - 大型语言模型的事后成员推断的固有挑战
通过使用简单的词袋分类器,我们发现最近的后续成员推理攻击 (MIAs) 研究中使用的数据集存在显著的分布偏移,这意味着先前报道的高 MIA 性能可能主要归因于这些偏移而不是模型的记忆。为了解决这个问题,我们提出了回归不连续设计 (RDD) - 高退训比例下的最小梯度相关性机器反学习
Mini-Unlearning 是一种轻量级、可扩展的方法,通过最小的一部分历史梯度以及收缩映射来有效地实现高比例的 machine unlearning,提高模型准确性并增强对隐私攻击的抵抗力。
- 嘈杂邻居:针对 LLMs 的高效成员推断攻击
该研究论文介绍了一种高效的方法,通过在嵌入空间中添加随机噪声,在推理模式下操作目标模型,生成目标样本的 “噪声邻居”,以评估 LLMs 的隐私风险。研究结果表明,该方法与使用影子模型的效果相近,展示了它在实际隐私审计场景中的可用性。
- 基础模型盲目基准优于基金会模型的成员推断攻击
成员推理攻击通过确定数据样本是否用于训练机器学习模型,可以检测版权训练材料,衡量测试集的污染程度或审计机器遗忘。然而,对于基于未知网络数据训练的基础模型的成员推理攻击的评估存在缺陷,因为它们从不同的分布中对成员和非成员进行采样。对于 8 个 - ICML参数是否透露了比损失函数更多的关于成员推断的信息?
成员推断攻击、披露审核、黑盒访问、白盒访问、成员隐私审核的研究。
- 大型语言模型的语义成员推断攻击
通过利用输入和其扰动的语义内容,我们引入了一种新的方法 —— 语义成员推断攻击(SMIA),从而提高成员推断攻击(MIAs)的性能。我们使用维基百科数据集对 Pythia 和 GPT-Neo 模型家族进行了全面评估,结果表明 SMIA 在 - 图传导防御:一种用于图成员推断攻击的两阶段防御
本文解决了图转导学习中成员推理攻击的问题,提出了一种有效的两阶段防御方法 Graph Transductive Defense(GTD),该方法通过训练 - 测试交替训练计划和压缩策略的组合成功减少了训练和测试损失分布之间的差异,实验证明其 - 对抗式机器遗忘
该论文提出了一个游戏理论框架,将成员推理攻击(MIAs)与机器遗忘算法的设计整合在一起,从而以对抗性的方式主动地将攻击纳入算法设计中,利用隐式微分限制攻击者的成功,以实现从模型中遗忘特定的训练数据。
- LLM 数据推断:你在我的数据集上训练了吗?
大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集,成功地区分了不同子集的 Pile 数据集的训练集和测试集,无任何错误的正例。
- 元学习中的隐私挑战:对模型无关元学习的调查
使用 MAML 算法作为案例,研究了元学习中潜在的数据泄漏问题,并提出了针对任务数据的成员推断攻击,以及用于保护任务数据隐私和防止攻击的噪声注入方法。实验证明了这些攻击对 MAML 的有效性以及适当的噪声注入方法在对抗这些攻击中的功效。
- 评估遗忘模型的信息论度量
机器反学习(MU)通过从训练模型中删除有关 “遗忘数据” 样本的信息来解决隐私问题。我们质疑使用现有的评估方法是否有效,并提出了一种量化中间特征中关于遗忘数据样本的剩余信息的度量指标,称为信息差异指数(IDI),以更好地评估 MU 方法。I - 在平均值中迷失:一种评估机器学习模型成员推理攻击的新特定设置
使用权重初始化作为唯一的随机源,我们提出了一种新的、特定的用于对 ML 模型的成员识别攻击(MIAs)进行评估的设置,从而准确评估了与特定数据集训练的模型的发布相关的风险。
- 通过差异度获得更好的成员推理隐私测量
这篇论文提出了一种基于差异理论的新的经验隐私度量方法,作为一种对成员推断攻击族群的优势的上限,不需要训练多个模型,可用于大规模的 Imagenet 分类模型,并在最近和更复杂的训练方法中具有更高的优势。
- 近似最紧密的黑盒审计差分隐私机器学习
该研究通过黑盒模型对 Differentially Private Stochastic Gradient Descent (DP-SGD) 算法进行了近乎严格的审计,通过成员推理攻击经验性地估计了 DP-SGD 的隐私泄漏,并且估计结果接 - GLiRA: 通过知识蒸馏进行的黑盒成员推理攻击
我们提出了一种使用知识蒸馏引导的黑盒神经网络成员推理攻击方法,并在多个图像分类数据集和模型上进行评估,证明了借助知识蒸馏的似然比攻击在黑盒设置下优于目前最先进的成员推理攻击。
- COLING局部差分私有化上下文学习
基于预训练语言模型和隐私保护的局部差分隐私框架中的语境学习(ICL)的分析研究
- 基于中心的放松学习对抗成员推断攻击
通过提出一种新的架构适应性训练范式(称为 CRL),我们在保持模型的成员一致性的同时,能够提供隐私保护,并且无需或仅需最小程度地损失模型的泛化能力,从而解决了现有防御方法和理想模型之间在性能和部署成本方面的差距。