不可学习的样本:使个人数据无法被利用
通过引入具有鲁棒性的噪声,设计了一种新的方法来生成稳健的不可学习样本,以缓解数据被未经授权地用于深度学习模型培训的风险,并且实验证明稳健的比起常规误差最小化噪声更加有效。
Mar, 2022
本文介绍了一种优化方法,可提高可用性攻击方法的效果,减少计算时间要求,以解决商业目的的个人数据的非授权使用和私人数据的暗地收集,同时避免了当前许多攻击方法被对抗性训练所削弱的问题。
May, 2023
通过引入稳定的误差最小化噪声(SEM),我们进一步提高了无法学习示例的鲁棒性,通过针对随机扰动而不是耗时的对抗性扰动来训练防御性噪声,提高了防御性噪声的稳定性,从而在 CIFAR-10、CIFAR-100 和 ImageNet Subset 上实现了最新的性能。
Nov, 2023
随着社交媒体的出现,隐私保护变得越来越关键。我们提出了使用深度学习模型的泛化能力降低的不可学习示例来避免在互联网上泄露个人信息,然而我们的研究发现,不可学习示例很容易被检测出来。我们提供了关于某些不可学习污染数据集的线性可分性的理论结果和基于简单网络的检测方法,可以识别所有现有的不可学习示例,这一点通过大量实验证明。不可学习示例在简单网络上的可检测性激发我们设计了一种新型的防御方法。我们建议使用更强的数据增强和简单网络生成的对抗噪声来降低检测性,并以更低的代价提供有效的防御措施。在不可学习示例中,带有大预算的对抗性训练是一种广泛使用的防御方法。我们建立了中毒和对抗预算之间的定量标准,用来确定稳健的不可学习示例的存在或对抗性防御的失败。
Dec, 2023
提出了第一种针对时间序列数据的非法训练的 UE 生成方法,通过引入一种新形式的误差最小化噪声,可以选择性地应用于时间序列的特定片段,使其对 DNN 模型无法学习,同时对人类观察者不可察觉。通过对多个时间序列数据集进行广泛实验证明,该 UE 生成方法在分类和生成任务中都非常有效,可以保护时间序列数据免受未授权利用,并在合法使用中保持其实用性,从而为安全可靠的机器学习系统的发展做出贡献。
Feb, 2024
我们研究和设计了一个有效的非线性转换框架,并进行了广泛实验以证明深度神经网络可以有效地学习以往被认为是无法学习的数据 / 示例,从而提高了打破无法学习数据的能力,显示出比线性可分技术更好的性能,进一步指出现有的数据保护方法在防止未经授权的机器学习模型使用数据方面是不充分的,迫切需要开发更强大的保护机制。
Jun, 2024
本文提出一种新方法通过使用 Error-Minimizing Structural Poisoning (EMinS) 模块向图中注入干扰噪声,从而使图形变得不可探测,以解决商业图形神经网络 (GNN) 模型训练中的潜在数据隐私问题,并在 COLLAB 数据集上将准确性从 77.33% 降低到 42.47%。
Mar, 2023
本篇论文介绍了一种创新的数据保护方法,通过生成可转移的数据遗忘样本,从数据分布的角度考虑数据隐私问题,经过广泛实验证实了该方法的优越性能和保护能力。
May, 2023
本文介绍了一种基于错误最大化噪声生成和损坏修复的权重操作方法的机器遗忘框架,该方法可以高效地针对单个或多个类别的数据从机器学习模型中删除,同时保持模型的高准确性,并且适用于各种深度网络设计,可为深度网络中的遗忘操作提供一种快捷且易于实现的方法。
Nov, 2021
提出了一种解决目标数据未被授权使用的方法,其将无法学习的示例(UEs)添加了微不可见的扰动,以确保原始数据发布后仍无法精确分类。但是,此方法存在弊端,因为不受保护的其他数据可以用于消除保护,从而将不可学习的数据转换为可学习的数据。因此,提出了一种新的方法来解决这个问题,即通过纯化处理将 UEs 投射到 LEs 上,并使用新的联合条件扩散模型来去除 UEs 的噪音,实现对 UEs 的保护。这种方法不仅能够对有监督和无监督的 UEs 进行保护,而且还是一种通用的计数器测量方法。
May, 2023