使文本无法学习：利用有效模式保护个人数据

Jul, 2023

使文本无法学习：利用有效模式保护个人数据

Make Text Unlearnable: Exploiting Effective Patterns to Protect Personal Data

Xinzhe Li, Ming Liu, Shang Gao

TL;DR本文主要探讨深度学习中非授权公共数据使用所带来的伦理问题，并以扩展黄等人（2021）工作为基础，使用梯度搜索技术生成无法学习的文本，从而提出了一种新颖的解决方案。

Abstract

This paper addresses the ethical concerns arising from the use of unauthorized public data in deep learning models and proposes a novel so

ethical concerns public data deep learning models unlearnable text bi-level optimization

发现论文，激发创造

不可学习的样本：使个人数据无法被利用

本文提出了一种错误最小化的噪声类型，可以防止深度学习模型从个人数据中学习，这种噪声对人眼不可见，可以应用于面部识别等实际场景，并在样本和类别形式下取得了实证效果，从而对防止数据滥用奠定了重要基础。

Jan, 2021

非线性转换对抗无法学习的数据集

我们研究和设计了一个有效的非线性转换框架，并进行了广泛实验以证明深度神经网络可以有效地学习以往被认为是无法学习的数据 / 示例，从而提高了打破无法学习数据的能力，显示出比线性可分技术更好的性能，进一步指出现有的数据保护方法在防止未经授权的机器学习模型使用数据方面是不充分的，迫切需要开发更强大的保护机制。

Jun, 2024

通过可转移的不可学习示例实现通用的数据保护

本篇论文介绍了一种创新的数据保护方法，通过生成可转移的数据遗忘样本，从数据分布的角度考虑数据隐私问题，经过广泛实验证实了该方法的优越性能和保护能力。

May, 2023

对于每个 (文本序列) 的独立性：改进大型语言模型中的记忆数据遗忘

通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法，本研究提供了关于 LLMs 隐私保护和遗忘的新视角，并在大量 NLP 任务上进行了全面的性能评估。

May, 2024

我们能从无法学习的数据集中学到什么？

通过实验和对一些常见想法（例如线性分离）的否定，作者提出了一种名为正交投影攻击的新数据隐私破坏方式，从而揭示了采用无法学习的数据集保护数据隐私的潜在局限性并提出了解决方案。

May, 2023

无监督不可迁移文本分类

本文提出了一种新的针对文本分类任务的无监督非可转移学习方法，并介绍了一个秘密密钥组件来恢复访问目标域的能力。经过广泛的实验，证明了我们的方法的有效性。

Oct, 2022

重新思考针对深度神经网络的数据可用性攻击

本文介绍了一种优化方法，可提高可用性攻击方法的效果，减少计算时间要求，以解决商业目的的个人数据的非授权使用和私人数据的暗地收集，同时避免了当前许多攻击方法被对抗性训练所削弱的问题。

May, 2023

不可学习的图形：保护图形不受未授权利用

本文提出一种新方法通过使用 Error-Minimizing Structural Poisoning (EMinS) 模块向图中注入干扰噪声，从而使图形变得不可探测，以解决商业图形神经网络 (GNN) 模型训练中的潜在数据隐私问题，并在 COLLAB 数据集上将准确性从 77.33% 降低到 42.47%。

Mar, 2023

强韧的不可学习样本：保护数据抵御对抗学习攻击

通过引入具有鲁棒性的噪声，设计了一种新的方法来生成稳健的不可学习样本，以缓解数据被未经授权地用于深度学习模型培训的风险，并且实验证明稳健的比起常规误差最小化噪声更加有效。

Mar, 2022

语言模型中知识退化以减少隐私风险

本研究提出知识遗忘（knowledge unlearning）作为一种减少预训练语言模型（pretrained language models）隐私风险的方法，通过对目标标记序列进行梯度上升来遗忘它们，并发现顺序遗忘优于尝试一次性遗忘所有数据，对于特定领域的数据，知识遗忘具有更强的实证隐私保证，同时更加高效和鲁棒。

Oct, 2022