基于核函数的概念抹除

EMNLPJan, 2022

Kernelized Concept Erasure

Shauli Ravfogel, Francisco Vargas, Yoav Goldberg, Ryan Cotterell

TL;DR本文提出一种核化线性 minimax 游戏的方法以实现对神经模型中的非线性编码概念的抹除，虽然保护措施不能转移到不同的非线性对手，因此彻底抹除非线性概念仍是一个待解决的问题。

Abstract

The representation space of neural models for textual data emerges in an unsupervised manner during training. Understanding how those representations encode human-interpretable concepts is a fundamental problem.

neural models unsupervised learning human-interpretable concepts linear subspace non-linear erasure

发现论文，激发创造

线性对抗概念抹除

提出了一种通过线性极小极大博弈模型来定位和清空文本中的线性子空间，以防止线性预测器恢复与偏见相关的概念，该方法可以减轻内在和外在因素造成的偏见。

Jan, 2022

绕过文本到图像生成模型的概念消除方法

从文本到图像生成模型到 AI 安全的概念消除方法，这篇论文研究了五种最近提出的概念消除方法，并展示了这些方法中没有一个能完全抹除目标概念，并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回，这突显了事后概念消除方法的脆弱性，并对其在 AI 安全算法工具箱中的使用产生了质疑。

Aug, 2023

通过表示擦除理解神经网络

本文提出了一种使用擦除来解释神经模型决策的通用方法，通过分析和比较擦除输入词向量的不同部分，中间隐藏层的不同单元或输入词的不同方法，来评估和解释模型判断的影响。研究表明，该方法不仅可以提供清晰的神经模型决策解释，还可以为神经模型的错误分析提供一种方法。

Dec, 2016

线性保障性及其影响

本文研究了神经表示中线性保护性的影响，以及在二进制情况下，附加线性层无法恢复保护性概念。但是，使用多类 softmax 分类器可以间接恢复目标概念，暴露了线性信息去除方法的理论限制。

Oct, 2022

用少样本反学习从文本到图像扩散模型中消除概念

通过更新文本编码器使用少量真实图像，我们提出了一种新颖的概念擦除方法，可以在 10 秒内擦除概念，实现了比当前方法快数十到数百倍的概念擦除，隐含地过渡到相关概念，实现更自然的概念擦除。

May, 2024

基于核化率失真最大化的稳健概念抹除

通过使用基于核化的失真最大化的距离度量学习目标函数，本文提出了一种概念消除的方法，用于从分布式表示中删除属性，同时尽可能保留原始表示空间中的其他信息。

Nov, 2023

只保留模型的手术概念擦除在文本到图像扩散模型中

通过手术更新分类器导向项、限制无条件得分项的变化，以及赋予用户选择擦除概念的替代方案的能力，我们提出了一种能够有效擦除目标概念并保留生成能力的新方法。

Dec, 2023

扩散模型中的可分离多概念擦除

我们提出了一种可分离的多概念擦除（SepME）方法，包括概念无关表示的生成和权重解耦，用于解决大规模扩散模型中的版权问题和概念恢复问题。通过其他已知不良概念计算的解决方案的线性组合，我们的方法在去除概念、保留模型性能以及灵活擦除或恢复各种概念方面具有良好的效果。

Feb, 2024

深度概念去除

我们提出了一种基于对抗线性分类器的新方法，用于解决深度神经网络中的概念消除问题，旨在学习不编码特定概念（如性别等）的表示。我们的方法在网络的各个层次上引入了对抗性探测分类器，有效地解决概念交织问题，并改善了分布不鲁棒优化和超出分布的泛化任务中的性能。

Oct, 2023

扩散模型中的强鲁棒概念擦除修剪

通过选择性修剪与要移除的概念相关的关键参数，改进了概念擦除技术的稳健性，并通过抵抗对抗性输入的实验结果证明了显著改进

May, 2024