探针分类器在概念移除和检测中不可靠

Jul, 2022

探针分类器在概念移除和检测中不可靠

Probing Classifiers are Unreliable for Concept Removal and Detection

Abhinav Kumar, Chenhao Tan, Amit Sharma

TL;DR研究人员发现，基于文本数据训练的神经网络模型存在不可取的语言或敏感概念问题。本文通过广泛的理论和实证分析，证明了使用事后和对抗方法无法完全删除有问题的概念，并有可能破坏所有有用任务特征，并建议使用伪度量衡量最终分类器的质量。

Abstract

Neural network models trained on text data have been found to encode undesirable linguistic or sensitive concepts in their representation. Removing such concepts is non-trivial because of a complex relationship between the concept, text input, and the learnt representation. Recent work has proposed post-hoc and →

neural networks linguistic concepts adversarial methods probing classifiers fairness

发现论文，激发创造

深度概念去除

我们提出了一种基于对抗线性分类器的新方法，用于解决深度神经网络中的概念消除问题，旨在学习不编码特定概念（如性别等）的表示。我们的方法在网络的各个层次上引入了对抗性探测分类器，有效地解决概念交织问题，并改善了分布不鲁棒优化和超出分布的泛化任务中的性能。

Oct, 2023

DirectProbe: 无需分类器的表示研究

本研究基于任务版本的概念，通过发展一种启发式工具 DirectProbe 直接研究表示物的几何结构，揭示了嵌入空间如何表示标签，并预测了分类器的性能。

Apr, 2021

基于概念的解释用于检测被虐待语言分类器学习到的伪因果关系

本文研究了三种常见的英文辱骂语言分类器，关注负面情绪的本质，并介绍了基于概念的解释度量来评估概念对标签的影响，并比较分类器在概念和标签之间学习虚假全局充分性的程度。

Jul, 2023

文本数据种的人口属性对抗性剔除

本篇论文通过实验证明，作者的人口统计信息可以从神经分类器中间表示中被检测出来；在尝试用对抗性训练去除这些信息时，该方法效果不佳，需要注意敏感特征的不变表示不应仅依赖于对抗性训练。

Aug, 2018

线性对抗概念抹除

提出了一种通过线性极小极大博弈模型来定位和清空文本中的线性子空间，以防止线性预测器恢复与偏见相关的概念，该方法可以减轻内在和外在因素造成的偏见。

Jan, 2022

探测分类器：承诺、缺陷和进展

探测分类器作为解释和分析自然语言处理深度神经网络模型的一种突出方法论已经被广泛应用。然而，最近的研究表明了其方法上的各种局限性。本文批判性地回顾了探测分类器框架，突出了其优点、缺点和进展。

Feb, 2021

基于核函数的概念抹除

本文提出一种核化线性 minimax 游戏的方法以实现对神经模型中的非线性编码概念的抹除，虽然保护措施不能转移到不同的非线性对手，因此彻底抹除非线性概念仍是一个待解决的问题。

Jan, 2022

扩散模型中的强鲁棒概念擦除修剪

通过选择性修剪与要移除的概念相关的关键参数，改进了概念擦除技术的稳健性，并通过抵抗对抗性输入的实验结果证明了显著改进

May, 2024

绕过文本到图像生成模型的概念消除方法

从文本到图像生成模型到 AI 安全的概念消除方法，这篇论文研究了五种最近提出的概念消除方法，并展示了这些方法中没有一个能完全抹除目标概念，并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回，这突显了事后概念消除方法的脆弱性，并对其在 AI 安全算法工具箱中的使用产生了质疑。

Aug, 2023

通过概念推断和数据注入进行复杂数据的类别机器遗忘

在当前人工智能时代中，用户可能要求 AI 公司从训练数据集中删除他们的数据以保护隐私。作为模型所有者，重新训练模型将消耗大量计算资源。因此，机器遗忘是一种新兴的技术，允许模型所有者删除请求的训练数据或一个类别，对模型性能影响较小。然而，对于大规模复杂的数据，如图像或文本数据，从模型中删除一个类别会导致性能下降，因为很难确定类别和模型之间的联系。本文中，为了准确定义复杂数据的遗忘类别，我们应用概念的定义来代表遗忘类别的语义信息，而不是图像特征或文本数据的标记。这种新的表示可以切断模型和类别之间的联系，从而完全消除一个类别的影响。为了分析复杂数据概念的影响，我们采用后验概念瓶颈模型和综合梯度来精确识别不同类别之间的概念。接下来，我们利用带有随机和有针对性标签的数据毒化提出了遗忘方法。我们在图像分类模型和大型语言模型上测试了我们的方法，结果一致表明提出的方法可以准确地从模型中擦除目标信息，并且可以在很大程度上保持模型的性能。

May, 2024