探针分类器在概念移除和检测中不可靠
我们提出了一种基于对抗线性分类器的新方法,用于解决深度神经网络中的概念消除问题,旨在学习不编码特定概念(如性别等)的表示。我们的方法在网络的各个层次上引入了对抗性探测分类器,有效地解决概念交织问题,并改善了分布不鲁棒优化和超出分布的泛化任务中的性能。
Oct, 2023
本研究基于任务版本的概念,通过发展一种启发式工具 DirectProbe 直接研究表示物的几何结构,揭示了嵌入空间如何表示标签,并预测了分类器的性能。
Apr, 2021
本文研究了三种常见的英文辱骂语言分类器,关注负面情绪的本质,并介绍了基于概念的解释度量来评估概念对标签的影响,并比较分类器在概念和标签之间学习虚假全局充分性的程度。
Jul, 2023
本篇论文通过实验证明,作者的人口统计信息可以从神经分类器中间表示中被检测出来;在尝试用对抗性训练去除这些信息时,该方法效果不佳,需要注意敏感特征的不变表示不应仅依赖于对抗性训练。
Aug, 2018
探测分类器作为解释和分析自然语言处理深度神经网络模型的一种突出方法论已经被广泛应用。然而,最近的研究表明了其方法上的各种局限性。本文批判性地回顾了探测分类器框架,突出了其优点、缺点和进展。
Feb, 2021
本文提出一种核化线性 minimax 游戏的方法以实现对神经模型中的非线性编码概念的抹除,虽然保护措施不能转移到不同的非线性对手,因此彻底抹除非线性概念仍是一个待解决的问题。
Jan, 2022
从文本到图像生成模型到 AI 安全的概念消除方法,这篇论文研究了五种最近提出的概念消除方法,并展示了这些方法中没有一个能完全抹除目标概念,并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回,这突显了事后概念消除方法的脆弱性,并对其在 AI 安全算法工具箱中的使用产生了质疑。
Aug, 2023
在当前人工智能时代中,用户可能要求 AI 公司从训练数据集中删除他们的数据以保护隐私。作为模型所有者,重新训练模型将消耗大量计算资源。因此,机器遗忘是一种新兴的技术,允许模型所有者删除请求的训练数据或一个类别,对模型性能影响较小。然而,对于大规模复杂的数据,如图像或文本数据,从模型中删除一个类别会导致性能下降,因为很难确定类别和模型之间的联系。本文中,为了准确定义复杂数据的遗忘类别,我们应用概念的定义来代表遗忘类别的语义信息,而不是图像特征或文本数据的标记。这种新的表示可以切断模型和类别之间的联系,从而完全消除一个类别的影响。为了分析复杂数据概念的影响,我们采用后验概念瓶颈模型和综合梯度来精确识别不同类别之间的概念。接下来,我们利用带有随机和有针对性标签的数据毒化提出了遗忘方法。我们在图像分类模型和大型语言模型上测试了我们的方法,结果一致表明提出的方法可以准确地从模型中擦除目标信息,并且可以在很大程度上保持模型的性能。
May, 2024