基于投影的概念去除方法对数据集的影响

Mar, 2024

基于投影的概念去除方法对数据集的影响

What Happens to a Dataset Transformed by a Projection-based Concept Removal Method?

Richard Johansson

TL;DR通过线性投影方法探究将一个概念从语言表达中移除后的数据集的行为，表明这些方法会在转换后的数据集中注入强大的统计依赖性，并导致转换空间高度结构化，可能通过反聚类方法重构原始标签。

Abstract

We investigate the behavior of methods that use linear projections to remove information about a concept from a language representation, and we consider the question of what happens to a →

linear projections language representation dataset statistical dependencies anti-clustering method

发现论文，激发创造

探针分类器在概念移除和检测中不可靠

研究人员发现，基于文本数据训练的神经网络模型存在不可取的语言或敏感概念问题。本文通过广泛的理论和实证分析，证明了使用事后和对抗方法无法完全删除有问题的概念，并有可能破坏所有有用任务特征，并建议使用伪度量衡量最终分类器的质量。

Jul, 2022

通过投影阻碍分类

研究了一种减少数据偏差的方法，使用几何问题对学习到的表示进行建模，在低维空间中通过简单的投影即可消除数据的线性可分性，同时保持其他性质的线性可分性；同时，文中还探讨了更复杂的分离性质和分类障碍与其 Helly 属性的关系。

May, 2021

通过联合子空间估计从神经网络表示中去除虚假概念

神经网络中的概念相关性对于网络的超出分布泛化有不利影响，为了解决这个问题，作者提出了一种迭代算法，通过联合识别神经网络表示中的两个低维正交子空间来分离与主要任务无关的概念，该算法在计算机视觉和自然语言处理的基准数据集上表现优于现有的概念去除方法。

Oct, 2023

基于投影残差的机器遗忘方法

该论文采用基于牛顿迭代方法的投影残差方法，旨在实现线性回归模型和神经网络模型的机器消遗任务。该方法主要使用迭代加权方法，完全忘记数据及其对应的影响，其计算成本与数据特征维度线性相关，并独立于训练集的大小。实验结果表明，该方法较近于模型重新训练，更彻底地删除数据。

Sep, 2022

深度概念去除

我们提出了一种基于对抗线性分类器的新方法，用于解决深度神经网络中的概念消除问题，旨在学习不编码特定概念（如性别等）的表示。我们的方法在网络的各个层次上引入了对抗性探测分类器，有效地解决概念交织问题，并改善了分布不鲁棒优化和超出分布的泛化任务中的性能。

Oct, 2023

通过数据相关和随机投影的主题发现

本文介绍了基于跨文档词频模式几何的主题建模算法，并提出了适应数据的算法和随机投影算法，探讨了先验密度对数据相关投影方法的统计保证以及最大和最小值与新颖单词的联系，作者通过在人造数据集和实际数据集上进行的实验表明了该方案的定量和定性优点。

Mar, 2013

受盾形表示：通过迭代梯度投影保护敏感属性

本文通过引入一种新的方法 IGBP，提出了一种在自然语言处理模型中去除非线性编码概念的方案，实验结果表明，该方法可以有效缓解社会偏见，并对下游任务的准确性没有太大的影响。

May, 2023

基于随机投影的降维技术综述

本文总结了基于随机投影的不同方法的使用情况，旨在帮助实践者为其特定应用选择合适的技术，并列举了各种方法的优缺点，并为研究人员提供进一步的参考，以开发新的基于随机投影的方法。

Jun, 2017

基于核函数的概念抹除

本文提出一种核化线性 minimax 游戏的方法以实现对神经模型中的非线性编码概念的抹除，虽然保护措施不能转移到不同的非线性对手，因此彻底抹除非线性概念仍是一个待解决的问题。

Jan, 2022

线性对抗概念抹除

提出了一种通过线性极小极大博弈模型来定位和清空文本中的线性子空间，以防止线性预测器恢复与偏见相关的概念，该方法可以减轻内在和外在因素造成的偏见。

Jan, 2022