线性保障性及其影响

Oct, 2022

Linear Guardedness and its Implications

Shauli Ravfogel, Yoav Goldberg, Ryan Cotterell

TL;DR本文研究了神经表示中线性保护性的影响，以及在二进制情况下，附加线性层无法恢复保护性概念。但是，使用多类 softmax 分类器可以间接恢复目标概念，暴露了线性信息去除方法的理论限制。

Abstract

Previous work on concept identification in neural representations has focused on linear concept subspaces and their neutralization. In this work, we formulate the notion of →

concept identification neural representations linear guardedness binary case multiclass softmax classifiers

发现论文，激发创造

线性对抗概念抹除

提出了一种通过线性极小极大博弈模型来定位和清空文本中的线性子空间，以防止线性预测器恢复与偏见相关的概念，该方法可以减轻内在和外在因素造成的偏见。

Jan, 2022

基于核函数的概念抹除

本文提出一种核化线性 minimax 游戏的方法以实现对神经模型中的非线性编码概念的抹除，虽然保护措施不能转移到不同的非线性对手，因此彻底抹除非线性概念仍是一个待解决的问题。

Jan, 2022

受盾形表示：通过迭代梯度投影保护敏感属性

本文通过引入一种新的方法 IGBP，提出了一种在自然语言处理模型中去除非线性编码概念的方案，实验结果表明，该方法可以有效缓解社会偏见，并对下游任务的准确性没有太大的影响。

May, 2023

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

深度概念去除

我们提出了一种基于对抗线性分类器的新方法，用于解决深度神经网络中的概念消除问题，旨在学习不编码特定概念（如性别等）的表示。我们的方法在网络的各个层次上引入了对抗性探测分类器，有效地解决概念交织问题，并改善了分布不鲁棒优化和超出分布的泛化任务中的性能。

Oct, 2023

通过迭代零空间投影来保护受保护属性

我们提出了一种名为迭代零空间投影 (INLP) 的新方法，它基于线性分类器的训练，通过在空间中进行映射，以消除神经表示中的特定属性，并减少了词嵌入中的偏见，提高了多类分类的公平性。

Apr, 2020

探针分类器在概念移除和检测中不可靠

研究人员发现，基于文本数据训练的神经网络模型存在不可取的语言或敏感概念问题。本文通过广泛的理论和实证分析，证明了使用事后和对抗方法无法完全删除有问题的概念，并有可能破坏所有有用任务特征，并建议使用伪度量衡量最终分类器的质量。

Jul, 2022

神经网络概念的单元测试

本研究提出了关于符号概念的理论，并使用一个简单的视觉概念学习任务来评估多个现代神经结构与该理论的一致程度，发现这些模型可以成功通过测验，但在因果关系方面仍然存在重要的问题。

Jul, 2022

线性神经网络层促进单 / 多指数模型学习

本文探讨了超参数神经网络中大于两层的隐式偏差。通过添加线性层，可以优化神经网络的表示成本，并提高实际子空间的准确匹配度与预测性能。

May, 2023

NeuGuard：轻量级神经元引导的成员推断攻击防御

本文提出了一种名为 NeuGuard 的神经元引导防御方法，用于防御机器学习模型的隐私风险，该方法包含限制最终输出神经元和内部神经元激活的班级方差最小化和层平衡输出控制，且在对比实验中表现优异。

Jun, 2022