线性保障性及其影响
本文提出一种核化线性 minimax 游戏的方法以实现对神经模型中的非线性编码概念的抹除,虽然保护措施不能转移到不同的非线性对手,因此彻底抹除非线性概念仍是一个待解决的问题。
Jan, 2022
本文通过引入一种新的方法 IGBP,提出了一种在自然语言处理模型中去除非线性编码概念的方案,实验结果表明,该方法可以有效缓解社会偏见,并对下游任务的准确性没有太大的影响。
May, 2023
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性,并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。
Jan, 2022
我们提出了一种基于对抗线性分类器的新方法,用于解决深度神经网络中的概念消除问题,旨在学习不编码特定概念(如性别等)的表示。我们的方法在网络的各个层次上引入了对抗性探测分类器,有效地解决概念交织问题,并改善了分布不鲁棒优化和超出分布的泛化任务中的性能。
Oct, 2023
我们提出了一种名为迭代零空间投影 (INLP) 的新方法,它基于线性分类器的训练,通过在空间中进行映射,以消除神经表示中的特定属性,并减少了词嵌入中的偏见,提高了多类分类的公平性。
Apr, 2020
研究人员发现,基于文本数据训练的神经网络模型存在不可取的语言或敏感概念问题。本文通过广泛的理论和实证分析,证明了使用事后和对抗方法无法完全删除有问题的概念,并有可能破坏所有有用任务特征,并建议使用伪度量衡量最终分类器的质量。
Jul, 2022
本研究提出了关于符号概念的理论,并使用一个简单的视觉概念学习任务来评估多个现代神经结构与该理论的一致程度,发现这些模型可以成功通过测验,但在因果关系方面仍然存在重要的问题。
Jul, 2022
本文提出了一种名为 NeuGuard 的神经元引导防御方法,用于防御机器学习模型的隐私风险,该方法包含限制最终输出神经元和内部神经元激活的班级方差最小化和层平衡输出控制,且在对比实验中表现优异。
Jun, 2022