基于投影的概念去除方法对数据集的影响
研究人员发现,基于文本数据训练的神经网络模型存在不可取的语言或敏感概念问题。本文通过广泛的理论和实证分析,证明了使用事后和对抗方法无法完全删除有问题的概念,并有可能破坏所有有用任务特征,并建议使用伪度量衡量最终分类器的质量。
Jul, 2022
研究了一种减少数据偏差的方法,使用几何问题对学习到的表示进行建模,在低维空间中通过简单的投影即可消除数据的线性可分性,同时保持其他性质的线性可分性;同时,文中还探讨了更复杂的分离性质和分类障碍与其 Helly 属性的关系。
May, 2021
神经网络中的概念相关性对于网络的超出分布泛化有不利影响,为了解决这个问题,作者提出了一种迭代算法,通过联合识别神经网络表示中的两个低维正交子空间来分离与主要任务无关的概念,该算法在计算机视觉和自然语言处理的基准数据集上表现优于现有的概念去除方法。
Oct, 2023
该论文采用基于牛顿迭代方法的投影残差方法,旨在实现线性回归模型和神经网络模型的机器消遗任务。该方法主要使用迭代加权方法,完全忘记数据及其对应的影响,其计算成本与数据特征维度线性相关,并独立于训练集的大小。实验结果表明,该方法较近于模型重新训练,更彻底地删除数据。
Sep, 2022
我们提出了一种基于对抗线性分类器的新方法,用于解决深度神经网络中的概念消除问题,旨在学习不编码特定概念(如性别等)的表示。我们的方法在网络的各个层次上引入了对抗性探测分类器,有效地解决概念交织问题,并改善了分布不鲁棒优化和超出分布的泛化任务中的性能。
Oct, 2023
本文介绍了基于跨文档词频模式几何的主题建模算法,并提出了适应数据的算法和随机投影算法,探讨了先验密度对数据相关投影方法的统计保证以及最大和最小值与新颖单词的联系,作者通过在人造数据集和实际数据集上进行的实验表明了该方案的定量和定性优点。
Mar, 2013
本文通过引入一种新的方法 IGBP,提出了一种在自然语言处理模型中去除非线性编码概念的方案,实验结果表明,该方法可以有效缓解社会偏见,并对下游任务的准确性没有太大的影响。
May, 2023
本文总结了基于随机投影的不同方法的使用情况,旨在帮助实践者为其特定应用选择合适的技术,并列举了各种方法的优缺点,并为研究人员提供进一步的参考,以开发新的基于随机投影的方法。
Jun, 2017
本文提出一种核化线性 minimax 游戏的方法以实现对神经模型中的非线性编码概念的抹除,虽然保护措施不能转移到不同的非线性对手,因此彻底抹除非线性概念仍是一个待解决的问题。
Jan, 2022