Jul, 2022

探针分类器在概念移除和检测中不可靠

TL;DR研究人员发现,基于文本数据训练的神经网络模型存在不可取的语言或敏感概念问题。本文通过广泛的理论和实证分析,证明了使用事后和对抗方法无法完全删除有问题的概念,并有可能破坏所有有用任务特征,并建议使用伪度量衡量最终分类器的质量。