Jun, 2024

数据饮食下的性别主义检测

TL;DR我们展示了如何利用影响分数来估计在训练模型和设计剪枝策略时数据点的重要性,应用于性别歧视检测案例中,我们评估了不同剪枝策略下训练的模型在三个领域外数据集上的性能,并发现大部分实例可以删除而不会显著降低性能,但我们还发现之前在自然语言推理任务中成功的剪枝数据策略不适用于检测有害内容,反而进一步加剧了已经普遍存在的类别不平衡问题,导致最坏情况下恶意类别完全消失。