通过使用包含女性、男性和刻板印象的单词的各种基准数据集,我们比较了去偏见对多个下游任务性能的影响,实验证明去偏见的影响在所有任务中都被一致地低估。此外,通过单独考虑包含女性、男性和刻板印象单词的实例,而不是所有实例,可以可靠地评估去偏见的影响。
Sep, 2023
本文以因果中介分析的方法来研究消除语言模型偏见的内部机制对下游任务毒性检测的影响,结果表明需要测试不同的偏见度量方法和关注模型中特定组件的行为变化,如语言模型的前两层和注意力头。
Jun, 2022
提出了一种用于检测和减轻语言模型中性别偏见的新方法,通过因果分析确定了问题模型组件,发现中上部前馈层最容易传递偏见,根据分析结果通过线性投影来改进模型,该方法(DAMA)显著减少了偏见,并保持了模型在下游任务上的性能。
Oct, 2023
本研究提出一种基于损失函数修改的去偏见方法,旨在平衡输出中男性和女性单词的概率;通过使用一系列偏差评估指标,我们提供实证证据表明我们的方法成功地减轻了语言模型中的性别偏见。与现有的去偏见策略,数据扩充和单词嵌入去偏见相比,我们的方法在多个方面,特别是在减少职业单词中的性别偏见方面表现更好。最后,我们介绍了一种数据扩充和我们方法的组合,并展示它在所有偏差评估指标中表现出优于现有策略的效果。
May, 2019
本文提出了一种数据干预策略,通过在仅使用 10 个去偏见(干预)的训练样例上微调预训练模型,可显著降低优先考虑任何性别的趋势,从而减少预训练大型语言模型中的性别偏见,而且此方法的使用成本低,是一种高度可行且实用的少量训练样例去偏见方法。
Jun, 2023
研究通过引入性别缓解技术、使用预训练模型以及适配器网络,成功地减轻了性别偏见问题,并提高了信息检索的敏感性。
Aug, 2022
本文调查了五种最近提出的消除算法:CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示,Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致,同时算法会降低模型的语言建模能力,难以确定去偏置的效果。
Oct, 2021
本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系,并通过外部微调去除偏差,同时测量内在偏差,以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标,可以暴露浅表去偏差的情况,提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。
Apr, 2022
提出了一种两阶段的去偏置框架 FineDeb,用于语言模型中的人口统计子集偏差问题,在先前的语言模型学习嵌入之后开始,然后对语言建模目标进行微调,与其他方法相比,它提供了更强的去偏置效果。
Feb, 2023
通过使用下游任务数据对预训练语言模型(PLMs)进行微调, Gender-tuning 方法能够消除 PLMs 中的性别偏见,同时提高 PLMs 在下游任务上的性能。
Jul, 2023