本文提出了一个理论框架,解释了语言模型性别偏差的三个候选机制,发现大部分现有的去偏见方法会导致性能下降,但提出了一种不会降低模型性能的方法,即因果检测微调方法。通过数值实验证明,该方法能够在部分缓解性别偏差的同时避免性能下降。
Nov, 2022
通过因果中介分析理论,我们提出了一种方法来解释神经模型语言处理中行为的成因,并使用此方法研究了预先训练的 Transformer 语言模型中性别偏差的机制。通过对个体神经元和注意力节点的分析,我们发现性别偏差效应分布稀疏,集中在网络的小部分,并且能被不同的中介子部件放大或抑制,同时也可以通过中介子的直接和间接影响进行分解。
Apr, 2020
通过使用包含女性、男性和刻板印象的单词的各种基准数据集,我们比较了去偏见对多个下游任务性能的影响,实验证明去偏见的影响在所有任务中都被一致地低估。此外,通过单独考虑包含女性、男性和刻板印象单词的实例,而不是所有实例,可以可靠地评估去偏见的影响。
Sep, 2023
通过测量内在消除偏见的方法对神经机器翻译模型的外在偏见的影响,我们发现选择消除偏见的嵌入、词和子词符号的不匹配以及对不同目标语言的影响是影响下游性能和消除偏见成功的三个挑战和不匹配。
Jun, 2024
本文调查了五种最近提出的消除算法:CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示,Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致,同时算法会降低模型的语言建模能力,难以确定去偏置的效果。
Oct, 2021
提出了一种用于检测和减轻语言模型中性别偏见的新方法,通过因果分析确定了问题模型组件,发现中上部前馈层最容易传递偏见,根据分析结果通过线性投影来改进模型,该方法(DAMA)显著减少了偏见,并保持了模型在下游任务上的性能。
Oct, 2023
研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战,提出了一种新的框架 ProSocialTuning,用于在下游微调中推动模型接近偏见下限,通过已成功去偏的注意力模块的正则化来克服忘记问题。
该文提出了一种标准化协议来区分那些不仅产生了可取的结果,而且与它们的机制和规格一致的去偏差方法,并通过提供 essential insights 来展示了该协议对于去偏差方法的普适性和可解释性的重要性。
May, 2023
本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系,并通过外部微调去除偏差,同时测量内在偏差,以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标,可以暴露浅表去偏差的情况,提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。
Apr, 2022
本研究探讨了遮盖语言模型的任务非特定内在社会偏见和任务特定外在社会偏见评估指标之间的关系,并发现两种评估指标之间存在着很弱的相关性。 此外,我们发现使用不同方法去除偏见的 MLM 在下游任务的精调期间仍会重新学习社会偏见。 我们发现训练实例及其分配的标签中的社会偏见是内在和外在偏见评估测量之间差异的原因。 总之,我们的研究结果强调了现有 MLM 偏见评估措施的局限性,并令人担忧地提出了使用这些措施在下游应用中部署 MLM 的问题。
Oct, 2022