预训练语言模型去偏方法参数效率的实证分析
本文调查了五种最近提出的消除算法:CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示,Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致,同时算法会降低模型的语言建模能力,难以确定去偏置的效果。
Oct, 2021
提出了一种有效的通过反事实对比提示调节方法来减轻社会偏见的 Co^2PT,并实验证明了其在偏见减轻方面的有效性和对现有上游去偏模型的适用性。
Oct, 2023
本研究提出了一种名为 DAM 的去偏见方法,通过 Adapter 模块的集成,实现去偏见的独立功能,该方法在三个分类任务中,具有效性、增加了公平性、同时保持了核心模型的效能。
Feb, 2023
本文提出了一种通过对抗训练启发的两阶段去偏差模型 CCPA,结合对比学习和持续提示增强的数据增强方法来缓解 PLMs 编码中的社会偏见,并通过实验证明其在去偏差性能方面超过了基线模型。
Jul, 2023
大型语言模型(LLMs)中存在的性别偏见令人担忧,但提出了一种无需访问模型参数的新方法,即通过手动设计的文本前言和职业描述句来有效抑制性别偏见,并且对下游任务性能影响最小。
Sep, 2023
提出了一种用于检测和减轻语言模型中性别偏见的新方法,通过因果分析确定了问题模型组件,发现中上部前馈层最容易传递偏见,根据分析结果通过线性投影来改进模型,该方法(DAMA)显著减少了偏见,并保持了模型在下游任务上的性能。
Oct, 2023
通过使用下游任务数据对预训练语言模型(PLMs)进行微调, Gender-tuning 方法能够消除 PLMs 中的性别偏见,同时提高 PLMs 在下游任务上的性能。
Jul, 2023
本文通过提出使用专用去偏置适配器的可持续模块化去偏置方法 ADELE,解决当前使用预训练语言模型存在的去偏置方法计算代价高和可能导致遗忘的问题,在性别去偏置任务上展示了 ADELE 的有效性,并证明其模块化特性使其在大规模下游训练后仍能保持公平,并成功将其运用到六种目标语种。
Sep, 2021
通过使用结构化知识和大型生成模型,在多个偏见维度上以半自动的方式构建多样化反事实数据扩充(CDA),我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用,并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估,证明了我们的方法的有效性。
Feb, 2024