预训练语言模型去偏方法参数效率的实证分析

ACLJun, 2023

预训练语言模型去偏方法参数效率的实证分析

An Empirical Analysis of Parameter-Efficient Methods for Debiasing Pre-Trained Language Models

Zhongbin Xie, Thomas Lukasiewicz

TL;DR本文研究如何使用计算资源相对较小的方法，结合反事实数据增强技术（CDA）来减少预先训练的语言模型中的偏见，发现参数有效的方法能够有效地减少性别偏见，但对于种族和宗教偏见效果较差，且与全细调的性能相当。

Abstract

The increasingly large size of modern pretrained language models not only makes them inherit more human-like biases from the training corpora, but also makes it computationally expensive to mitigate such biases. In this paper, we investigate recent →

pretrained language models bias mitigation parameter-efficient methods gender bias racial and religious bias

发现论文，激发创造

预训练语言模型去偏差技术有效性的实证研究

本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示，Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Oct, 2021

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

Co$^2$PT：通过反事实对比提示调整减轻预训练语言模型中的偏见

提出了一种有效的通过反事实对比提示调节方法来减轻社会偏见的 Co^2PT，并实验证明了其在偏见减轻方面的有效性和对现有上游去偏模型的适用性。

Oct, 2023

透过 AdapterFusion 实现参数高效，模块化的偏置缓解

本研究提出了一种名为 DAM 的去偏见方法，通过 Adapter 模块的集成，实现去偏见的独立功能，该方法在三个分类任务中，具有效性、增加了公平性、同时保持了核心模型的效能。

Feb, 2023

通过两阶段方法缓解社会偏见：Prompt Tuning 推进而 Contrastive Learning 靠近

本文提出了一种通过对抗训练启发的两阶段去偏差模型 CCPA，结合对比学习和持续提示增强的数据增强方法来缓解 PLMs 编码中的社会偏见，并通过实验证明其在去偏差性能方面超过了基线模型。

Jul, 2023

大型语言模型的上下文偏见抑制

大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Sep, 2023

模型适应的去偏算法

提出了一种用于检测和减轻语言模型中性别偏见的新方法，通过因果分析确定了问题模型组件，发现中上部前馈层最容易传递偏见，根据分析结果通过线性投影来改进模型，该方法（DAMA）显著减少了偏见，并保持了模型在下游任务上的性能。

Oct, 2023

性别调整：强化预训练语言模型去偏见的微调

通过使用下游任务数据对预训练语言模型（PLMs）进行微调， Gender-tuning 方法能够消除 PLMs 中的性别偏见，同时提高 PLMs 在下游任务上的性能。

Jul, 2023

可持续模块化去偏语言模型

本文通过提出使用专用去偏置适配器的可持续模块化去偏置方法 ADELE，解决当前使用预训练语言模型存在的去偏置方法计算代价高和可能导致遗忘的问题，在性别去偏置任务上展示了 ADELE 的有效性，并证明其模块化特性使其在大规模下游训练后仍能保持公平，并成功将其运用到六种目标语种。

Sep, 2021

MAFIA: 多适配器融合式全包含语言模型

通过使用结构化知识和大型生成模型，在多个偏见维度上以半自动的方式构建多样化反事实数据扩充（CDA），我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用，并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估，证明了我们的方法的有效性。

Feb, 2024