性别调整：强化预训练语言模型去偏见的微调

Jul, 2023

性别调整：强化预训练语言模型去偏见的微调

Gender-tuning: Empowering Fine-tuning for Debiasing Pre-trained Language Models

Somayeh Ghanbarzadeh, Yan Huang, Hamid Palangi, Radames Cruz Moreno, Hamed Khanpour

TL;DR通过使用下游任务数据对预训练语言模型（PLMs）进行微调， Gender-tuning 方法能够消除 PLMs 中的性别偏见，同时提高 PLMs 在下游任务上的性能。

Abstract

Recent studies have revealed that the widely-used pre-trained language models (PLMs) propagate societal biases from the large unmoderated pre-training corpora. Existing solutions require →

pre-trained language models societal biases debiasing gender-tuning downstream tasks

发现论文，激发创造

利用少量数据干预减轻性别偏见的语言模型性别改造

本文提出了一种数据干预策略，通过在仅使用 10 个去偏见（干预）的训练样例上微调预训练模型，可显著降低优先考虑任何性别的趋势，从而减少预训练大型语言模型中的性别偏见，而且此方法的使用成本低，是一种高度可行且实用的少量训练样例去偏见方法。

Jun, 2023

大型语言模型的上下文偏见抑制

大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Sep, 2023

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

提高预训练语言模型的泛化能力

预训练语言模型 (PLMs) 的可重用性常受到其泛化问题的限制，该问题表现为在评估与训练数据集不同的示例时，性能显著下降，被称为离群 / 未知示例。本文提出了一种名为 Mask-tuning 的训练方法，通过将掩码语言建模 (MLM) 训练目标整合到微调过程中，提高了 PLMs 的泛化能力。全面的实验证明，Mask-tuning 超越了当前最先进的技术，并增强了 PLMs 在离群数据集上的泛化能力，同时提高了它们在分布数据集上的性能。研究结果表明，Mask-tuning 改善了 PLMs 在未知数据上的可重用性，使其在实际应用中更加实用和有效。

Jul, 2023

消除信息检索模型中的性别偏见

研究通过引入性别缓解技术、使用预训练模型以及适配器网络，成功地减轻了性别偏见问题，并提高了信息检索的敏感性。

Aug, 2022

MAFIA: 多适配器融合式全包含语言模型

通过使用结构化知识和大型生成模型，在多个偏见维度上以半自动的方式构建多样化反事实数据扩充（CDA），我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用，并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估，证明了我们的方法的有效性。

Feb, 2024

通过内在偏见和遗忘的视角理解面向任务无关的去偏差技术

研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战，提出了一种新的框架 ProSocialTuning，用于在下游微调中推动模型接近偏见下限，通过已成功去偏的注意力模块的正则化来克服忘记问题。

Jun, 2024

评估性别中性预训练视觉与语言模型的偏见和公平性

在这项研究中，我们以性别偏见为案例研究，通过量化预训练和微调对三类视觉与语言模型中的偏见放大进行分析，研究了这两个学习阶段之间的联系，并评估了偏见放大对模型性能的影响。总体来说，我们发现预训练和微调中的偏见放大是相互独立的。接着，我们研究了对性别中性数据的持续预训练对 VQAv2 和检索任务的影响，发现这种方法可以减少群体间的差异并提升公平性，而不会显著影响任务性能。

Oct, 2023

可持续模块化去偏语言模型

本文通过提出使用专用去偏置适配器的可持续模块化去偏置方法 ADELE，解决当前使用预训练语言模型存在的去偏置方法计算代价高和可能导致遗忘的问题，在性别去偏置任务上展示了 ADELE 的有效性，并证明其模块化特性使其在大规模下游训练后仍能保持公平，并成功将其运用到六种目标语种。

Sep, 2021