性别调整:强化预训练语言模型去偏见的微调
本文提出了一种数据干预策略,通过在仅使用 10 个去偏见(干预)的训练样例上微调预训练模型,可显著降低优先考虑任何性别的趋势,从而减少预训练大型语言模型中的性别偏见,而且此方法的使用成本低,是一种高度可行且实用的少量训练样例去偏见方法。
Jun, 2023
大型语言模型(LLMs)中存在的性别偏见令人担忧,但提出了一种无需访问模型参数的新方法,即通过手动设计的文本前言和职业描述句来有效抑制性别偏见,并且对下游任务性能影响最小。
Sep, 2023
本文提出了一个理论框架,解释了语言模型性别偏差的三个候选机制,发现大部分现有的去偏见方法会导致性能下降,但提出了一种不会降低模型性能的方法,即因果检测微调方法。通过数值实验证明,该方法能够在部分缓解性别偏差的同时避免性能下降。
Nov, 2022
预训练语言模型 (PLMs) 的可重用性常受到其泛化问题的限制,该问题表现为在评估与训练数据集不同的示例时,性能显著下降,被称为离群 / 未知示例。本文提出了一种名为 Mask-tuning 的训练方法,通过将掩码语言建模 (MLM) 训练目标整合到微调过程中,提高了 PLMs 的泛化能力。全面的实验证明,Mask-tuning 超越了当前最先进的技术,并增强了 PLMs 在离群数据集上的泛化能力,同时提高了它们在分布数据集上的性能。研究结果表明,Mask-tuning 改善了 PLMs 在未知数据上的可重用性,使其在实际应用中更加实用和有效。
Jul, 2023
通过使用结构化知识和大型生成模型,在多个偏见维度上以半自动的方式构建多样化反事实数据扩充(CDA),我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用,并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估,证明了我们的方法的有效性。
Feb, 2024
研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战,提出了一种新的框架 ProSocialTuning,用于在下游微调中推动模型接近偏见下限,通过已成功去偏的注意力模块的正则化来克服忘记问题。
Jun, 2024
在这项研究中,我们以性别偏见为案例研究,通过量化预训练和微调对三类视觉与语言模型中的偏见放大进行分析,研究了这两个学习阶段之间的联系,并评估了偏见放大对模型性能的影响。总体来说,我们发现预训练和微调中的偏见放大是相互独立的。接着,我们研究了对性别中性数据的持续预训练对 VQAv2 和检索任务的影响,发现这种方法可以减少群体间的差异并提升公平性,而不会显著影响任务性能。
Oct, 2023
本文通过提出使用专用去偏置适配器的可持续模块化去偏置方法 ADELE,解决当前使用预训练语言模型存在的去偏置方法计算代价高和可能导致遗忘的问题,在性别去偏置任务上展示了 ADELE 的有效性,并证明其模块化特性使其在大规模下游训练后仍能保持公平,并成功将其运用到六种目标语种。
Sep, 2021