模型适应的去偏算法
本研究提出了一种名为 DAM 的去偏见方法,通过 Adapter 模块的集成,实现去偏见的独立功能,该方法在三个分类任务中,具有效性、增加了公平性、同时保持了核心模型的效能。
Feb, 2023
本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应,并在此基础上提出了最小二乘去偏(LSDM)方法,用于减少职业代词中的性别偏见,实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见,同时在其他方面完全保留了模型的能力。
Mar, 2024
本文提出了一个理论框架,解释了语言模型性别偏差的三个候选机制,发现大部分现有的去偏见方法会导致性能下降,但提出了一种不会降低模型性能的方法,即因果检测微调方法。通过数值实验证明,该方法能够在部分缓解性别偏差的同时避免性能下降。
Nov, 2022
研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化,并且性别信息逐渐局部化。通过监控训练动态,可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。
Jul, 2022
通过使用结构化知识和大型生成模型,在多个偏见维度上以半自动的方式构建多样化反事实数据扩充(CDA),我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用,并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估,证明了我们的方法的有效性。
Feb, 2024
大型语言模型中的公平性和流畅度之间的权衡问题研究,提出了一种基于信息论的框架 LIDAO,用于使语言模型更好地实现公平性而仍保持流畅度。
Jun, 2024
研究探讨了三种方法来识别语言模型组件与特定输出之间的因果关系,通过对 GPT-2 进行参数有效的微调,成功减轻性别偏见,同时对整体语言建模造成的损害较小。
Oct, 2023
本文介绍了一种基于对抗学习的机器翻译性别偏见缓解框架,该框架通过在预训练的大型语言模型上微调网络目标,以及从数据自身推断保护变量的任务中开发措施,实现了对机器翻译中的性别偏见的缓解,提高了男女实体翻译质量的差异。
Mar, 2022
大语言模型可以生成具有偏见的回答。然而,先前的直接探测技术包含性别提及或预定义的性别刻板印象,这些很难全面收集。因此,我们提出了一种基于条件生成的间接探测框架,旨在诱使大语言模型揭示其性别偏见,即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明,所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见,即使输入中没有性别刻板印象。此外,模型大小的增加或模型对齐会放大大多数情况下的偏见。此外,我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是,即使没有显式的性别或刻板印象,这些方法也被证明是有效的。
Feb, 2024