模型适应的去偏算法

Oct, 2023

Debiasing Algorithm through Model Adaptation

Tomasz Limisiewicz, David Mareček, Tomáš Musil

TL;DR提出了一种用于检测和减轻语言模型中性别偏见的新方法，通过因果分析确定了问题模型组件，发现中上部前馈层最容易传递偏见，根据分析结果通过线性投影来改进模型，该方法（DAMA）显著减少了偏见，并保持了模型在下游任务上的性能。

Abstract

large language models are becoming the go-to solution for various language tasks. However, with growing capacity, models are prone to rely on spurious correlations stemming from biases and stereotypes present in the training data. This work proposes a novel method for detecting and mit

large language models gender bias causal analysis mid-upper feed-forward layers dama

发现论文，激发创造

透过 AdapterFusion 实现参数高效，模块化的偏置缓解

本研究提出了一种名为 DAM 的去偏见方法，通过 Adapter 模块的集成，实现去偏见的独立功能，该方法在三个分类任务中，具有效性、增加了公平性、同时保持了核心模型的效能。

Feb, 2023

在大型语言模型中定位和缓解性别偏见

本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应，并在此基础上提出了最小二乘去偏（LSDM）方法，用于减少职业代词中的性别偏见，实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见，同时在其他方面完全保留了模型的能力。

Mar, 2024

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022

偏见的诞生：一项关于英语语言模型中性别偏见演变的研究

研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化，并且性别信息逐渐局部化。通过监控训练动态，可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。

Jul, 2022

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

MAFIA: 多适配器融合式全包含语言模型

通过使用结构化知识和大型生成模型，在多个偏见维度上以半自动的方式构建多样化反事实数据扩充（CDA），我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用，并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估，证明了我们的方法的有效性。

Feb, 2024

LIDAO: 限制干预以解决（大规模）语言模型偏见问题

大型语言模型中的公平性和流畅度之间的权衡问题研究，提出了一种基于信息论的框架 LIDAO，用于使语言模型更好地实现公平性而仍保持流畅度。

Jun, 2024

识别并调整英语语言模型中负责性别偏见的 Transformer 组件

研究探讨了三种方法来识别语言模型组件与特定输出之间的因果关系，通过对 GPT-2 进行参数有效的微调，成功减轻性别偏见，同时对整体语言建模造成的损害较小。

Oct, 2023

通过对抗学习缓解机器翻译中的性别偏见

本文介绍了一种基于对抗学习的机器翻译性别偏见缓解框架，该框架通过在预训练的大型语言模型上微调网络目标，以及从数据自身推断保护变量的任务中开发措施，实现了对机器翻译中的性别偏见的缓解，提高了男女实体翻译质量的差异。

Mar, 2022

LLMs 中性别偏见的揭示与减轻

大语言模型可以生成具有偏见的回答。然而，先前的直接探测技术包含性别提及或预定义的性别刻板印象，这些很难全面收集。因此，我们提出了一种基于条件生成的间接探测框架，旨在诱使大语言模型揭示其性别偏见，即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明，所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见，即使输入中没有性别刻板印象。此外，模型大小的增加或模型对齐会放大大多数情况下的偏见。此外，我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是，即使没有显式的性别或刻板印象，这些方法也被证明是有效的。

Feb, 2024