在没有民族信息的情况下进行 NLP 模型去偏见化

Dec, 2022

在没有民族信息的情况下进行 NLP 模型去偏见化

Debiasing NLP Models Without Demographic Information

Hadas Orgad, Yonatan Belinkov

TL;DR本研究提出了一种去偏见的方法，利用辅助模型检测出具有偏见的数据样本并在训练过程中进行下权重处理，从而实现在没有昂贵的人口统计学注释过程的情况下缓解社会偏见。

Abstract

Models trained from real-world data tend to imitate and amplify social biases. Although there are many methods suggested to mitigate biases, they require a preliminary information on the types of biases that should be mitigated (e.g., gender or racial bias) and the social groups associ

social bias debiasing method auxiliary model racial bias gender bias

发现论文，激发创造

控制偏见暴露以实现公平和可解释的预测

本文提出了一种公平去偏算法，通过调整预测模型的信念，尽可能使用敏感信息来进行预测，并在必要性最小化的同时承受一定的惩罚，以达到去偏和任务性能之间的理想平衡，并生成经过去偏的证明。

Oct, 2022

自然语言处理中社会人口统计信息偏差调查

本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文，提出了社会人口统计学偏见的定义，并确定了研究偏见的三个主要类别：偏见类型，偏见度量和去偏见。作者总结说，目前的去偏见技术是肤浅的，不能真正消除偏见；最后提供了未来工作的建议。

Jun, 2023

消除自然语言理解模型中的未知偏见

本文提出了一种自我去偏方法，以减少 NLU 模型在不事先知道偏差情况下利用偏差的趋势，并表明此方法不仅具有一般性和互补性，而且还能提高模型的整体鲁棒性。

Sep, 2020

利用原型表示消除社会偏见而不包含人口统计信息

DAFair 是一种用于减轻语言模型中社会偏见的新方法，通过预定义的典型人口统计文本，并在微调过程中加入正则化项来纠正模型的表示中的偏见，从而在两个任务和两个模型上实证结果显示了我们方法的有效性。此外，即使在有限的人口统计注释数据下，我们的方法也优于常见的去偏方法。

Mar, 2024

消除信息检索模型中的性别偏见

研究通过引入性别缓解技术、使用预训练模型以及适配器网络，成功地减轻了性别偏见问题，并提高了信息检索的敏感性。

Aug, 2022

利用少量数据干预减轻性别偏见的语言模型性别改造

本文提出了一种数据干预策略，通过在仅使用 10 个去偏见（干预）的训练样例上微调预训练模型，可显著降低优先考虑任何性别的趋势，从而减少预训练大型语言模型中的性别偏见，而且此方法的使用成本低，是一种高度可行且实用的少量训练样例去偏见方法。

Jun, 2023

通过自然语言理解中的偏见专家来改进偏见缓解

通过引入偏见专家（bias experts），我们提出了一个新的去偏框架，改善了辅助模型的偏见识别能力，并且在各种挑战性数据集上始终优于现有技术水平。

Dec, 2023

借鉴他人的经验：避免数据集偏见的模型无关方法

通过限制处理数据的模型容量，利用其错误来训练更加健壮的模型，从而解决自然语言处理模型对数据集偏见的问题，并且在数据分布发生变化时具有良好的可移植性。

Dec, 2020

通过建模语料库中的偏见进行端到端偏见缓解

本文提出了两种学习策略来训练神经模型，更加稳健，并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差，通过 down-weighting 有偏差的例子，使基础模型减少对偏差的依赖。实验表明，我们的去偏差方法在所有设置中都显著提高了模型的稳健性，并且更好地迁移到其他文本蕴涵数据集上。

Sep, 2019

InterFair: 具有自然语言反馈的去偏见公平可解释预测

该研究论文提出，自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置，而不是盲目地消除它，为了实现公平平衡，研究人员建议采用能够与用户互动并提供反馈的交互式方法，从而在任务表现和偏置缓解之间实现更好和公正的平衡，并支持详尽的解释。

Oct, 2022