fairBERTs：通过语义和公平感知扰动抹除敏感信息

Jul, 2024

fairBERTs：通过语义和公平感知扰动抹除敏感信息

fairBERTs: Erasing Sensitive Information Through Semantic and Fairness-aware Perturbations

Jinfeng Li, Yuefeng Chen, Xiangyu Liu, Longtao Huang, Rong Zhang...

TL;DR通过生成对抗网络生成语义和公平感知扰动，通过消除受保护敏感信息来学习公平微调的BERT类模型fairBERTs，在维持模型实用性的同时，解决预训练语言模型中存在的刻板偏见和不公平问题。

Abstract

pre-trained language models (PLMs) have revolutionized both the natural language processing research and applications. However, stereotypical biases (e.g., gender and racial discrimination) encoded in PLMs have r

发现论文，激发创造

自然语言推断的公平泛化任务设定

本文提出了一个正式的公平概念，并利用人工数据集来展示标准神经模型在要求的泛化方面表现不佳，只有联合组合前提和假设的任务特定模型能够达到高性能，即使这些模型也不能完美解决任务。

Nov, 2019

FairFil：预训练文本编码器的对比神经去偏方法

本文提出了第一个用于预训练句子编码器的神经去偏方法，通过公平滤波器网络将预训练编码器输出转化为去偏表示，在现实世界数据集上，我们的公平滤波器有效地减少了预训练文本编码器的偏差程度，并在下游任务中持续展现理想的性能。此外，我们的事后方法不需要重新训练文本编码器，进一步扩大了公平滤波器的应用空间。

Mar, 2021

检测社会偏见的内容：BERT 排名器的度量框架与对抗性缓解

本研究提出了一种新的框架来度量排名模型中检索文本内容的公平性，并使用针对信息检索的对抗性公平性缓解方法提出了一种排名模型(AdvBert)，该模型联合学习以预测相关性并删除受保护特征，为信息检索中存在的偏见问题提供了有效的解决方案。实验结果表明，与基线算法相比，所有排名模型的公平性较低，使用提出的AdvBert模型可以显著提高Bert排名器的公平性，同时在不损失实用性的情况下保持显着的公平性改善。

Apr, 2021

可持续模块化去偏语言模型

本文通过提出使用专用去偏置适配器的可持续模块化去偏置方法ADELE，解决当前使用预训练语言模型存在的去偏置方法计算代价高和可能导致遗忘的问题，在性别去偏置任务上展示了ADELE的有效性，并证明其模块化特性使其在大规模下游训练后仍能保持公平，并成功将其运用到六种目标语种。

Sep, 2021

使用有偏尺度衡量公平性：对预训练语言模型中偏差量化的调查

调查表明，对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难，如果不是完全不可能的。建议避免基于嵌入的指标，并专注于下游任务中的公平度评估，以提高未来的公平度比较和评估。

Dec, 2021

面向公平性的对抗扰动：用于缓解部署的深度模型的偏差

文章提出了一种灵活的方法来提高人工智能系统的公平性，即针对不同族群的公正性问题，利用对抗性扰动来盲化输入数据中与公平性相关的特征，该方法有效且具有出色的性能。

Mar, 2022

通过对抗学习实现平等机会公平性

本文提出了一种用于对抗训练的增强鉴别器，以更丰富的特征和更明确的方式建模平等机会，实验证明相比标准的针对偏见的对抗性去偏见方法，我们的方法在性能-公平性平衡方面有很大的改进。

Mar, 2022

公平自然语言处理的扰动增强

本研究探讨了在人口统计方面出现的偏差对自然语言处理中的模型和数据集的影响，通过对大量的人工标注文本扰动数据的训练，得出采用人口统计扰动数据进行预训练和调优可以使语言模型更加公平，并且能在不牺牲下游任务性能的前提下减少模型的偏差。

May, 2022

足够公平：在自然语言处理领域规范评估和选择公平性研究的模型

本研究就NLP系统展示的偏见和模型去偏见技术的限制做了梳理和评价，提出了实现公平学习的建议，具体包括明确不同方法之间的关系和与公平性理论的关系，以及处理模型选择问题的声明性工具，以帮助未来的工作。

Feb, 2023

公平信念评估——评估语言模型中的有害信念

通过FairBelief分析方法，我们揭示了英语语言模型普遍具有关于特定性别的伤害性信念，不同的训练过程、数据集、模型规模和架构会引发各种程度的伤害性信念。

Feb, 2024