公平自然语言处理的扰动增强

May, 2022

Perturbation Augmentation for Fairer NLP

Rebecca Qian, Candace Ross, Jude Fernandes, Eric Smith, Douwe Kiela...

TL;DR本研究探讨了在人口统计方面出现的偏差对自然语言处理中的模型和数据集的影响，通过对大量的人工标注文本扰动数据的训练，得出采用人口统计扰动数据进行预训练和调优可以使语言模型更加公平，并且能在不牺牲下游任务性能的前提下减少模型的偏差。

Abstract

Unwanted and often harmful social biases are becoming ever more salient in nlp research, affecting both models and datasets. In this work, we ask whether training on demographically perturbed data leads to fairer

nlp research demographically perturbed data language models fairness improvements downstream tasks

发现论文，激发创造

健康数据饮食上的深度学习：发现对公平性重要的示例

本文提出使用数据增强方法减少自然语言处理中的性别偏见，并通过削减数据集中的例子提高模型的公平性，实验证明该方法在三个文本分类数据集上所实现的公平性优于数据增强方法。

Nov, 2022

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

自然语言处理中偏差和公平性调查

本次调查分析了 NLP 模型的社会影响，探讨了 NLP 算法中存在性别、种族和文化偏见的根源，定义了公平性，并说明了 NLP 各个子领域如何减少系统存在的偏见，最终讨论了未来研究如何消除 NLP 算法中的有害偏见。

Mar, 2022

从预训练数据到语言模型到下游任务：跟踪导致不公正 NLP 模型的政治偏见

本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见，以及在预训练数据中表现出政治（社会，经济）偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向，这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中，本研究讨论了这些发现对 NLP 研究的影响，并提出了减轻不公平的未来方向。

May, 2023

InterFair: 具有自然语言反馈的去偏见公平可解释预测

该研究论文提出，自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置，而不是盲目地消除它，为了实现公平平衡，研究人员建议采用能够与用户互动并提供反馈的交互式方法，从而在任务表现和偏置缓解之间实现更好和公正的平衡，并支持详尽的解释。

Oct, 2022

平衡偏差：通过平衡训练实现公平

该研究旨在解决自然语言处理中与作者人口统计信息相关的系统偏差问题，提出了一种基于数据集平衡和带保护属性的门控模型来实现公正性，证明了该方法在减少偏差方面优于其他技术。

Sep, 2021

调节注意力以实现公平：我们应该更多还是更少地参加？

本文研究了自然语言处理中的社会偏见问题，提出了一种基于注意力机制调节权重的方法，增加模型的公平性，并提高不同规模语言模型下的分类和生成任务的表现。

May, 2023

从差分隐私中减弱语言模型微调的偏见

机器学习中公平性和隐私性是两个重要的价值观，通过差分隐私机制来限制个体训练数据对结果模型的影响，但我们发现差分隐私会加剧性别、种族和宗教偏见，而反事实数据增强法可以缓解差分隐私所引发的偏见扩大，因此差分隐私和反事实数据增强法可以同时维护公平性和隐私。

Feb, 2024

视觉和语言研究中实现更公平的神经模型的去偏置方法：一份调查报告

在电脑视觉和自然语言处理领域中，神经网络虽然能够取得最新成果，但是其存在数据内的建模偏见，导致人工智能领域出现了公平性的研究方向，其目的为了纠正算法偏见，提出了几种基于公平性的神经网络去偏置的方法。

Nov, 2022