DiFair: 评估性别知识和偏见的可分解基准

Oct, 2023

DiFair: 评估性别知识和偏见的可分解基准

DiFair: A Benchmark for Disentangled Assessment of Gender Knowledge and Bias

Mahdi Zakizadeh, Kaveh Eskandari Miandoab, Mohammad Taher Pilehvar

TL;DR使用 DiFair 数据集作为基准，通过设计统一评估指标，研究了许多广泛使用的预训练语言模型和去偏技术，发现存在的性别偏见得到了证实，同时也证明了去偏技术虽然改善了性别偏见问题，但通常会降低模型的有用性别知识。

Abstract

Numerous debiasing techniques have been proposed to mitigate the gender bias that is prevalent in pretrained language models. These are of

debiasing techniques gender bias pretrained language models gender invariance score useful gender knowledge

发现论文，激发创造

InterFair: 具有自然语言反馈的去偏见公平可解释预测

该研究论文提出，自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置，而不是盲目地消除它，为了实现公平平衡，研究人员建议采用能够与用户互动并提供反馈的交互式方法，从而在任务表现和偏置缓解之间实现更好和公正的平衡，并支持详尽的解释。

Oct, 2022

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

健康数据饮食上的深度学习：发现对公平性重要的示例

本文提出使用数据增强方法减少自然语言处理中的性别偏见，并通过削减数据集中的例子提高模型的公平性，实验证明该方法在三个文本分类数据集上所实现的公平性优于数据增强方法。

Nov, 2022

大型语言模型偏见缓解的知识编辑视角

通过对现有和附加的数据集进行系统评估公平性、特异性和泛化性的互补度量，本文首先建立了一个新的偏差缓解基准 BiasKE。同时，我们提出了一种新颖的偏差缓解方法 FAST，通过对个体偏见知识进行细粒度校准，实现可编辑的公平性。全面的实验证明，FAST 在保留知识的整体模型能力的同时，优于现有技术基线，具有显著的偏差缓解性能，突出了 LLM 中可编辑公平性的细粒度偏差缓解策略的前景。

May, 2024

公平度量分数是否足以评估机器学习中的歧视偏见？

论文研究了当前用于评估机器学习算法在文本数据上进行性别歧视的不足之处的度量方法，着重于 Bios 数据集上的职业预测任务，研究表明常用的性别偏差指数在训练集样本较小时具有不可靠性。

Jun, 2023

评估和减轻多语言环境中的性别偏见

这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战，并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准，同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。

Jul, 2023

通过反事实角色反转缓解精简语言模型中的性别偏见

本文介绍了一种基于对抗模型的知识蒸馏方法，用于减少语言模型中存在的性别差异，并通过实验证明了其有效性。

Mar, 2022

公平自然语言处理的扰动增强

本研究探讨了在人口统计方面出现的偏差对自然语言处理中的模型和数据集的影响，通过对大量的人工标注文本扰动数据的训练，得出采用人口统计扰动数据进行预训练和调优可以使语言模型更加公平，并且能在不牺牲下游任务性能的前提下减少模型的偏差。

May, 2022

控制偏见暴露以实现公平和可解释的预测

本文提出了一种公平去偏算法，通过调整预测模型的信念，尽可能使用敏感信息来进行预测，并在必要性最小化的同时承受一定的惩罚，以达到去偏和任务性能之间的理想平衡，并生成经过去偏的证明。

Oct, 2022