公正对待：通过成对扰动对语言模型中的偏见进行稳健评估

Apr, 2024

公正对待：通过成对扰动对语言模型中的偏见进行稳健评估

FairPair: A Robust Evaluation of Biases in Language Models through Paired Perturbations

Jane Dwivedi-Yu, Raaz Dwivedi, Timo Schick

TL;DRFairPair 是一个评估框架，用于评估在普通使用中发生的差异对待；通过对具有相同人口群体背景的对照组进行分析，考虑了生成过程本身的变异性，表明更倾向于将家庭和爱好与女性相关联。

Abstract

The accurate evaluation of differential treatment in language models to specific groups is critical to ensuring a positive and safe user experience. An ideal evaluation should have the properties of being robust,

differential treatment language models evaluation framework biases generative models

发现论文，激发创造

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

与人类判断相一致：大型语言模型评估者中的成对优先关系的作用

使用 Pairwise-preference Search（PAIRS）方法，通过对比评估候选文本，解决了大型语言模型（LLMs）在评估中出现的偏差与不连贯问题。

Mar, 2024

DiFair: 评估性别知识和偏见的可分解基准

使用 DiFair 数据集作为基准，通过设计统一评估指标，研究了许多广泛使用的预训练语言模型和去偏技术，发现存在的性别偏见得到了证实，同时也证明了去偏技术虽然改善了性别偏见问题，但通常会降低模型的有用性别知识。

Oct, 2023

自然语言处理中的人类辅助公正分类

本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法，以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对，并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。

Dec, 2022

FairPy：一个大型语言模型的社会偏见评估与缓解工具包

本文全面评估了常用的预训练语言模型（如 BERT、GPT-2 等）在种族、性别、种族、年龄等方面所表现出的各种偏见，并介绍了一种工具包，提供了插入数学工具程序以识别偏见的接口，并让用户使用这些度量来测试现有的和自定义的模型。此工具还具有消除偏见的功能。

Feb, 2023

PRePair: 增强逐点推理的鲁棒指令遵循评估

通过比较点对和逐点评估方法，研究发现逐点评估方法对不必要的偏好具有更强的鲁棒性，而逐点评估器在判断错误时仍能准确识别低质量输出的缺点，这表明大型语言模型在点对评估设置中更受其偏见的影响；为了缓解这个问题，该研究提出了一种将逐点推理方法整合到点对评估中的混合方法，实验结果表明我们的方法在对抗样本中提高了点对评估器的鲁棒性，并在正常样本上保持了准确性。

Jun, 2024

通过性别不明确的代词进行反事实偏见评估的计数器

本文提出了一种新的方法通过反事实生成来收集多样性，自然性和最小距离的文本对，并构建了一个由 4008 个实例分成 1002 个四重组成的 Counter-GAP 注释数据集，以评估语言模型在固指消解中的性别偏见问题。作者使用四重组级别指标解决了以前的偏差取消问题，并发现四个预训练的语言模型在不同性别组之间的不一致性显着大于在每个组内部的不一致性，姓名为基础的反事实数据增强方法比匿名化方法对减少这种偏见更有效。

Feb, 2023

排名和回归的成对公平性

我们提出了针对排名模型和回归模型的成对公平度量标准，这些标准类似于统计公平概念，如平等机会、平等准确性和统计平等，通过现有的约束优化和鲁棒优化技术可以有效地解决结果训练问题，实验表明这些方法具有广泛的适用性和权衡性。

Jun, 2019

公平自然语言处理的扰动增强

本研究探讨了在人口统计方面出现的偏差对自然语言处理中的模型和数据集的影响，通过对大量的人工标注文本扰动数据的训练，得出采用人口统计扰动数据进行预训练和调优可以使语言模型更加公平，并且能在不牺牲下游任务性能的前提下减少模型的偏差。

May, 2022

使用有偏尺度衡量公平性：对预训练语言模型中偏差量化的调查

调查表明，对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难，如果不是完全不可能的。建议避免基于嵌入的指标，并专注于下游任务中的公平度评估，以提高未来的公平度比较和评估。

Dec, 2021