预训练语言模型在有毒文本分类中的公平性可能存在差异

ACLAug, 2021

预训练语言模型在有毒文本分类中的公平性可能存在差异

Your fairness may vary: Pretrained language model fairness in toxic text classification

Ioana Baldini, Dennis Wei, Karthikeyan Natesan Ramamurthy, Mikhail Yurochkin, Moninder Singh

TL;DR本研究分析了不同大小的预训练语言模型在两个有毒文本分类任务上的公平性，发现仅关注准确性度量可能会导致具有广泛公平特性变化的模型。我们发现，尽管文献中有所声称，但公平变化很少与模型大小有关。为了提高模型的公平性，该研究表明可以成功地将适用于结构化表格数据的两种后处理方法应用于各种预训练语言模型中。

Abstract

The popularity of pretrained language models in natural language processing systems calls for a careful evaluation of such models in down-stream tasks, which have a higher potential for societal impact. The evaluation of such systems usually focuses on accuracy measures. Our findings i

pretrained language models fairness measures toxic text classification model variations post-processing methods

发现论文，激发创造

使用有偏尺度衡量公平性：对预训练语言模型中偏差量化的调查

调查表明，对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难，如果不是完全不可能的。建议避免基于嵌入的指标，并专注于下游任务中的公平度评估，以提高未来的公平度比较和评估。

Dec, 2021

模型和评估：朝着多语言文本分类公平性的方向

本文提出了一种针对多语言文本分类的去偏置框架，包括多语文本表示模块、语言融合模块、文本去偏置模块和文本分类模块，并拥有对多维度公平性评估方法。该方法无需依赖语言资源，可以拓展到其他语言。

Mar, 2023

FairLex: 一个用于评估法律文本处理中公平性的多语言基准

本文提出了一个数据基准，用于评估预训练的语言模型在下游任务中的公平性，包括四个司法管辖区（欧洲理事会、美国、瑞士和中国）、五种语言（英语、德语、法语、意大利语和汉语）以及五个属性的公平性（性别、年龄、地区、语言和法律领域），并通过几种群组鲁棒性的微调技术评估预训练的语言模型，发现在许多情况下，绩效群体差异非常明显，而这些技术均不能保证公平性，并且不能一致地减少群体差异，此外，对结果进行了定量和定性分析，并强调法律 NLP 鲁棒性方法发展中存在的挑战。

Mar, 2022

自动生成测试内容中的公平性问题识别

旨在探讨自然语言生成中的公平问题，特别关注自动生成的测试内容对测试结果的影响，构建数据集并使用多种分类方法进行实验，发现自我纠正和少样本学习相结合的方法在公平性上有最佳表现。

Apr, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023

自然语言处理中的人类辅助公正分类

本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法，以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对，并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。

Dec, 2022

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

评估预训练多模态表示中的多语言公平性

本文通过引入多语言个体公平和多语言群体公平这两个公平性概念，分析了预训练的多模态模型是否公平地对待多种语言，结果表明预训练模型在各种语言上的表现差异很大，缺乏多语言群体公平特性，并且对于涉及种族、性别和年龄等方面的人物群体，模型存在一定的偏误。

Jun, 2021

自然语言处理中偏差和公平性调查

本次调查分析了 NLP 模型的社会影响，探讨了 NLP 算法中存在性别、种族和文化偏见的根源，定义了公平性，并说明了 NLP 各个子领域如何减少系统存在的偏见，最终讨论了未来研究如何消除 NLP 算法中的有害偏见。

Mar, 2022