FairLex: 一个用于评估法律文本处理中公平性的多语言基准

ACLMar, 2022

FairLex: 一个用于评估法律文本处理中公平性的多语言基准

FairLex: A Multilingual Benchmark for Evaluating Fairness in Legal Text Processing

Ilias Chalkidis, Tommaso Pasini, Sheng Zhang, Letizia Tomada, Sebastian Felix Schwemer...

TL;DR本文提出了一个数据基准，用于评估预训练的语言模型在下游任务中的公平性，包括四个司法管辖区（欧洲理事会、美国、瑞士和中国）、五种语言（英语、德语、法语、意大利语和汉语）以及五个属性的公平性（性别、年龄、地区、语言和法律领域），并通过几种群组鲁棒性的微调技术评估预训练的语言模型，发现在许多情况下，绩效群体差异非常明显，而这些技术均不能保证公平性，并且不能一致地减少群体差异，此外，对结果进行了定量和定性分析，并强调法律 NLP 鲁棒性方法发展中存在的挑战。

Abstract

We present a benchmark suite of four datasets for evaluating the fairness of pre-trained language models and the techniques used to fine-tune them for downstream tasks. Our benchmarks cover four jurisdictions (Eu

fairness pre-trained language models fine-tuning techniques group disparities robustness methods

发现论文，激发创造

跨越英语的语言模型公平性：现存问题与挑战

本研究调查了多语言和非英文环境下公平性问题，并强调当前研究的不足之处及因英语环境限制所面临的挑战。作者认为，在构建公平性数据集方面，世界上众多多样化的文化和语言使得实现全面覆盖变得不可行，因此需超越当前仅仅集中在特定维度和类型偏见的数据集驱动方法，以便在不同的语言和文化间实现扩展。

Feb, 2023

预训练语言模型在有毒文本分类中的公平性可能存在差异

本研究分析了不同大小的预训练语言模型在两个有毒文本分类任务上的公平性，发现仅关注准确性度量可能会导致具有广泛公平特性变化的模型。我们发现，尽管文献中有所声称，但公平变化很少与模型大小有关。为了提高模型的公平性，该研究表明可以成功地将适用于结构化表格数据的两种后处理方法应用于各种预训练语言模型中。

Aug, 2021

模型和评估：朝着多语言文本分类公平性的方向

本文提出了一种针对多语言文本分类的去偏置框架，包括多语文本表示模块、语言融合模块、文本去偏置模块和文本分类模块，并拥有对多维度公平性评估方法。该方法无需依赖语言资源，可以拓展到其他语言。

Mar, 2023

自然语言处理和大型语言模型的公平认证

发展公平认证以确保自然语言处理系统的算法公正性和对少数群体的非歧视性。

Jan, 2024

使用有偏尺度衡量公平性：对预训练语言模型中偏差量化的调查

调查表明，对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难，如果不是完全不可能的。建议避免基于嵌入的指标，并专注于下游任务中的公平度评估，以提高未来的公平度比较和评估。

Dec, 2021

评估预训练多模态表示中的多语言公平性

本文通过引入多语言个体公平和多语言群体公平这两个公平性概念，分析了预训练的多模态模型是否公平地对待多种语言，结果表明预训练模型在各种语言上的表现差异很大，缺乏多语言群体公平特性，并且对于涉及种族、性别和年龄等方面的人物群体，模型存在一定的偏误。

Jun, 2021

预训练的多语言模型在不同语言间的公平性是否相同？

探讨预训练多语言语言模型的组公平性，通过创建一个新的平行洞察测试实例的多语言数据集（MozArt）及使用人口统计信息来评估三种多语言模型（mBERT，XLM-R 和 mT5），我们发现这三种模型在四种目标语言中表现出不同程度的组不公平性，例如在西班牙语中表现出接近相等的风险，但在德语中表现出高水平的不平等。

Oct, 2022

公平 LENS：评估执法语音识别中的公平性

为了确保在不同的音响环境中为不同的人群提供公平性，我们建立了一个系统性的公平评估框架，通过一种新颖且适应性强的评估方法来检查不同模型之间的公平差距，并收集了多种情景和人口学维度的公平评估数据集。我们对 1 个开源和 11 个商业化最先进的 ASR 模型进行了公平评估，结果显示某些模型比其他模型存在更多偏见，这对用户在选择适合特定实际场景的 ASR 模型时提供了公平性指导。我们进一步探讨了模型对特定人口群体的偏见，并观察到音响领域的变化可能导致新的偏见出现。

May, 2024

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023

提高瑞士判决预测的可解释性与公平性：在多语言数据集上进行基准测试

对法律判决预测系统中可解释性的评估至关重要，该研究利用瑞士判决预测数据集 (Swiss Judgement Prediction) 研究了多语言 LJP 模型的可解释能力和公平性，并通过全面的支持和反对判决的理由，评估了基于 BERT 的单语言和多语言 LJP 模型的解释性能和预测性能改进的技术。研究结果表明，预测性能的提高并不一定对应于解释性能的增强，强调了从可解释性的角度评估模型的重要性。此外，还引入了一种新的评估框架，即底层法院插入 (Lower Court Insertion)，用于量化底层法院信息对模型预测的影响，揭示了当前模型的偏见。

Feb, 2024