ACLMar, 2022

FairLex: 一个用于评估法律文本处理中公平性的多语言基准

TL;DR本文提出了一个数据基准,用于评估预训练的语言模型在下游任务中的公平性,包括四个司法管辖区(欧洲理事会、美国、瑞士和中国)、五种语言(英语、德语、法语、意大利语和汉语)以及五个属性的公平性(性别、年龄、地区、语言和法律领域),并通过几种群组鲁棒性的微调技术评估预训练的语言模型,发现在许多情况下,绩效群体差异非常明显,而这些技术均不能保证公平性,并且不能一致地减少群体差异,此外,对结果进行了定量和定性分析,并强调法律 NLP 鲁棒性方法发展中存在的挑战。