评估预训练多模态表示中的多语言公平性

Jun, 2021

评估预训练多模态表示中的多语言公平性

Assessing Multilingual Fairness in Pre-trained Multimodal Representations

Jialu Wang, Yang Liu, Xin Eric Wang

TL;DR本文通过引入多语言个体公平和多语言群体公平这两个公平性概念，分析了预训练的多模态模型是否公平地对待多种语言，结果表明预训练模型在各种语言上的表现差异很大，缺乏多语言群体公平特性，并且对于涉及种族、性别和年龄等方面的人物群体，模型存在一定的偏误。

Abstract

Recently pre-trained multimodal models, such as CLIP, have shown exceptional capabilities towards connecting images and natural language. The textual representations in English can be desirably transferred to multilingualism and support downstream multimodal tasks for different languag

multimodal models multilingual fairness individual fairness group fairness accuracy disparity

发现论文，激发创造

预训练的多语言模型在不同语言间的公平性是否相同？

探讨预训练多语言语言模型的组公平性，通过创建一个新的平行洞察测试实例的多语言数据集（MozArt）及使用人口统计信息来评估三种多语言模型（mBERT，XLM-R 和 mT5），我们发现这三种模型在四种目标语言中表现出不同程度的组不公平性，例如在西班牙语中表现出接近相等的风险，但在德语中表现出高水平的不平等。

Oct, 2022

模型和评估：朝着多语言文本分类公平性的方向

本文提出了一种针对多语言文本分类的去偏置框架，包括多语文本表示模块、语言融合模块、文本去偏置模块和文本分类模块，并拥有对多维度公平性评估方法。该方法无需依赖语言资源，可以拓展到其他语言。

Mar, 2023

跨越英语的语言模型公平性：现存问题与挑战

本研究调查了多语言和非英文环境下公平性问题，并强调当前研究的不足之处及因英语环境限制所面临的挑战。作者认为，在构建公平性数据集方面，世界上众多多样化的文化和语言使得实现全面覆盖变得不可行，因此需超越当前仅仅集中在特定维度和类型偏见的数据集驱动方法，以便在不同的语言和文化间实现扩展。

Feb, 2023

多模态人工智能中的公平性与偏见：一项调研

人工智能系统中解决公平性和偏差的重要性不可低估。本文填补了大型多模态模型在公平性和偏差研究方面相对于大型语言模型的缺口，提供了 50 个数据集和模型的示例以及影响它们的挑战；我们除了文献中已知的内在偏差和外在偏差两种方式外，还确定了一种新的偏差量化方法（preuse）；我们批判性地讨论了研究人员面对这些挑战时采取的各种方式。我们的方法使用了两个稍有不同的 Google Scholar 搜索词，结果显示出 “大型多模态模型中公平性和偏差” 的搜索词的结果为 33,400 个链接，“大型语言模型中公平性和偏差” 的搜索词的结果为 538,000 个链接。我们相信这项工作有助于填补此领域的研究空白，并向研究人员和其他相关者提供处理多模态人工智能中公平性和偏差问题的见解。

Jun, 2024

预训练语言模型在有毒文本分类中的公平性可能存在差异

本研究分析了不同大小的预训练语言模型在两个有毒文本分类任务上的公平性，发现仅关注准确性度量可能会导致具有广泛公平特性变化的模型。我们发现，尽管文献中有所声称，但公平变化很少与模型大小有关。为了提高模型的公平性，该研究表明可以成功地将适用于结构化表格数据的两种后处理方法应用于各种预训练语言模型中。

Aug, 2021

FairLex: 一个用于评估法律文本处理中公平性的多语言基准

本文提出了一个数据基准，用于评估预训练的语言模型在下游任务中的公平性，包括四个司法管辖区（欧洲理事会、美国、瑞士和中国）、五种语言（英语、德语、法语、意大利语和汉语）以及五个属性的公平性（性别、年龄、地区、语言和法律领域），并通过几种群组鲁棒性的微调技术评估预训练的语言模型，发现在许多情况下，绩效群体差异非常明显，而这些技术均不能保证公平性，并且不能一致地减少群体差异，此外，对结果进行了定量和定性分析，并强调法律 NLP 鲁棒性方法发展中存在的挑战。

Mar, 2022

比较多语言训练的偏差及其影响

本论文对多种语言进行偏见分析，研究多语言数据训练与单语言数据训练对 Bias 的影响并使用情感分析模型来观察不同民族是否被更正面地看待，结果发现多语言 Finetuning 导致对保护群体的预测变异性增加，表明了 Bias 的放大效应。

May, 2023

在公平表示和准确性之间填补差距

通过分析文档和句子的自然语言表示（即编码），我们发现并研究了这些编码中可能存在的针对不同子群体的偏见，并提出了缓解这种偏见的方法同时保持分类模型的较高准确性。

Apr, 2024

多模态偏见：在视觉语言模型中引入一个能评估除性别和种族以外刻板印象的框架

本文提出了一个名为 MMBias 的基准数据集，用于评估自我监督多模态模型中的偏差，并介绍了一种旨在缓解偏差的去偏置方法。

Mar, 2023

FairCLIP: 在视觉语言学习中利用公平性

公平性对于深度学习至关重要，尤其是在医疗领域，因为这些模型会影响诊断和治疗决策。本研究介绍了第一个公平的医学视觉语言数据集 FairVLMed，通过提供详细的人口属性、真实标签和临床笔记来深入研究视觉语言基础模型内的公平性。使用 FairVLMed，我们对两个广泛使用的视觉语言模型（CLIP 和 BLIP2）进行了全面的公平性分析，这两个模型分别在自然和医学领域进行了预训练，并跨越了四个不同的受保护属性。研究结果显示，所有视觉语言模型都存在显著偏见，其中亚洲人、男性、非西班牙裔和西班牙语为种族、性别、民族和语言方面的首选子群体。为了减轻这些偏见，我们提出了一种基于最优输运的方法 FairCLIP，通过减小整体样本分布和相应人口群体分布之间的 Sinkhorn 距离，在性能和公平性之间实现了有利的权衡。作为首个类似数据集，FairVLMed 有潜力促进开发既具有道德意识又具有临床有效性的机器学习模型的进步。

Mar, 2024