评估预训练多模态表示中的多语言公平性
探讨预训练多语言语言模型的组公平性,通过创建一个新的平行洞察测试实例的多语言数据集(MozArt)及使用人口统计信息来评估三种多语言模型(mBERT,XLM-R 和 mT5),我们发现这三种模型在四种目标语言中表现出不同程度的组不公平性,例如在西班牙语中表现出接近相等的风险,但在德语中表现出高水平的不平等。
Oct, 2022
本文提出了一种针对多语言文本分类的去偏置框架,包括多语文本表示模块、语言融合模块、文本去偏置模块和文本分类模块,并拥有对多维度公平性评估方法。该方法无需依赖语言资源,可以拓展到其他语言。
Mar, 2023
本研究调查了多语言和非英文环境下公平性问题,并强调当前研究的不足之处及因英语环境限制所面临的挑战。作者认为,在构建公平性数据集方面,世界上众多多样化的文化和语言使得实现全面覆盖变得不可行,因此需超越当前仅仅集中在特定维度和类型偏见的数据集驱动方法,以便在不同的语言和文化间实现扩展。
Feb, 2023
人工智能系统中解决公平性和偏差的重要性不可低估。本文填补了大型多模态模型在公平性和偏差研究方面相对于大型语言模型的缺口,提供了 50 个数据集和模型的示例以及影响它们的挑战;我们除了文献中已知的内在偏差和外在偏差两种方式外,还确定了一种新的偏差量化方法(preuse);我们批判性地讨论了研究人员面对这些挑战时采取的各种方式。我们的方法使用了两个稍有不同的 Google Scholar 搜索词,结果显示出 “大型多模态模型中公平性和偏差” 的搜索词的结果为 33,400 个链接,“大型语言模型中公平性和偏差” 的搜索词的结果为 538,000 个链接。我们相信这项工作有助于填补此领域的研究空白,并向研究人员和其他相关者提供处理多模态人工智能中公平性和偏差问题的见解。
Jun, 2024
本研究分析了不同大小的预训练语言模型在两个有毒文本分类任务上的公平性,发现仅关注准确性度量可能会导致具有广泛公平特性变化的模型。我们发现,尽管文献中有所声称,但公平变化很少与模型大小有关。为了提高模型的公平性,该研究表明可以成功地将适用于结构化表格数据的两种后处理方法应用于各种预训练语言模型中。
Aug, 2021
本文提出了一个数据基准,用于评估预训练的语言模型在下游任务中的公平性,包括四个司法管辖区(欧洲理事会、美国、瑞士和中国)、五种语言(英语、德语、法语、意大利语和汉语)以及五个属性的公平性(性别、年龄、地区、语言和法律领域),并通过几种群组鲁棒性的微调技术评估预训练的语言模型,发现在许多情况下,绩效群体差异非常明显,而这些技术均不能保证公平性,并且不能一致地减少群体差异,此外,对结果进行了定量和定性分析,并强调法律 NLP 鲁棒性方法发展中存在的挑战。
Mar, 2022
本论文对多种语言进行偏见分析,研究多语言数据训练与单语言数据训练对 Bias 的影响并使用情感分析模型来观察不同民族是否被更正面地看待,结果发现多语言 Finetuning 导致对保护群体的预测变异性增加,表明了 Bias 的放大效应。
May, 2023
通过分析文档和句子的自然语言表示(即编码),我们发现并研究了这些编码中可能存在的针对不同子群体的偏见,并提出了缓解这种偏见的方法同时保持分类模型的较高准确性。
Apr, 2024
本文提出了一个名为 MMBias 的基准数据集,用于评估自我监督多模态模型中的偏差,并介绍了一种旨在缓解偏差的去偏置方法。
Mar, 2023
公平性对于深度学习至关重要,尤其是在医疗领域,因为这些模型会影响诊断和治疗决策。本研究介绍了第一个公平的医学视觉语言数据集 FairVLMed,通过提供详细的人口属性、真实标签和临床笔记来深入研究视觉语言基础模型内的公平性。使用 FairVLMed,我们对两个广泛使用的视觉语言模型(CLIP 和 BLIP2)进行了全面的公平性分析,这两个模型分别在自然和医学领域进行了预训练,并跨越了四个不同的受保护属性。研究结果显示,所有视觉语言模型都存在显著偏见,其中亚洲人、男性、非西班牙裔和西班牙语为种族、性别、民族和语言方面的首选子群体。为了减轻这些偏见,我们提出了一种基于最优输运的方法 FairCLIP,通过减小整体样本分布和相应人口群体分布之间的 Sinkhorn 距离,在性能和公平性之间实现了有利的权衡。作为首个类似数据集,FairVLMed 有潜力促进开发既具有道德意识又具有临床有效性的机器学习模型的进步。
Mar, 2024