考虑所有标签来评估预训练语言模型在自然语言推理中的性别偏见

Sep, 2023

考虑所有标签来评估预训练语言模型在自然语言推理中的性别偏见

Evaluating Gender Bias of Pre-trained Language Models in Natural Language Inference by Considering All Labels

Panatchakorn Anantaprayoon, Masahiro Kaneko, Naoaki Okazaki

TL;DR本文提出了一种考虑自然语言推理任务中所有标签的评估方法来评估预训练语言模型中的偏见，并通过对多种语言的模型进行元评估，证明该方法能够更准确地评估偏见。此外，本文还是首次在日语和中文的自然语言推理任务中构建评估数据集并测量预训练语言模型的偏见倾向。

Abstract

discriminatory social biases, including gender biases, have been found in pre-trained language models (PLMs). In natural language inference

discriminatory social biases pre-trained language models bias evaluation methods natural language inference evaluation datasets

发现论文，激发创造

自然语言推断中的性别偏见评估

本文提出了一种评估方法来测量天生的性别偏见，其通过构建一项挑战任务，通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现，许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误，但通过通过扩充训练数据集来确保性别平衡，可以在某些情况下帮助减少此类偏差。

May, 2021

比较内在性别偏见评估方法，无需使用人工标注示例

本文提出了一种对先前提出的内在性别偏见评估方法进行比较的方法，该方法不需要使用人工注释样例，而是通过使用自动挖掘的语料库中的男女性句子来创建多个偏置控制的 PLMs，并使用每个 PLM 评估内在性别偏见评估措施。实验表明，所提出的方法计算的偏见得分与用人工注释样例计算的结果相当。

Jan, 2023

大型语言模型中的性别偏见

我们研究了不同语言中大型语言模型生成的输出中的性别偏见，通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词（她 / 他）的性别偏见以及生成对话的主题的性别偏见。我们的研究表明，在我们调查的所有语言中都存在显著的性别偏见。

Mar, 2024

语言模型中的语言无关偏见检测

本研究提出了一种名为 LABDet 的鲁棒的、语言无关的方法，用于评估 PLMs 中的社会偏见，且通过实验证明 LABDet 能展现国籍偏见，我们在六种语言上使用该方法，并验证了其可靠性和适用性。

May, 2023

多语言遮蔽语言模型中的性别偏见评估

通过多种评估指标，提出了一种多语言方法来估计基于 Transformer 的遮掩语言模型中的性别偏见。同时，通过与传统的基于词典的方法相比，提出了一种基于模型的方法，以更全面和稳健地分析性别偏见。

Apr, 2024

利用大型语言模型衡量性别化语言中的性别偏见

该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法，通过识别和分类与人类实体相关的具有性别特征的名词和代词，揭示了四个广泛使用的基准数据集中存在的显著性别差异，从男性到女性的比例范围从 4:1 到 6:1，这些发现证明了我们方法在性别语言中进行偏见量化的价值，并建议在自然语言处理中应用该方法，为更公平的语言技术发展做出贡献。

Jun, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

第二次审视的偏见：对德国教育同行评审数据建模偏见的深入挖掘

本文基于德文语料库的数据集，在多个体系结构中通过词嵌入联想测试（WEAT）分析了预先训练的德语语言模型的偏见，发现这些语言模型存在实质性的概念、种族和性别偏见，并且在同伴评审数据的微调中，偏见在概念和种族轴上有显着变化。

Sep, 2022

从预训练数据到语言模型到下游任务：跟踪导致不公正 NLP 模型的政治偏见

本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见，以及在预训练数据中表现出政治（社会，经济）偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向，这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中，本研究讨论了这些发现对 NLP 研究的影响，并提出了减轻不公平的未来方向。

May, 2023

MAFIA: 多适配器融合式全包含语言模型

通过使用结构化知识和大型生成模型，在多个偏见维度上以半自动的方式构建多样化反事实数据扩充（CDA），我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用，并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估，证明了我们的方法的有效性。

Feb, 2024