比较内在性别偏见评估方法，无需使用人工标注示例

ACLJan, 2023

比较内在性别偏见评估方法，无需使用人工标注示例

Comparing Intrinsic Gender Bias Evaluation Measures without using Human Annotated Examples

Masahiro Kaneko, Danushka Bollegala, Naoaki Okazaki

TL;DR本文提出了一种对先前提出的内在性别偏见评估方法进行比较的方法，该方法不需要使用人工注释样例，而是通过使用自动挖掘的语料库中的男女性句子来创建多个偏置控制的 PLMs，并使用每个 PLM 评估内在性别偏见评估措施。实验表明，所提出的方法计算的偏见得分与用人工注释样例计算的结果相当。

Abstract

Numerous types of social biases have been identified in pre-trained language models (PLMs), and various intrinsic bias evaluation measures have been proposed for quantifying those →

social biases pre-trained language models intrinsic bias evaluation measures gender bias evaluation corpora

发现论文，激发创造

考虑所有标签来评估预训练语言模型在自然语言推理中的性别偏见

本文提出了一种考虑自然语言推理任务中所有标签的评估方法来评估预训练语言模型中的偏见，并通过对多种语言的模型进行元评估，证明该方法能够更准确地评估偏见。此外，本文还是首次在日语和中文的自然语言推理任务中构建评估数据集并测量预训练语言模型的偏见倾向。

Sep, 2023

内在偏见度量与应用偏见无关

本文比较了不同任务和实验条件下数百个已训练模型的内在和外在偏差度量标准之间的关系，发现这些度量标准在所有情况下都没有可靠的相关性。作者呼吁重点关注外在的偏差度量标准，并通过创建新的挑战集和注释测试数据使使用这些度量标准更加可行。在此基础上，作者发布了一份基于性别偏见的仇恨言论的代码、新的内部度量标准和一个注释的测试集。

Dec, 2020

自动评估指标中的性别偏见：以图像字幕为例的案例研究

本论文通过系统的调研，研究发现了预训练模型存在性别偏见的问题，探讨了预训练模型在图像字幕生成任务中的公平性影响，并提出了一种针对这种问题的解决方案：结合 n-gram 匹配和预训练模型评估度量，以减少性别偏见的影响。

May, 2023

BERTScore 不公平：基于语言模型的文本生成度量中的社会偏见

本文首次对基于预训练语言模型的度量方法中的社会偏见进行了系统研究，并发现相比传统度量方法，最受欢迎的基于预训练语言模型的度量方法在种族、性别、宗教、外貌、年龄和社会经济地位等 6 个敏感属性上显示出显著的社会偏向。此外，研究发现选择度量方法的范式比选择预训练语言模型对公平性的影响更大，我们提出了消除偏见的适配器方案，将其注入到预训练语言模型层中，从而减轻了基于预训练语言模型的度量方法的偏见，同时保持了评估文本生成的高性能。

Oct, 2022

在没有基准实例的情况下，评估模型的偏差

这篇研究提出了一种解决机器学习中偏见问题的数学方法，利用图像分类作为工作示例，通过将分类模型对给定图像的预测视为类似于单词袋的标签集合，排名模型对不同身份标签学习的偏见。作者使用（男人，女人）作为身份标签集的具体例子，并展示了最偏向一个身份或另一个身份的标签的排名。最后，作者利用 TensorBoard 提供了开源的 nPMI 可视化工具。

Mar, 2021

文本分类的内在性别偏见缓解能力究竟有多强？

本文探讨了内在的性别偏见缓解策略如何应用于下游的文本分类任务，发现单独使用这些内在策略并不能有效地缓解外在的偏见，建议采用其他公平性干预措施。

Jan, 2023

利用大型语言模型衡量性别化语言中的性别偏见

该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法，通过识别和分类与人类实体相关的具有性别特征的名词和代词，揭示了四个广泛使用的基准数据集中存在的显著性别差异，从男性到女性的比例范围从 4:1 到 6:1，这些发现证明了我们方法在性别语言中进行偏见量化的价值，并建议在自然语言处理中应用该方法，为更公平的语言技术发展做出贡献。

Jun, 2024

选择你的视角：性别偏见评估中的缺陷

通过评估当前性别偏见评估范式并识别其中的一些缺陷，我们提出了一些更可靠的性别偏见评估指南，强调了衡量模型性别影响的外在偏差度量的重要性，并发现数据集和度量往往是相互耦合的，这是导致获取可靠结论能力受到阻碍的原因之一。

Oct, 2022

性别去偏见对内部模型表示的影响及其重要性

本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系，并通过外部微调去除偏差，同时测量内在偏差，以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标，可以暴露浅表去偏差的情况，提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。

Apr, 2022

评测性别中性代词的翻译性别偏见

本研究提出了一种用于评估机器翻译系统性别偏见的测试集方案，并构建了一组既不带有偏见性别也不过度偏向一侧的词组，然后通过该方案评估了传统机器翻译系统的性别偏见。

May, 2019