比较内在性别偏见评估方法,无需使用人工标注示例
本文提出了一种考虑自然语言推理任务中所有标签的评估方法来评估预训练语言模型中的偏见,并通过对多种语言的模型进行元评估,证明该方法能够更准确地评估偏见。此外,本文还是首次在日语和中文的自然语言推理任务中构建评估数据集并测量预训练语言模型的偏见倾向。
Sep, 2023
本文比较了不同任务和实验条件下数百个已训练模型的内在和外在偏差度量标准之间的关系,发现这些度量标准在所有情况下都没有可靠的相关性。作者呼吁重点关注外在的偏差度量标准,并通过创建新的挑战集和注释测试数据使使用这些度量标准更加可行。在此基础上,作者发布了一份基于性别偏见的仇恨言论的代码、新的内部度量标准和一个注释的测试集。
Dec, 2020
本论文通过系统的调研,研究发现了预训练模型存在性别偏见的问题,探讨了预训练模型在图像字幕生成任务中的公平性影响,并提出了一种针对这种问题的解决方案:结合 n-gram 匹配和预训练模型评估度量,以减少性别偏见的影响。
May, 2023
本文首次对基于预训练语言模型的度量方法中的社会偏见进行了系统研究,并发现相比传统度量方法,最受欢迎的基于预训练语言模型的度量方法在种族、性别、宗教、外貌、年龄和社会经济地位等 6 个敏感属性上显示出显著的社会偏向。此外,研究发现选择度量方法的范式比选择预训练语言模型对公平性的影响更大,我们提出了消除偏见的适配器方案,将其注入到预训练语言模型层中,从而减轻了基于预训练语言模型的度量方法的偏见,同时保持了评估文本生成的高性能。
Oct, 2022
这篇研究提出了一种解决机器学习中偏见问题的数学方法,利用图像分类作为工作示例,通过将分类模型对给定图像的预测视为类似于单词袋的标签集合,排名模型对不同身份标签学习的偏见。作者使用(男人,女人)作为身份标签集的具体例子,并展示了最偏向一个身份或另一个身份的标签的排名。最后,作者利用 TensorBoard 提供了开源的 nPMI 可视化工具。
Mar, 2021
本文探讨了内在的性别偏见缓解策略如何应用于下游的文本分类任务,发现单独使用这些内在策略并不能有效地缓解外在的偏见,建议采用其他公平性干预措施。
Jan, 2023
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从 4:1 到 6:1,这些发现证明了我们方法在性别语言中进行偏见量化的价值,并建议在自然语言处理中应用该方法,为更公平的语言技术发展做出贡献。
Jun, 2024
通过评估当前性别偏见评估范式并识别其中的一些缺陷,我们提出了一些更可靠的性别偏见评估指南,强调了衡量模型性别影响的外在偏差度量的重要性,并发现数据集和度量往往是相互耦合的,这是导致获取可靠结论能力受到阻碍的原因之一。
Oct, 2022
本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系,并通过外部微调去除偏差,同时测量内在偏差,以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标,可以暴露浅表去偏差的情况,提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。
Apr, 2022
本研究提出了一种用于评估机器翻译系统性别偏见的测试集方案,并构建了一组既不带有偏见性别也不过度偏向一侧的词组,然后通过该方案评估了传统机器翻译系统的性别偏见。
May, 2019