GECOBench: 一个用于评估解释中偏见量化的性别控制文本数据集和基准

Jun, 2024

GECOBench: 一个用于评估解释中偏见量化的性别控制文本数据集和基准

GECOBench: A Gender-Controlled Text Dataset and Benchmark for Quantifying Biases in Explanations

Rick Wilming, Artur Dox, Hjalmar Schulz, Marta Oliveira, Benedict Clark...

TL;DR此研究探讨了大型预训练语言模型的可解释性人工智能技术及其对性别偏见的影响，并创建了一个性别控制文本数据集，通过对预训练模型的不同微调程度进行 XAI 方法的评估，展示了解释性能与微调层数之间的关系。

Abstract

large pre-trained language models have become popular for many applications and form an important backbone of many downstream tasks in natural language processing (NLP). Applying 'explainable artificial intelligence

large pre-trained language models explainable artificial intelligence gender-controlled text dataset xai methods fine-tuning

发现论文，激发创造

识别和减少单词级语言模型中的性别偏见

本研究以性别为例，用度量方法描述了文本语料中的社会问题偏差。提出了语言模型的正则化损失项以减少性别偏差，最终在多个语料库中验证了该方法的有效性。

Apr, 2019

目标无关的性别感知对比学习在多语言机器翻译中缓解偏见

针对多语言机器翻译模型中明显的性别偏见问题，提出了一种新的缓解方法，Gender-Aware Contrastive Learning，通过伪标签在编码器嵌入中编码性别信息来提高性别准确度并改善其他目标语言的性别准确度。

May, 2023

利用有偏模型去偏见文本：一种性别公平的重写模型

探讨通过机器翻译来创建性别不平等文本数据，用于生成更公平性别语言的模型训练，从而消除语言规则的影响和提高性能。

May, 2023

利用词嵌入技术消除神经机器翻译中的性别偏差

本文提出使用词向量以减少神经机器翻译中性别偏见的方法并应用于 Transformer 翻译结构中，通过评估在 WMT 英西标准测试上的结果，展示出一定的性能提高和在职业测试集上消除基线系统已存在的偏见。

Jan, 2019

利用人工法语数据理解转换器语言模型中性别偏见的出现

神经语言模型在没有直接监督的情况下学习各种语言属性的能力已被多个研究证明。本研究初步探索神经模型如何发现词语的语言属性（如性别）及其使用规则这一较少研究的主题。我们建议使用基于法语的 PCFG 生成的人工语料库来精确控制训练数据中的性别分布，并确定模型在何种条件下正确捕捉性别信息，或出现性别偏见。

Oct, 2023

一种生成带有 XAI 地面真实性数据集的方法，以评估图像模型的新方法

本研究提出了一种生成具有真实标准数据集的新方法来衡量可解释人工智能的解释质量，并通过实验证明了该方法的正确性。

Feb, 2023

使用性别平等的损失函数减少单词级语言模型中的性别偏见

本研究提出一种基于损失函数修改的去偏见方法，旨在平衡输出中男性和女性单词的概率；通过使用一系列偏差评估指标，我们提供实证证据表明我们的方法成功地减轻了语言模型中的性别偏见。与现有的去偏见策略，数据扩充和单词嵌入去偏见相比，我们的方法在多个方面，特别是在减少职业单词中的性别偏见方面表现更好。最后，我们介绍了一种数据扩充和我们方法的组合，并展示它在所有偏差评估指标中表现出优于现有策略的效果。

May, 2019

COBIAS：偏见评估中的情境可靠性

大型语言模型 (LLMs) 的研究及应用中存在偏见问题，本论文提出了一种基于上下文的偏见指标和评估分数 (COBIAS) 来测量偏见的可靠性，并且通过创建可靠的数据集来改善偏见减轻工作。

Feb, 2024

机器翻译中的性别偏见与大型语言模型时代

本章检查了机器翻译在持续性别偏见方面的作用，强调了跨语言环境和统计依赖性所带来的挑战。提供了与传统神经机器翻译方法和作为机器翻译系统的生成式预训练变压器模型相关的现有研究的全面概述。通过在英意翻译环境中使用 ChatGPT（基于 GPT-3.5）的实验，进一步评估了 ChatGPT 目前解决性别偏见的能力。研究结果强调了在机器翻译系统中减少偏见的发展的持续需求，并强调了在语言技术中培养公平和包容的重要性。

Jan, 2024

神经自然语言处理中的性别偏见

本文研究了神经自然语言处理系统是否反映了训练数据中的历史偏见。通过定义量化神经自然语言处理任务中的性别偏见的基准测试，实证研究发现目前最先进的神经语言模型和基于基准数据集的循环神经网络在职业看待上存在显著的性别偏见。作者提出了一种基于因果干预的语料库增强通用方法，CDA，以减轻偏见而保留矫正前的准确性。作者发现 CDA 优于词嵌入去偏的先前方法，尤其是在词嵌入训练时；对于预先训练的嵌入，两种方法可以被有效地组合。作者还发现原始数据集在优化时会鼓励性别偏见增加；而 CDA 可以缓解这种行为。

Jul, 2018