利用反事实数据增强来减轻语言中丰富形态学的性别刻板印象

ACLJun, 2019

利用反事实数据增强来减轻语言中丰富形态学的性别刻板印象

Counterfactual Data Augmentation for Mitigating Gender Stereotypes in Languages with Rich Morphology

Ran Zmigrod, Sabrina J. Mielke, Hanna Wallach, Ryan Cotterell

TL;DR提出一种新方法，在语法形态复杂的语言（如西班牙语和希伯来语）中将男性化和女性化的句子互相转换，以达到减少性别刻板印象的目的，同时保持语法正确性。

Abstract

gender stereotypes are manifest in most of the world's languages and are consequently propagated or amplified by nlp systems. Although research has focused on mitigating →

gender stereotypes nlp systems morphologically rich languages masculine-inflected feminine-inflected

发现论文，激发创造

使用反事实数据生成减少机器翻译中的性别偏见

最近的神经方法在神经机器翻译（NMT）系统质量方面取得了重大进展。然而，这些系统经常会产生具有不准确性别的翻译，这可以追溯到训练数据中的偏见。Saunders 和 Byrne 通过使用一个包含平衡性别职业词的手工制作数据集来解决这个问题。通过使用这个数据来微调现有的 NMT 模型，他们证明了性别偏见可以显著减轻，尽管这会导致由于灾难性遗忘而降低翻译质量。然而，我们发现，简单地补充手工制作的数据集与基础模型训练语料库的随机样本就足以显著减少灾难性遗忘。我们还提出了一种新颖的领域自适应技术，利用 Zmigrod 等人提出的反事实数据生成技术创建的领域内数据，在不显著降低翻译质量的情况下进一步提高 WinoMT 挑战测试集的准确性。我们展示了它在从英语到三种形态丰富的语言（法语、西班牙语和意大利语）的 NMT 系统中的有效性。相关数据集和代码将在 Github 上提供。

Nov, 2023

利用大型语言模型衡量性别化语言中的性别偏见

该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法，通过识别和分类与人类实体相关的具有性别特征的名词和代词，揭示了四个广泛使用的基准数据集中存在的显著性别差异，从男性到女性的比例范围从 4:1 到 6:1，这些发现证明了我们方法在性别语言中进行偏见量化的价值，并建议在自然语言处理中应用该方法，为更公平的语言技术发展做出贡献。

Jun, 2024

在印地语和马拉地语中缓解性别刻板印象

本文评估了印地语和马拉地语中的性别刻板印象，并使用嵌入相干性测试（ECT）和相对规范距离（RND）衡量偏差，并尝试缓解这些语言中的性别偏见。

May, 2022

在形态句法镜头下：对语音翻译性别偏见的多方位评估

通过对自然、性别敏感的 MuST-SHE 语料库进行 POS 和一致性链的语言学注释，在英法 / 意大利语 / 西班牙语三种语言方向上针对不同数量的数据和不同的词语分割技术进行多方面评估，揭示了性别偏见的模型行为，及其在多个细粒度层次上的检测价值。

Mar, 2022

探讨具有语法性别的语言中的性别偏见

该研究提出了一种新的度量标准来评估西班牙语和法语等语言中的词嵌入性别偏见，并进一步证明了双语词嵌入与英文词嵌入存在性别偏见的一致性。同时作者还提供了一种新的方法用于缓解这种偏见。实验结果表明这些方法有效地减少了性别偏见，同时也保持了嵌入向量的实用性。

Sep, 2019

利用有偏模型去偏见文本：一种性别公平的重写模型

探讨通过机器翻译来创建性别不平等文本数据，用于生成更公平性别语言的模型训练，从而消除语言规则的影响和提高性能。

May, 2023

利用扰动自动识别机器翻译中的性别问题

该研究利用神经网络方法实现自然语言翻译，挖掘实际数据中存在性别语言模型与相关问题，发布评估基准用于研究性别语言模型的特性和潜在影响。

Apr, 2020

机器翻译中性别偏见的评估

本研究利用两个共指解析数据集，通过 8 种有语法性别的目标语言中的形态分析，第一次提出了机器翻译中性别偏见的挑战集和评估协议，并发现四个流行的工业机器翻译系统和两个最新的学术机器翻译模型在所有测试的目标语言上都容易出现性别偏见翻译错误。

Jun, 2019

使用目标性别标注缓解机器翻译中的性别偏见

在机器翻译中，当源语言句子未提供主语的性别信息时，系统往往选择最常见的翻译选项，从而可能加剧某些群体和人员的偏见和边缘化。为减少对性别刻板印象的依赖，本论文提出使用包含主语性别信息的单词级别注释训练机器翻译系统的方法，实验结果表明，这可使机器翻译系统在五种语言对上的 WinoMT 测试集上准确度提高高达 25.8 个百分点。

Oct, 2020

基于模型的对抗生成器用于性别偏见缓解

通过使用数据处理技术和双目标训练方案，我们提出了一个基于模型的解决方案来生成对抗性样本以减轻性别偏见，并通过实证评估表明我们的模型减轻了基于词典的解决方案的缺点。

Nov, 2023