WMT2020 年性别同指和偏见评估

Oct, 2020

Gender Coreference and Bias Evaluation at WMT 2020

Tom Kocmi, Tomasz Limisiewicz, Gabriel Stanovsky

TL;DR通过使用 WinoMT 自动测试套件，我们对 19 个系统进行了研究，发现性别偏见在机器翻译中很常见，系统通常使用数据中的假性别关联而非有意义的上下文信息。

Abstract

gender bias in machine translation can manifest when choosing gender inflections based on spurious gender correlations. For example, alway

gender bias machine translation spurious gender correlations winomt grammatical gender

发现论文，激发创造

机器翻译中性别偏见的评估

本研究利用两个共指解析数据集，通过 8 种有语法性别的目标语言中的形态分析，第一次提出了机器翻译中性别偏见的挑战集和评估协议，并发现四个流行的工业机器翻译系统和两个最新的学术机器翻译模型在所有测试的目标语言上都容易出现性别偏见翻译错误。

Jun, 2019

评估语音翻译中的性别偏差

本篇研究提出 WinoST 挑战集，用于针对性别偏见进行演讲翻译的评估，并使用最先进的端到端演讲翻译系统在四个语言对上进行了性别准确性评估。

Oct, 2020

为指代消解和机器翻译收集大规模性别偏置数据集

通过寻找语法模式，我们在三个领域的语料库中发现了暗示刻板印象和非刻板印象的性别角色分配（例如女护士与男舞者），并发布了首个包含 108k 多样化英语句子的大规模性别偏见数据集，使用它来评估各种指代解析和机器翻译模型中的性别偏见，发现所有测试模型在处理自然输入时都倾向于过度依赖性别刻板印象。我们的数据集和模型都在 www.github.com/SLAB-NLP/BUG 上公开，希望它们能在实际环境中促进未来的性别偏见评估和缓解技术研究。

Sep, 2021

使用语法性别暗示进行机器翻译偏见评估：性别落地还是偏见施加

神经机器翻译（NMT）模型是机器翻译的先进技术，但这些模型被发现存在各种社会偏见，尤其是性别偏见。本文以印地语作为源语言，构建了两组性别特定的句子集（OTSC-Hindi 和 WinoMT-Hindi），用于自动评估不同的印地 - 英文（HI-EN）NMT 系统是否存在性别偏见。本研究强调了设计此类外在偏见评估数据集时考虑语言特性的重要性。

Nov, 2023

核指消解中的性别偏见：评估与去偏方法

本研究介绍了一个新的基准数据集 WinoBias，用于解决与性别偏见有关的指代消解问题。通过数据增强方法，结合现有的词嵌入去偏置技术，可以消除核心指代消解系统对 WinoBias 数据集中男女刻板定型实体的偏见，同时不会显著影响系统的表现。

Apr, 2018

好，但并不总是公平：对三个商用机器翻译系统性别偏见的评估

本研究评估了 Google Translate、DeepL 和 Modern MT 这三种在线翻译系统在性别翻译和偏见方面的表现，并发现这些系统在性别翻译方面存在不同程度的偏见。

Jun, 2023

优先选择翻译更为准确的性别翻译策略

本研究通过调整推理过程，使用性别特征和应用性别约束条件，改善 $nbest$ 列表的性别多样性，解决了神经机器翻译中的性别偏见问题，最终权衡这些技术可以在不需要额外的双语数据或额外的 NMT 模型的情况下获得显着的 WinoMT 准确度提高.

Apr, 2021

评估机器翻译中的性别偏见 -- 以 Google 翻译为例

本文研究了机器偏见和性别偏见，使用性别中性语言对 Google 翻译进行了实验，结果显示翻译的默认性别更偏向于男性，特别是在 STEM 领域中，这种偏见程度远超实际分布，因此需要对当前的统计翻译工具进行偏误纠正。

Sep, 2018

使用目标性别标注缓解机器翻译中的性别偏见

在机器翻译中，当源语言句子未提供主语的性别信息时，系统往往选择最常见的翻译选项，从而可能加剧某些群体和人员的偏见和边缘化。为减少对性别刻板印象的依赖，本论文提出使用包含主语性别信息的单词级别注释训练机器翻译系统的方法，实验结果表明，这可使机器翻译系统在五种语言对上的 WinoMT 测试集上准确度提高高达 25.8 个百分点。

Oct, 2020

使用反事实数据生成减少机器翻译中的性别偏见

最近的神经方法在神经机器翻译（NMT）系统质量方面取得了重大进展。然而，这些系统经常会产生具有不准确性别的翻译，这可以追溯到训练数据中的偏见。Saunders 和 Byrne 通过使用一个包含平衡性别职业词的手工制作数据集来解决这个问题。通过使用这个数据来微调现有的 NMT 模型，他们证明了性别偏见可以显著减轻，尽管这会导致由于灾难性遗忘而降低翻译质量。然而，我们发现，简单地补充手工制作的数据集与基础模型训练语料库的随机样本就足以显著减少灾难性遗忘。我们还提出了一种新颖的领域自适应技术，利用 Zmigrod 等人提出的反事实数据生成技术创建的领域内数据，在不显著降低翻译质量的情况下进一步提高 WinoMT 挑战测试集的准确性。我们展示了它在从英语到三种形态丰富的语言（法语、西班牙语和意大利语）的 NMT 系统中的有效性。相关数据集和代码将在 Github 上提供。

Nov, 2023