神经机器翻译中实现性别准确性

EMNLPSep, 2019

Getting Gender Right in Neural Machine Translation

Eva Vanmassenhove, Christian Hardmeier, Andy Way

TL;DR本研究将性别信息加入神经机器翻译系统中，旨在提高语言翻译的准确性。实验结果表明，对于某些语言对，加入性别特征显著提高了翻译质量。

Abstract

Speakers of different languages must attend to and encode strikingly different aspects of the world in order to use their language correctly (Sapir, 1921; Slobin, 1996). One such difference is related to the way gender is expressed in a language. Saying "I am happy" in English, does not encode any additional knowledge of the speaker that uttered the sentence

gender information nmt systems language translation morphological agreement demographic factors

发现论文，激发创造

使用语法性别暗示进行机器翻译偏见评估：性别落地还是偏见施加

神经机器翻译（NMT）模型是机器翻译的先进技术，但这些模型被发现存在各种社会偏见，尤其是性别偏见。本文以印地语作为源语言，构建了两组性别特定的句子集（OTSC-Hindi 和 WinoMT-Hindi），用于自动评估不同的印地 - 英文（HI-EN）NMT 系统是否存在性别偏见。本研究强调了设计此类外在偏见评估数据集时考虑语言特性的重要性。

Nov, 2023

使用目标性别标注缓解机器翻译中的性别偏见

在机器翻译中，当源语言句子未提供主语的性别信息时，系统往往选择最常见的翻译选项，从而可能加剧某些群体和人员的偏见和边缘化。为减少对性别刻板印象的依赖，本论文提出使用包含主语性别信息的单词级别注释训练机器翻译系统的方法，实验结果表明，这可使机器翻译系统在五种语言对上的 WinoMT 测试集上准确度提高高达 25.8 个百分点。

Oct, 2020

神经机器翻译在不做特别处理时不能正确翻译性别指代

本文提出了一种将显式词级别的性别标记融入 NMT 中的方案，并探讨了在确定性别特征来源以及在目标语言中实现类似非二元词汇变化的情况下的性别标记控制翻译。该文发现了一些现有方法可能出现性别特征推广至句子中的多个实体，并提出了有效的替代方案，包括标记共指适应数据。

Oct, 2020

神经机器翻译中的性别转换筛选

本文研究了最先进的机器翻译系统中的信息流，以将法语翻译成英语时的性别转移为例。通过实验控制的示例，我们尝试多种方法来研究性别信息如何在编码器 - 解码器架构中循环传播，包括探测技术以及对 MT 系统中使用的内部表示形式的干预。结果表明，性别信息可以在编码器和解码器构建的所有标记表示中找到，并且导致我们得出结论，即存在多个性别转移的路径。

Feb, 2022

别忽视语法性别：针对印度 - 英语机器翻译的偏见评估

神经机器翻译中存在性别偏见，而评估基准主要关注英语作为源语言的翻译，我们提出了为源语言中的语法性别标记量身定制偏见评估测试集的方法，以确定 NMT 模型是否能通过语法性别线索来区分性别。

Nov, 2023

如何构建多性别竞争性语音翻译模型以控制说话者性别翻译

通过将说话者的性别元数据合并到单个 “多性别” 神经语音转换模型中，可以避免性别偏见并提高性别准确性（女性形式可提高 12.9），相比专门的性别模型，该模型训练自零效果更好，而基于现有频培训模型的微调则不具有竞争力。

Oct, 2023

性别危险？在 MuST-SHE 语料库上评估语音翻译技术

研究了语音翻译中存在的性别偏见问题，并基于英意 / 英法语言方向比较了级联与端到端技术，着重于探究如何利用音频信息来解决自然语言中的性别偏见问题。

Jun, 2020

探究自动翻译在无歧义性别情况下发生错误的原因

研究表明，使用基于 Transformer 的神经机器翻译模型在翻译一个没有对名词进行性别标注的语言时存在一些固有的性别标注错误。该论文提出了一个评估方案和数据集，以便在不同语言和句法结构的语境下准确评估基于 Transformer 的 NMT 模型的性别标注翻译能力。

Apr, 2021

机器翻译中性别偏见的评估

本研究利用两个共指解析数据集，通过 8 种有语法性别的目标语言中的形态分析，第一次提出了机器翻译中性别偏见的挑战集和评估协议，并发现四个流行的工业机器翻译系统和两个最新的学术机器翻译模型在所有测试的目标语言上都容易出现性别偏见翻译错误。

Jun, 2019

面向英阿语的性别感知口语翻译

本文介绍了一种解决语言没有性别协议的情况下进行机器翻译的方法，并通过适应方法提高了 2 个 BLEU 分数。

Feb, 2018