神经机器翻译中实现性别准确性
神经机器翻译(NMT)模型是机器翻译的先进技术,但这些模型被发现存在各种社会偏见,尤其是性别偏见。本文以印地语作为源语言,构建了两组性别特定的句子集(OTSC-Hindi 和 WinoMT-Hindi),用于自动评估不同的印地 - 英文(HI-EN)NMT 系统是否存在性别偏见。本研究强调了设计此类外在偏见评估数据集时考虑语言特性的重要性。
Nov, 2023
在机器翻译中,当源语言句子未提供主语的性别信息时,系统往往选择最常见的翻译选项,从而可能加剧某些群体和人员的偏见和边缘化。为减少对性别刻板印象的依赖,本论文提出使用包含主语性别信息的单词级别注释训练机器翻译系统的方法,实验结果表明,这可使机器翻译系统在五种语言对上的 WinoMT 测试集上准确度提高高达 25.8 个百分点。
Oct, 2020
本文提出了一种将显式词级别的性别标记融入 NMT 中的方案,并探讨了在确定性别特征来源以及在目标语言中实现类似非二元词汇变化的情况下的性别标记控制翻译。该文发现了一些现有方法可能出现性别特征推广至句子中的多个实体,并提出了有效的替代方案,包括标记共指适应数据。
Oct, 2020
本文研究了最先进的机器翻译系统中的信息流,以将法语翻译成英语时的性别转移为例。通过实验控制的示例,我们尝试多种方法来研究性别信息如何在编码器 - 解码器架构中循环传播,包括探测技术以及对 MT 系统中使用的内部表示形式的干预。结果表明,性别信息可以在编码器和解码器构建的所有标记表示中找到,并且导致我们得出结论,即存在多个性别转移的路径。
Feb, 2022
神经机器翻译中存在性别偏见,而评估基准主要关注英语作为源语言的翻译,我们提出了为源语言中的语法性别标记量身定制偏见评估测试集的方法,以确定 NMT 模型是否能通过语法性别线索来区分性别。
Nov, 2023
通过将说话者的性别元数据合并到单个 “多性别” 神经语音转换模型中,可以避免性别偏见并提高性别准确性(女性形式可提高 12.9),相比专门的性别模型,该模型训练自零效果更好,而基于现有频培训模型的微调则不具有竞争力。
Oct, 2023
研究了语音翻译中存在的性别偏见问题,并基于英意 / 英法语言方向比较了级联与端到端技术,着重于探究如何利用音频信息来解决自然语言中的性别偏见问题。
Jun, 2020
研究表明,使用基于 Transformer 的神经机器翻译模型在翻译一个没有对名词进行性别标注的语言时存在一些固有的性别标注错误。该论文提出了一个评估方案和数据集,以便在不同语言和句法结构的语境下准确评估基于 Transformer 的 NMT 模型的性别标注翻译能力。
Apr, 2021
本研究利用两个共指解析数据集,通过 8 种有语法性别的目标语言中的形态分析,第一次提出了机器翻译中性别偏见的挑战集和评估协议,并发现四个流行的工业机器翻译系统和两个最新的学术机器翻译模型在所有测试的目标语言上都容易出现性别偏见翻译错误。
Jun, 2019