语言翻译之间的差距如何影响零 - shot 多语言翻译中的性别偏见
通过设计归一化方法来改进 Transformer 模型以实现对未在训练过程中出现的语言对进行零 - shot 机器翻译,此方法可使系统在 IWSLT 2017 多语言数据集中平均提高 2.23 BLEU 分数。
Jun, 2019
本章检查了机器翻译在持续性别偏见方面的作用,强调了跨语言环境和统计依赖性所带来的挑战。提供了与传统神经机器翻译方法和作为机器翻译系统的生成式预训练变压器模型相关的现有研究的全面概述。通过在英意翻译环境中使用 ChatGPT(基于 GPT-3.5)的实验,进一步评估了 ChatGPT 目前解决性别偏见的能力。研究结果强调了在机器翻译系统中减少偏见的发展的持续需求,并强调了在语言技术中培养公平和包容的重要性。
Jan, 2024
本文研究了多语言神经机器翻译模型的零样本翻译问题,提出了基于辅助损失的方法,并在 WMT14 英语 - 法语 / 德语上实现了与基于中介语的模型相媲美的零样本翻译效果,同时在 IWSLT 2017 共享任务中验证了该方法的易于扩展性。
Mar, 2019
本文探讨了如何改善大规模多语言神经机器翻译模型的性能,并提出了加强模型能力、引入语言特定组件和加深神经机器翻译结构以支持具有不同类型学特征的语言对,同时通过随机在线回译来解决离线训练中未出现的语言对翻译问题。实验结果表明,本方法在一对多和多对多设置中缩小了双语模型的性能差距,并将零 - shot 表现提高约 10 BLEU,接近传统的基于中间语言的方法。
Apr, 2020
神经机器翻译(NMT)模型是机器翻译的先进技术,但这些模型被发现存在各种社会偏见,尤其是性别偏见。本文以印地语作为源语言,构建了两组性别特定的句子集(OTSC-Hindi 和 WinoMT-Hindi),用于自动评估不同的印地 - 英文(HI-EN)NMT 系统是否存在性别偏见。本研究强调了设计此类外在偏见评估数据集时考虑语言特性的重要性。
Nov, 2023
本研究提出了两种简单但有效的方法,解决零样本神经机器翻译的退化问题,即解决了源语言和解码语言之间的虚假相关性问题。实验结果表明,在三个具有挑战性的多语言数据集上,在零样本翻译上取得了显著的提高,并且在某些情况下可以实现优于传统基于 pivot 翻译的效果。
Jun, 2019
机器翻译在质量和应用方面不断取得进步,然而无意中传递性别偏见仍然是一个重大问题。为了弥补这一缺口,我们介绍了 GATE X-E,它是 GATE 语料库的扩展,包含了从土耳其语、匈牙利语、芬兰语和波斯语翻译成英语的人工翻译,并针对每种可能的性别解释提供了女性、男性和中性变体。我们还呈现了一个基于 GPT-3.5 Turbo 的英语性别重写解决方案,并利用 GATE X-E 对其进行了评估。我们开放源代码以鼓励进一步研究性别去偏见。
Nov, 2023
针对多语言机器翻译模型中明显的性别偏见问题,提出了一种新的缓解方法,Gender-Aware Contrastive Learning,通过伪标签在编码器嵌入中编码性别信息来提高性别准确度并改善其他目标语言的性别准确度。
May, 2023
本篇论文介绍了如何使用多语言神经机器翻译(multilingual NMT)解决低资源语种翻译问题,提出了一种基于迭代自训练的方法可以利用单语数据来提高零样本翻译的性能。实验结果表明,多语言 NMT 优于传统的双语 NMT,Transformer 模型优于循环神经网络模型,零样本 NMT 优于传统的基于中间语的翻译方法,甚至与完全训练的双语系统相当。
Sep, 2019
本研究关注多语言词向量中的性别偏见对迁移学习的影响,并提出了量化多语言词向量性别偏差的方法。结果表明,不同目标空间上的多语言词向量性别偏差受到不同的影响,对于下游任务的使用提供建议。
May, 2020