用新形态和大型语言模型增强性别包容性机器翻译

May, 2024

用新形态和大型语言模型增强性别包容性机器翻译

Enhancing Gender-Inclusive Machine Translation with Neomorphemes and Large Language Models

Andrea Piergentili, Beatrice Savoldi, Matteo Negri, Luisa Bentivogli

TL;DR机器翻译模型在使用具有性别化语法的语言进行翻译时存在性别偏见，本文提出了一种公平的机器翻译方法，使用新形态素实现性别包容语言，并探索了使用大型语言模型将英文翻译成意大利文的方法。通过发布 Neo-GATE 资源，我们评估了四种不同类型和不同规模的大型语言模型在这一新颖任务上的优势和劣势。

Abstract

machine translation (MT) models are known to suffer from gender bias, especially when translating into languages with extensive gendered morphology. Accordingly, they still fall short in using →

machine translation gender bias gender-inclusive language neomorphemes large language models

发现论文，激发创造

评估性别中性语言翻译为英语的性别偏见

机器翻译在质量和应用方面不断取得进步，然而无意中传递性别偏见仍然是一个重大问题。为了弥补这一缺口，我们介绍了 GATE X-E，它是 GATE 语料库的扩展，包含了从土耳其语、匈牙利语、芬兰语和波斯语翻译成英语的人工翻译，并针对每种可能的性别解释提供了女性、男性和中性变体。我们还呈现了一个基于 GPT-3.5 Turbo 的英语性别重写解决方案，并利用 GATE X-E 对其进行了评估。我们开放源代码以鼓励进一步研究性别去偏见。

Nov, 2023

从包容语言到性别中性机器翻译

本文讨论性别中立翻译在机器翻译中的应用，并倡导其采用，以解决机器翻译模型延续性别偏见和歧视的问题。作者回顾了有关性别中立语言的相关机构指南，提出了性别中立翻译的策略和使用场景，并探讨了机器翻译中实施性别中立翻译的主要技术挑战。全文重点讨论了英语到意大利语的翻译问题，以代表性别标记规则不同的语言转换难题。

Jan, 2023

大型语言模型中的性别特定机器翻译

使用解码器 - only 大型语言模型（LLMs）进行性别特定翻译研究，发现通过提示可以控制输出属性，LLMs 比传统编码器 - 解码器神经机器翻译系统（NMT）提供独特优势，能够生成性别特定的翻译且具有竞争性准确性和性别偏见缓解，同时揭示了 LLMs 在性别模糊数据集中表现出明显性能下降但在上下文较少歧义的情况下保持一致的鲁棒性，并突出了上下文学习对于在 LLMs 中引发新任务的重要性。

Sep, 2023

机器翻译中的性别偏见与大型语言模型时代

本章检查了机器翻译在持续性别偏见方面的作用，强调了跨语言环境和统计依赖性所带来的挑战。提供了与传统神经机器翻译方法和作为机器翻译系统的生成式预训练变压器模型相关的现有研究的全面概述。通过在英意翻译环境中使用 ChatGPT（基于 GPT-3.5）的实验，进一步评估了 ChatGPT 目前解决性别偏见的能力。研究结果强调了在机器翻译系统中减少偏见的发展的持续需求，并强调了在语言技术中培养公平和包容的重要性。

Jan, 2024

对自动性别中性翻译需求的迅速响应

通过与 GPT-4 模型比较，我们通过广泛的手动分析实证揭示了当前机器翻译系统在生成性别中立翻译时的固有限制，并为提示中立性所涉及的潜力和挑战提供了有价值的见解。

Feb, 2024

基于形态学建模的低资源神经机器翻译

在低资源环境中，提出了一种用于模拟复杂形态的框架解决方案，该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器，提高了机器翻译性能，并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术，提高了在低资源环境中的翻译性能，最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能，希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。

Apr, 2024

GATE X-E：弱性别语言的性别平等翻译挑战集

神经机器翻译在质量和应用方面不断改进，但性别偏见的无意中延续仍是一个重要问题，尤其缺乏评估和减轻策略的基准，本研究通过引入 GATE X-E 扩展了 GATE 语料库，提供了从土耳其语、匈牙利语、芬兰语和波斯语到英语的人工翻译及其女性化、男性化和中性化变体，开发了基于 GPT-4 的翻译性别重写解决方案，并使用 GATE X-E 进行评估，倡导进一步研究性别去偏见问题。

Feb, 2024

神经机器翻译在不做特别处理时不能正确翻译性别指代

本文提出了一种将显式词级别的性别标记融入 NMT 中的方案，并探讨了在确定性别特征来源以及在目标语言中实现类似非二元词汇变化的情况下的性别标记控制翻译。该文发现了一些现有方法可能出现性别特征推广至句子中的多个实体，并提出了有效的替代方案，包括标记共指适应数据。

Oct, 2020

基于 GeNTE 语料库的性别中性机器翻译基准测试

我们的研究主要关注从英语到意大利语的性别中性翻译，通过提出专门的基准和探索自动评估方法来满足包容性语言的不断增长的需求。我们介绍了 GeNTE，这是一个自然、双语的性别中性翻译测试集，其创建受到有关中性语言感知和使用的调查的启发。基于 GeNTE，我们概述了现有的基于参考的评估方法，突出了它们的局限性，并提出了一种更适合评估性别中性翻译的无参考方法。

Oct, 2023

如何处理（新）代词：商业机器翻译的失败

本文针对以往自然语言处理领域所忽略的 neopronouns 等全新形式三人称代词使用方式及其对包容性的影响展开探究，特别关注了机器翻译对于被边缘化团体如非二进制人群等的歧视问题。发现中性代词经常导致语法和语义翻译错误，因此提供了针对这些问题的未来研究建议。

May, 2023