用新形态和大型语言模型增强性别包容性机器翻译
机器翻译在质量和应用方面不断取得进步,然而无意中传递性别偏见仍然是一个重大问题。为了弥补这一缺口,我们介绍了 GATE X-E,它是 GATE 语料库的扩展,包含了从土耳其语、匈牙利语、芬兰语和波斯语翻译成英语的人工翻译,并针对每种可能的性别解释提供了女性、男性和中性变体。我们还呈现了一个基于 GPT-3.5 Turbo 的英语性别重写解决方案,并利用 GATE X-E 对其进行了评估。我们开放源代码以鼓励进一步研究性别去偏见。
Nov, 2023
本文讨论性别中立翻译在机器翻译中的应用,并倡导其采用,以解决机器翻译模型延续性别偏见和歧视的问题。作者回顾了有关性别中立语言的相关机构指南,提出了性别中立翻译的策略和使用场景,并探讨了机器翻译中实施性别中立翻译的主要技术挑战。全文重点讨论了英语到意大利语的翻译问题,以代表性别标记规则不同的语言转换难题。
Jan, 2023
使用解码器 - only 大型语言模型(LLMs)进行性别特定翻译研究,发现通过提示可以控制输出属性,LLMs 比传统编码器 - 解码器神经机器翻译系统(NMT)提供独特优势,能够生成性别特定的翻译且具有竞争性准确性和性别偏见缓解,同时揭示了 LLMs 在性别模糊数据集中表现出明显性能下降但在上下文较少歧义的情况下保持一致的鲁棒性,并突出了上下文学习对于在 LLMs 中引发新任务的重要性。
Sep, 2023
本章检查了机器翻译在持续性别偏见方面的作用,强调了跨语言环境和统计依赖性所带来的挑战。提供了与传统神经机器翻译方法和作为机器翻译系统的生成式预训练变压器模型相关的现有研究的全面概述。通过在英意翻译环境中使用 ChatGPT(基于 GPT-3.5)的实验,进一步评估了 ChatGPT 目前解决性别偏见的能力。研究结果强调了在机器翻译系统中减少偏见的发展的持续需求,并强调了在语言技术中培养公平和包容的重要性。
Jan, 2024
通过与 GPT-4 模型比较,我们通过广泛的手动分析实证揭示了当前机器翻译系统在生成性别中立翻译时的固有限制,并为提示中立性所涉及的潜力和挑战提供了有价值的见解。
Feb, 2024
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
神经机器翻译在质量和应用方面不断改进,但性别偏见的无意中延续仍是一个重要问题,尤其缺乏评估和减轻策略的基准,本研究通过引入 GATE X-E 扩展了 GATE 语料库,提供了从土耳其语、匈牙利语、芬兰语和波斯语到英语的人工翻译及其女性化、男性化和中性化变体,开发了基于 GPT-4 的翻译性别重写解决方案,并使用 GATE X-E 进行评估,倡导进一步研究性别去偏见问题。
Feb, 2024
本文提出了一种将显式词级别的性别标记融入 NMT 中的方案,并探讨了在确定性别特征来源以及在目标语言中实现类似非二元词汇变化的情况下的性别标记控制翻译。该文发现了一些现有方法可能出现性别特征推广至句子中的多个实体,并提出了有效的替代方案,包括标记共指适应数据。
Oct, 2020
我们的研究主要关注从英语到意大利语的性别中性翻译,通过提出专门的基准和探索自动评估方法来满足包容性语言的不断增长的需求。我们介绍了 GeNTE,这是一个自然、双语的性别中性翻译测试集,其创建受到有关中性语言感知和使用的调查的启发。基于 GeNTE,我们概述了现有的基于参考的评估方法,突出了它们的局限性,并提出了一种更适合评估性别中性翻译的无参考方法。
Oct, 2023
本文针对以往自然语言处理领域所忽略的 neopronouns 等全新形式三人称代词使用方式及其对包容性的影响展开探究,特别关注了机器翻译对于被边缘化团体如非二进制人群等的歧视问题。发现中性代词经常导致语法和语义翻译错误,因此提供了针对这些问题的未来研究建议。
May, 2023