Jun, 2020

可扩展的跨语言支枢词建模代词性别用于翻译

TL;DR本研究提出了一种基于跨语言枢轴技术的新颖方法,用于自动生成高质量的性别标签,并展示了这些数据可用于微调 BERT 分类器,该分类器对于西班牙语中丢失的女性代词具有 92%的 F1,相比之下,神经机器翻译模型和非微调 BERT 模型分别为 30-51% 和 54-71%。我们使用来自我们分类器的标签来增强神经机器翻译模型以改进代词翻译,同时仍具有可并行化的翻译模型,可以逐句翻译。