Apr, 2021

自适应稀疏 Transformer 多语言翻译

TL;DR通过采用自适应的、稀疏的多语言建模结构,实现共享参数和语言特定参数的学习,提高正向转移和减轻干扰,从而达到改善翻译质量和保持推理效率的目的。与标准 Transformer 相比,我们在多项基准测试中的表现都超过了强基准,特别是在使用 100 种语言的大规模 OPUS 数据集时,对于一对多、多对一和零 shot 任务分别提高了 2.1、1.3 和 6.2 BLEU 分数,未增加推理成本。